风险统计分析在讨论连续性的变量变量的理论分布时多采用什么

点击联系发帖人 时间：2016-06-17 06:22

连续性变量

3192被浏览233071分享邀请回答86750 条评论分享收藏感谢收起23719 条评论分享收藏感谢收起(window.slotbydup = window.slotbydup || []).push({
id: '4540180',
container: s,
size: '250,200',
display: 'inlay-fix'
热门资料排行
添加成功至
资料评价：
所需积分：0I。多重对应分析
多重对应分析在超过两个以上定类变量时有时候非常有效，当然首先我们要理解并思考，如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量，这时候就可以用简单对应分析了。
对应分析对数据的格式要求：
现在，我们还是来看看如何操作多重对应分析并如何解读对应图；
我们假定有个汽车数据集，包括：来源国（1-美国、2-欧洲、3-日本），尺寸（1-大型、2-中型、3-小型），类型（1-家庭、2-运动、3-工作），拥有（1-自有、2-租赁）性别（1-男、2-女），收入来源（1-1份工资来源、2-2份工资来源），婚姻状况（1-已婚、2-已婚有孩子、3-单身、4-单身有孩子）；
从数据集看，我们有7个定类变量，如果组合成简单的交叉表是困难的事情，此时采用多重对应分析是恰当的分析方法。
下面我还是采用SPSS18.0，现在叫PASW Statistics 18.0来操作！注意：不同版本在多重对应分析方法有一些不同，但大家基本上可以看出了，高版本只能是更好，但选择会复杂和不同！
在进行多重对应分析之前，研究者应该能够记住各个变量大致有多少类别，个别变量如果变量取值太偏或异常值出现，都会影响对应分析的结果和对应图分析！
在SPSS分析菜单下选择降维（Data Redaction-数据消减）后选择最优尺度算法，该选项下，根据数据集和数据测量尺度不同有三种不同的高级定类分析算法，主要包括：多重对应分析、分类（非线性）主成分分析、非线性典型相关分析；
注意：随着版本的增高，研究人员在统计分析时就要各位主要变量的测量尺度，并且最好在进行数据清理和分析前，明确定义好测量尺度；当然也要做好Lable工作！
接下来，我们就可以选择变量和条件了！
大家可以把要分析的变量都放到分析变量内，补充变量的含义是如果有哪个变量你并不想作为对应分析的变量，而只是作为附属变量表现在对应图上可以加入！这一点其实在简单对应分析也有这种定义。（我们将在专门的简单对应分析方法中再讲！）
然后我们要选择“变量”选项，大家可以选择类别图：每一个变量的分类图，重点是选择联合类别图，我们把7个变量全部放入，执行！（其它选项大家可以测试，我还有一些没有搞清楚）
下面我们看结果：
从图中我们可以看出：美国车都比较大，家庭型，主要购买者是已婚带孩子的；日本和欧洲车主要是小型、运动的和已婚没有孩子的人购买；特别注意：单身和单身带孩子的往往是租赁汽车，收入单一来源，但这个地区没有车满足这个市场，或许是市场空白；
具体的解读大家可以根据自己的研究设计和假设去寻找答案！
主要统计指标可以看：
上图主要给我们了对应图维度的解释比率，最下面的图大家会看吗？
提示：夹角是锐角意味着相关，所以：定类变量的相关性是不是可以解释啦！
总结：（同样适合简单对应分析）
对应分析的优点：
对应分析的缺点：
II.对应分析是一种多元统计分析技术，主要分析定性数据Category
Data方法，也是强有力的数据图示化技术，当然也是强有力的市场研究分析技术。
&&&&这里主要介绍大家了解对应分析的基本方法，如何帮助探索数据，分析列联表和卡方的独立性检验，如何解释对应图，当然大家也可以看到如何用SPSS操作对应分析和对数据格式的要求！
&&&&对应分析是一种数据分析技术，它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。主要适用于有多个类别的定类变量，可以揭示同一个变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。
主要应用领域：
主要回答以下问题：
数据的格式要求
案例分析：自杀数据分析
上面的交互分析表，主要收集了48961人的自杀方式以及自杀者的性别和年龄数据！POISON（毒药）GAS（煤气）HANG（上吊）DROWN（溺水）GUN（开枪）JUMP（跳楼）（我们就不翻译成中文了，读者可以把六个方式想象成品牌或别的什么）
当然，我们拿到的最初原始数据可能是SPSS数据格式记录表，
其中，性别取值1-male
2-female，年龄取&#，分别表示不同年龄段。
要回答的问题是：
1-不同性别的人在选择自杀方式上有什么差别？
2-不同年龄的人在选择自杀方式上有什么差别？
3-不同性别年龄的人在选择自杀方式上有什么差别？
我们首先，把性别字段乘上10加上年龄字段生成新字段sexage，取值是11-15，21-25，然后分别用M/F和年龄组中值代表Sexage字段的变量值标，这样我们就可以进行简单对应分析了！
现在问大家，如果你看到上面的6×10的矩阵-列联表，你能看出什么差异？
现在我们采用SPSS软件进行对应分析！
（我现在用的是SPSS17.0多语言版本，前两天听博易智讯的人说，现在SPSS已经有18.0版本了，不过从对应分析方法角度我还是希望用11.5版本，因为可以自己拆分重新组合修改图形，现在的版本是图片了，不能随心所欲的修改，不爽！）
分别定义好行列变量以及它们的取值范围！
对应分析中，6×10的列联表（交互表）可以得到行列维度最小值减1的维度，我们看到第一维度Dim1解释了列联表的60.4%，第二维度Dim2解释了列联表的33.0%，说明在两个维度上已经能够说明数据的93.4%，这是比较理想的，当然我们也可以看卡方检验等！
下面我们主要解释如何解读对应图（小蚊子的博客中也有非常相似的解释，我非常欣赏他的博客）
首先对SPSS分析得到的对应图进行修饰和编辑，在零点增加两条中线！
解读方法：
1-总体观察：
我们从图上左右可以看出，左边全部是M*，男性，右边F*全部是女性，说明男女有显著差异；同时看横轴中线上方都是年龄大的，下面都是年龄小的，说明年龄有差异；这样就一目了然看出和回答了前两个问题；
2-观察邻近区域
我们从图上可以看出，老的男性比较喜欢HANG，GAS和GUN是年轻男性的偏好；老的女性比较喜欢DAWN，年轻的女性比较偏好POISON；
3-向量分析——偏好排序
我们可以从中心向任意点连线-向量，例如从中心向GUN做向量，然后让所有的人往这条向量及延长线上作垂线，垂点越靠近向量正向的表示越偏好这种方法。
记住：是垂点到GUN正向排名，从图中我们可以看出，希望GUN方法的人依次是M15、M30、M45、M60、M80、F15等等；依次类推，我们还可以从中心向任意一种方法作垂线，都可以排出每种方法选择人群的偏好次序；当然，你也可以从中心往所有的人作向量，得到每一类人在选择六种方法上的偏好排名！
你是否可以看出，F15年轻的女性对六个“品牌”的偏好吗？
4-向量的夹角——余弦定理
接着，我们可以从向量夹角的角度看不同方法或不同人之间的相似情况，从余弦定理的角度看相似性！
从图上我们可以看出，当我们从中心向任意两个点（相同类别）做向量的时候，夹角是锐角的话表示两个方法具有相似性，锐角越小越相似；也就是说，GUN和GAS是相似品牌，当如也是竞争品牌，也具有替代性，如果这次开枪没有自杀成功，下次他一定选择毒气啦；我们也看出F15和F30的人比较相似，但F15与M80就有非常大的差异了，因为如果作向量他们是钝角，几乎是平角了！
5-从距离中的位置看：越靠近中心，越没有特征，越远离中心，说明特征越明显
从这张对应图中我们看到，有些点远离中心，有些点靠近中心，这说明什么呢？从几何空间的角度，如果我对每一人都一样的好，在规范图上我就应该站在大家的重心，也就是中心；这说明越靠近中心的点，越没有差异，（记住：没有差异并不代表不重要，只是没有差异，因为统计的技术是研究差异的技术，差异越大往往重要性就大！），越远离中心特征越明显，也就是说，如果听到一个M80的人自杀了，估计你就会想到是不是HANG啦！
从品牌角度思考，说明越远离中的的品牌，消费者很容易识别，说明品牌特征（特色、特点）明显，越靠近中心的品牌，消费者不易识别，也说明你的品牌定位没有显著可识别的特征，没有差异认知！
6-坐标轴定义和象限分析
我们还没有定义坐标轴呢？从第一点的分析，其实我们很快就可以定义坐标轴的含义了！（当然有时候对应图的座位是非常难定义的）
因此，落在第四象限的是年轻的女性所喜欢的品牌！
7-产品定位：理想点与反理想点模型
我们可以在图上以POISON为定位点，以POISON为圆心，以它的利益为半径画圆，那么我们可以得出这样的结论：越先圈进来的人就是最喜欢这个品牌的消费群，越先圈进来的品牌越可能是竞争品牌；当然，你也可以以某类人作为圆心，同意解读；如果POISON是市场不存在的，在调查中可以设定为理想点，这样我们就可以得到理想点模型，同理也可以得到反理想点模型分析！
8-市场细分和定位
最后，研究人员可以根据前面的分析和自身市场状况，进行市场细分，找到目标消费群，然后定位进行分析！最终选择不同的目标市场制定有针对性的营销策略和市场投放！
我们也可以尝试采用多元对应分析，但不如简单对应分析有意义！
简单对应分析的优点：
定性变量划分的类别越多，这种方法的优势越明显，揭示行变量类别间与列变量类别间的联系，将类别联系直观地表现在二维图形中（对应图），可以将名义变量或次序变量转变为间距变量。
简单对应分析的缺点：不能用于相关关系的假设检验，维度要由研究者决定，有时候对应图解释比较困难，对极端值比较敏感。
结合分析（Conjoint Analysis）是一种应用广泛，非常流行和有效的市场研究技术。近些年来，结合分析广泛地应用在消费品、工业产品和商业服务等相关领域的市场研究中，在我国越来越受到市场研究公司和企业的重视，尤其是在汽车行业的市场研究领域，结合分析在汽车的新产品开发、市场占有率分析、竞争分析、市场细分和价格策略等方面都发挥了积极而有效的作用。结合分析也叫联合分析技术！
结合分析适用于测量消费者的心理判断，如理解(Perceptions)和偏好(Preferences)。在结合分析中，产品/服务被描述为“轮廓”（Profiles），每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平的组合构成的。结合分析的一个重要的基本假定是：消费者是根据构成产品/服务的多个属性来进行理解和作偏好判断；也就是说，消费者对产品/服务的偏好每次并不是基于一个因素而是基于几个因素的结合来判断的，消费者对某一轮廓的偏好可以分解成构成该轮廓的多个属性的偏好得分(Preference
Scores)。在结合分析中用效用值（utilities）来描述。
结合分析是一种多元统计分析方法。其因变量是消费者对某一轮廓的整体偏好评价。某一轮廓的整体也称为全轮廓（full profiles），是由全部属性的各个水平组合构成的。自变量是组成各轮廓的不同属性（因子）水平。因此，结合分析是在已知消费者对全轮廓的评价结果（overall
evaluations）的基础上，经过分解的方法（decompositional approach）去估计其偏好结构的一种分析法。
在结合分析中，轮廓是由研究人员事先按照某种因子结构（factorial structure）采用部分因子正交实验加以设计的。结合分析有三个主要目的：（1）确定消费者赋予某个预测变量（水平）的贡献和效用（utilities）以及属性的相对重要性（2）寻找消费者可接受的某种产品的最佳市场组合，这种组合最初可能并没有被消费者所评价（3）模拟市场，估计市场占有率和市场占有率变化。为了达到这些研究目的，首先要估计不同属性水平的效用，进一步计算出属性的相对重要性（Attributes
relative importance）和轮廓效用（profile utilities），以便定量化地测量消费者的偏好，然后基于消费者的偏好采用最大效用模型或者Bradley-Terry-Luce(BTL)模型和logit模型估计市场占有率。
&&&&&&全轮廓方法：每一个属性同时展现给消费者
&&&&&&最小轮廓数选择：NC=NL - NA + 1 ，
&&&&&&&&其中:&&&&&NC：最小组合轮廓数
&&&&&&&&&&&&&&&&&&NL：所有属性水平数的和
&&&&&&&&&&&&&&&&&&NA：所有属性数的和
&&&&&例如：六个属性，每个属性有4个水平，可能组合数=4×4×4×4×4×4=4096（种），
&&&&&&&&&&&最小组合数=（4+4+4+4+4+4）- 6+1=19（种）
&&&&&推荐组合轮廓数：最小轮廓数的 1.5 到 2 倍
下面我们通过一个案例：赛欧轿车上市前的市场分析，阐述了结合分析在汽车市场的应用，以及采用一般最小二乘法（OLS）回归估计主效应的全轮廓结合分析法的基本概念、原理、步骤和方法。
（备注：研究的时候产品配置已知，但还没有下线投放市场）
根据研究目的和前期的定性研究，最终确定了产品的属性和水平：
在确认了属性水平后，我们通过SPSS来进行正交实验设计。
我们可以依次定义每一个属性和水平，SPSS软件最多提供每个属性有9个水平的可能性，所以如果水平数太多就要考虑其它方法，或者进行相应的变换，当然，如果属性的水平数越多代表了你越重视它，将来的分析相当重要性就会高！
&&&&正交实验设计方法，在SPSS是比较简单的，人为的控制不多，我们只能寄希望SPSS的正交实验设计给我们一个号的结果，但没有评估设计效应的指标。如果你希望下次得到同样的正交设计集，必须设定一样的随机种子！
&&&&在这点上说，如果对于复杂的正交实验设计，我还是比较偏向用SAS软件来进行，不仅得到的结果比较好，还有设计效应等各种指标评估，所以，实际市场研究中，大部分情况都是SAS来完成的！其实我用SAS，有时候更简单的，就几个命令：%mktrun和%mktex等；
&&&&设计好后，大家记住，先不用运行，先要“粘贴”下来，也就是把语法粘贴下来，因为Conjoint Analysis分析方法在SPSS中没有窗体命令，必须用语法执行！
&&&&当然，在细节上还有“Holdout”卡片的问题，（检验问题，但是对于商业研究我基本上都不用了，为了保证更好的建模卡片，为了减轻被访者负担，反正做都做了！——这里我没有学术思想啦）
正交实验设计生成了16张卡片，同时也是随机卡片集，并产生两个系统变量，不要改变变量名称，其中：STATUS_值标
1-Design 2-Holdout 3-Simulation
记住：我们并不关心这16张卡片如何，我们只是关系这16张卡片的对432种组合产品的代表性，原则上即使有不理想或不现实的卡片出现，也不要没理由的删除！在SPSS系统分析中，最好考察属性水平设定的问题，而不要随意改变！
下面我们就要考虑收集被访者评价信息了，当然也包括卡片的展示方式！
收集到被访者信息后，我们就可以分析了！
我这里采用了最一般的离散变量方法，实际上属性变量可以有多种模型（离散、线性、理想点、反理想点等）
结合分析既可以分析群体、总体也可以分析每个人的偏好选择！
大家可以根据公式自己计算个体和群体的效用值、属性相对重要性等，但是记住：所以群体的效用值、相对重要性来自于个体的平均！
&&&&从分析的角度，有时候模拟市场，模拟市场份额是最重要的分析，但是如果研究者不是最终决策者，就必须设计市场组合份额的模拟器，我一般采用Excel来设计，这需要大家懂得结合分析原理，并能够设计Excel应用！
&&&&在文章的最上面，我是采用Excel设计的电脑配置的市场研究模拟器，希望对你有所启发！
&&&&近年来，结合分析成为市场研究的重要利器，但是它也有着局限性，所以开发了不同的改进方法和软件工具，代表性的就是Sawtooth公司的产品，另外也可以考虑更复杂的CBC技术，离散选择模型！（下次再专题讲）
&&&&最后，要说明的是结合分析只是得到了消费者的偏好，喜欢一个人，并不一定会跟她结婚的！
多元回归分析（Multiple Regression Analysis）是多变量分析的基础，也是理解监督类分析方法的入口！实际上大部分学习统计分析和市场研究的人的都会用回归分析，操作也是比较简单的，但能够知道多元回归分析的适用条件或是如何将回归应用于实践，可能还要真正领会回归分析的基本思想和一些实际应用手法！下面我们就来谈谈多元回归分析，这张图是利用多元线性回归制作的策略分析图，你可以理解X轴是重要性，Y轴是表现；
首先，多元回归分析应该强调是多元线性回归分析！强调线性是因为大部分人用回归都是线性回归，线性的就是直线的，直线的就是简单的，简单的就是因果成比例的；理论上讲，非线性的关系我们都可以通过函数变化线性化，就比如：Y=a+bLnX，我们可以令 t=LnX，方程就变成了 Y=a+bt，也就线性化了。
一般我们采用的变化要根据数据分布特征来进行，下表是常用的变化方法：
当然，变化的主要目的是线性化，同时期望数据分布是近似正态分布！
第二，线性回归思想包含在其它多变量分析中，例如：判别分析的自变量实际上是回归，尤其是Fisher线性回归方程；Logistics回归的自变量也是回归，只不过是计算线性回归方程的得分进行了概率转换；甚至因子分析和主成分分析最终的因子得分或主成分得分也是回归算出来的；当然，还有很多分析最终也是回归思想！
第三：什么是“回归”，回归就是向平均靠拢。
第四：如果你用线性回归方式去解释过去，你只能朝着一个趋势继续，但未来对过去的偏离有无数种可能性；
第五：线性回归方程纳入的自变量越多，越应该能够反应现实，但解释起来就越困难；
第六：统计学家往往追求的是简约的模型和更高的解释度，往往关注模型R平方，共线性和回归诊断问题；
第七：市场研究人员往往注重模型的解释合理性，是否与预设的直觉一直，是否支持了我的市场假设等；
下面我们从市场研究人员的角度看看如何利用多元线性回归:
多元线性回归分析的主要目的是：解释和预测
假设我们收集了100个企业客户经理对我产品的总体满意度和分项指标的满意度评价，我期望知道，什么分项指标对我总体满意度有重要影响，它的改进更能够提升总体满意度；如果建立预测模型，我期望知道了分项指标的评价就能够预测总体满意度数值；
在SPSS中选择回归分析后，把X10作为因变量，X1到X7作为自变量
一般选择自变量进入方程的方法，可以先采用逐步回归，让计算机程序帮助确定变量的重要性，这在统计层面非常好，但是如果针对我现在的研究我需要采用Enter全部进入，如果某个指标不显著，就不在方程中了我如何与客户说呢？（假设他不懂统计，并且我需要完成上面的策略图）；
选择相应的统计参数和输出结果，注意：多变量分析都需要考虑缺省值问题，逐步回归中我们可以得到R平方的变化对我们理解方程有帮助！（Enter方法不需要）
R平方是我们最需要关注的，该值说明了方程的拟合好坏，R平方=0.80非常不错了，说明：1）总体满意度的80%的变差都可以由7个分项指标解释，或者说，7个分项指标可以解释总体满意度80%的变差！2）R平方如果太大，大家不要高兴太早，社会科学很少有那么完美的预测或解释，一定存在了共线性！
方程分析表的显著性表明了回归具有解释力！
线性回归方程给出可预测的计算系数，但是，社会科学很少进行预测，重要的是解释；
这里要注意的是如果自变量的测量尺度是统一的话，我们可以直接比较系数的大小，但是如果自变量的测量尺度不统一的话，我们必须看标准化回归系数，标准化回归系数去掉的量纲，且反应了重要性！我们就是需要重要性测量！
当然，这个时候，研究人员应该关注每个指标的回归系数是否真的等于零，要进行假设检验！
我这里就直接应用了，我们可以把7个自变量指标的均值作为表现，7个自变量的标准化相关系数作为重要性，完成散点图！重要的指标，表现差当然是我们急需改进的了，这就是前面策略图了。
我这是典型的市场研究思维方式，不太关注统计意义，而且我将所有的坐标轴和坐标数值都让你看不到，我只是表现了测量，或许对市场洞察足够了；但记住统计学家不能这样！如果你是关注统计思想的人，应该要理解下面这张回归解释图！
&&线性回归：提及因果关系必须非常谨慎！
物以类聚，人以群分，聚类分析是一种重要的多变量统计方法，但记住其实它是一种数据分析方法，不能进行统计推断的。当然，聚类分析主要应用在市场细分等领域，我们也经常采用聚类分析技术来实现对抽样框的分层，我就不多罗嗦了。
&&&&聚类分析：顾名思义是一种分类的多元统计分析方法。按照个体或样品(individuals, objects or subjects)的特征将它们分类，使同一类别内的个体具有尽可能高的同质性(homogeneity)，而类别之间则应具有尽可能高的异质性(heterogeneity)。
&&&&我们也可以对变量进行聚类—分类，但是更常见的还是对个体分类（样本聚类——细分）。为了得到比较合理的分类，首先要采用适当的指标来定量地描述研究对象（样本或变量，常用的是样本）之间的联系的紧密程度。常用的指标为“距离”和“相似系数”，假定研究对象均用所谓的“点”来表示。
&&&&在聚类分析中，一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一类，将“距离”较大的点或“相似系数”较小的点归为不同的类！（一般的相似系数就是相关系数了）
&&&&基本概念：
&&&&需要一组表示个体性质或特征的变量，称之为聚类变量。根据个体或样本之间联系的紧密程度进行分类。一般来说分类变量的组合都是由研究者规定的，不是像其它多元分析方法那样估计推导出来的。
&&&&聚类分析前所有个体或样本所属的类别是未知的，类别个数一般也是未知的，分析的依据就是原始数据，没有任何事先的有关类别的信息可参考。所以：严格说来聚类分析并不是纯粹的统计技术，它不像其它多元分析法那样，需要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布，也不需要进行显著性检验。聚类分析更像是一种建立假设的方法，而对假设的检验还需要借助其它统计方法。
&&&&聚类方法：
当然，聚类分析不能做的事情是：
&&&&&我这里提到的聚类分析主要是谱系聚类（hierarchical clustering）和快速聚类（K-means）、两阶段聚类（Two-Step）；
&&&&&根据聚类变量得到的描述两个个体间（或变量间）的对应程度或联系紧密程度的度量。
&&&&&可以用两种方式来测量：
&&&&&计算聚类——距离指标D(distance)的方法非常多：按照数据的不同性质，可选用不同的距离指标。欧氏距离(Euclidean distance)、欧氏距离的平方(Squared Euclidean distance)、曼哈顿距离(Block)、切比雪夫距离(Chebychev distance)、卡方距离(Chi-aquare measure) 等；相似性也有不少，主要是皮尔逊相关系数了！
注意：上面主要在谱系聚类方法中采用，但谱系聚类主要用在变量聚类上，如果对样本聚类样本不能太多了，否则你要等很长时间，还不一定有用！
总体推荐：
&&&&当然我现在聚类都用数据挖掘技术了，其实聚类分析采用数据挖掘技术更合理，毕竟是发现知识，我们事先不知道是否存在显著差异的细分市场，而且往往在统计分析聚类中，需要研究者主观给出聚类变量，得到的结果也可能是研究者或客户能想到的，往往客户最希望得到事先不知道的，直觉不能感知到的，数据挖掘就体现了这一点。当然采用数据挖掘软件得到的聚类结果，也更直观，最重要的是采用SPSS聚类的结果要呈现出来，是个体力活，用Clementine得到的结果就非常容易看出来和理解了！
&&&&关于市场细分中的聚类分析，主要是采用两阶段聚类或快速聚类，一般要先进行因子分析，聚类分析，类的识别，聚成几类，类的稳定性测试，选择目标类，定位，描述细分市场，市场营销组合等！
上一篇博客提到聚类分析方法和基本概念，但是可能没有回答一些人的疑问？比如到底应该分成多少类，类的稳定性以及如何评估聚类的结果。其实，要想解决这个问题，首先是要与分析目的有关，不简单是一个统计分析问题，或者说聚类问题，而应该是研究者的判断或者说研究者的洞察力，当然，我们还是要有一套方法去指导。
&&&&&&但大家记住：聚类分析不是统计方法，是一种数据处理技术，也就是说在SPSS里面，有时候你的数据排序改变，聚类的结果都会改变；
&&&&&&还要记住：如果市场上不存在明显的细分市场，只要聚类总是能够按照聚类要求分成类的，这时候你就要注意了，如果采用不同的聚类方法，总是能够聚成大致相等（样本）的类，先不要高兴，可能就是不存在有差异细分市场；这就像一个球或圆，按照要求总能分割成大致相等的块一样；
&&&&还要记住：如果市场存在着明显的细分市场，也就是差远很大的类，无论什么细节技术或聚类技术都应该得到类似的结果；难点主要是细分不明显的时候，需要依赖方法了，尝试不同的聚类方法！
&&&&我记得曾经做过一个市场细分项目，因为我没有能够得到满意的细分市场，或者说无法解释清楚细分市场的独特性，客户提出一个问题：你尝试了各种聚类结果吗？当时还没有数据挖掘技术，不过因为这个要求，我把聚类过程和可能的情况有了新的认识，与大家分享：
&&&&上面的样本，实际上存在不同的类，但粗看可能看不出来，但是如果我们采用聚类分析，就可以得到如下可能结果：
比较明显的可以看出，上面的样本在两个维度上存在着五个不同类别。
现在我们来看看聚类分析的基本思路和思考：
1）市场细分：是采用聚类分析的主要目的，主要分成监督类和非监督类，我们现在讨论的是非监督类方法，就是事先不知道是否存在细分市场，也就是事后细分；
2）具体分成多少类：没有一个统一的答案。
3）数据预处理-因子分析：一般在社会科学和市场研究领域的事后细分，往往我们面对的是态度量表，也就是希望从消费者的消费行为，社会态度和价值观等层面进行细分，那么我们聚类就面临着要进行数据预处理；这里一般都会设计到因子分析。
4）数量还是模式：得到因子后要明确是基于量的聚类还是基于模式的聚类，这个差异是非常大的；
从上面我们可以看出：基于量的聚类A和B，C和D是一类，但基于模式则A和C，B和D是一路；
记住：所以在聚类变量的标准化要考虑这一点！
5）聚类数量：一般从3-7个不断尝试，如果你用ＳＰＳＳ软件，建议事项保证样本是排序的；
６）类的评估：一般我们可以采用类均值的Ｆ检验，看不同类在Ｆ统计量上的差异，也就是每个类在聚类变量上的显著差异：
上面的３个类，进行方差分析，得到Ｆ统计量，我们可以看到，Ｆ值越大说明分成３类的主要差异在什么变量上；
７）测试不同的聚类结果：同上想法，我们可以尝试在４类后的情况发生什么变化，然后把３类和４类结果进行交互分析，看看３类变成４类到底在哪里发生变化，主要影响变量是什么因素影响：
８）最后，针对可能的稳定聚类，测试每个变量（最初的量表）在各个类的Ｆ统计量，看看最初的原始变量（不是因子）的影响特性；
９）把最后确定的聚类结果写入原始数据集，进行类命名；
10）采用判别分析，判别类和聚类变量的可视化，画判别图，进一步识别类的特征
11) 采用对应分析和多元对应分析，识别类的属性和关键类（细分）表述变量，比如：性别、年龄、职业、收入、消费特性等
12）采用CHAID分类决策树，自动侦测进一步识别类的特性；
最后我要说：聚类是一门技术，细分是一门艺术！
很多人在从事市场研究和经营分析的时候，特别是定量研究方法需要用到统计分析的时候，到底应该采用哪种分析方法，或者应该用哪种方法更适合这个分析，比较困惑。下面我来总结一下，如何选择多变量统计分析方法来适应研究的需要！
请大家记住一句话：选择什么样的多变量统计分析方法，主要是根据变量的测量尺度决定的，更明确的说是根据因变量的测量尺度和类型决定的！这就要求研究者能够在从事项目前明确：研究设计和假设，确认因变量，以及如何测量，测量尺度达到什么等级等要素。
我们看到除了SPSS软件，还有就是SAS软件，当然懂得SAS的人不多，但特殊情况下SAS更有效，比如，在进行实验设计，非标准的正交实验设计，Conjoint Analysis等市场研究核心技术方面，SAS更灵活些！
&&&&4. 当然，除了我们看到的SPSS和SAS软件以外，要真正在市场研究中利用好各种分析和模型技术，还需要掌握各种专业软件工具。例如：
除此之外，市场研究的定量分析更关注解决非数理化数据的分析以及可视化技术，还有就是市场研究模型技术！
我们还是回到市场研究的多变量分析技术吧！
这里的多变量分析技术主要是指统计分析和数据挖掘技术：
主要的英文描述：
多变量分析方法的分类图谱！（主要部分）
从图中，大家可以看到，假设你不知道研究目的的意义，但看到数据后，你可以尝试沿着分类图谱去找寻你该选择的分析方法！
当然，选择什么样的多变量分析技术，前提还是你的研究设计和假设，也就是说我们设计了什么样的问卷或者说什么样的测量变量及尺度，应该在数据收集回来之前就应该明确的，特别是选择了针对性的研究模型也就意味着分析技术的明确，如果你在调查之前还不知道用什么分析方法，应该不是一个合格的研究人员！
多变量分析技术的选择主要看变量测量等级，特别是因变量！
因子分析（Factor Analysis）是一种非常有用的多变量分析技术。我想说，你要想学好多变量分析技术，一是：理解多元回归分析，二是：理解因子分析；这是多变量分析技术的两个出发点。为什么这么说呢？多元回归分析是掌握有因变量影响关系的重点，无论什么分析，只要研究的变量有Y，也就是因变量，一般都是回归思想，无非就是Y的测量尺度不同，选择不同的变形方法。而因子分析则是研究没有因变量和自变量之分的一组变量X1
X2 X3 ... Xn之间的关系。
&&&&在市场研究中，我们经常要测量消费者的消费行为、态度、信仰和价值观，当然最重要的是测量消费者的消费行为和态度！我们往往采用一组态度量表进行测量，用1-5打分或1-9打分，经常提到的李克特量表。&
&&&&上面的数据是我们为了测量消费者的生活方式或者价值观什么的，选择了24个语句，让消费者进行评估，同意还是不同意，像我还是不像，赞成还是不赞成等等，用1-9打分；
&&&&因子分析有探索性因子分析和证实性因子分析之分，这里我们主要讨论探索性因子分析！证实性因子分析主要采用SEM结构方程式来解决。
从探索性因子分析角度看：
我们为什么要用因子分析呢？
&&&&首先，24个可测量的观测变量之间的存在相互依赖关系，并且我们确信某些观测变量指示了潜在的结构-因子，也就是存在潜在的因子；而潜在的因子是不可观测的，例如：真实的满意度水平，购买的倾向性、收获、态度、经济地位、忠诚度、促销、广告效果、品牌形象等，所以，我们必须从多个角度或维度去测量，比如多维度测量购买产品的动机、消费习惯、生活态度和方式等；
&&&&这样，一组量表，有太多的变量，我们希望能够消减变量，用一个新的、更小的由原始变量集组合成的新变量集作进一步分析。这就是因子分析的本质，所以在SPSS软件中，因子分析方法归类在消减变量菜单下。新的变量集能够更好的说明问题，利于简化和解释问题。
&&&&当然，因子分析也往往是预处理技术，例如，在市场研究中我们要进行市场细分研究，往往采用一组量表测量消费者，首先，通过因子分析得到消减变量后的正交的因子（概念），然后利用因子进行聚类分析，而不再用原来的测量变量了！我想这是市场研究中因子分析的主要应用！&&
&&&&其实，你可以想象，例如在多元回归分析中，如果多个自变量存在相关性，如果可以用因子分析，得到几个不相关的变量（因子），再进行回归，就解决了自变量共线性问题。（理论上是这样的，但市场研究很少这么操作！）
下面是要理解的因子分析的基本概念：
下面我们通过PASW Statistics软件来进行操作！
&&&&在进行因子分析前，大家务必明确你的数据集中24个变量是否存在缺失值问题！默认情况下系统采用Lisewase，也即是只要24个变量有一个缺失，该记录删除，也就是说如果你的样本存在大量缺失，可能造成因子分析的样本量大量收缩！
我们将24个变量选择后，选择描述对话框，可以选择KMO和Bartlett的球形度检验！这个指标主要从统计角度给出24个变量是否存在内在结构，也就是潜在因子结构，说白了，就是不适合因子分析！极端可能就是所有24个变量都测量的是一个维度的因子概念，另一个极端就是24个变量全部是正交不相关的，根本不存在因子，不适合因子分析！
接下来我们要选择抽取因子的方法：在方法上，我们如果不是非常理解或有特殊要求，就选择主成份方法；这也是为什么在SPSS软件中没有独立的主成份分析，其实是包容在因子分析中了！记住一点：如果24个变量存在因子结构，用什么方法得当的结果基本相同！况且，市场研究采用量表24个变量的测量尺度都是一致的！如果你没有特殊要求，默然选择抽取特征值大于1的因子！选择碎石图——也是表达因子选择的图示方式！因为是研究结构，所以从相关矩阵出发，实际上就是标准化后的方差矩阵，没有了量纲！
接下来，我们选择因子旋转方法！
&&&&因子旋转是因子分析的核心技巧，也是我们期望得到的结果。旋转的概念就是坐标变换，不过旋转有正交和斜交旋转差别罢了！从解释因子结构的角度正交旋转是最容易解释的，得到的因子也是不相关的；斜交则得到的因子具有相关性，但更符合或能捕捉数据的维度！所以，有一种说法，如果是接下来要进行市场细分，最好采用斜交更好！当然，我们最常用的，一般采用最大方差旋转！
最后，有一个选择要完成，就是选项对话框！
我们要选择按大小排序，并且将因子负荷小于0.4的都不显示，这样我们看的更清楚！
为什么选择0.4呢？这主要依赖样本量和绝对误差的考虑！
从样本量角度看因子负荷，大部分市场研究样本量都在200以上！
记住：如果你不能精细考虑，就选0.4吧！
下面我们就可以执行了！我们看看结果：
&&&&从结果可以看出，Bartlett球检验是显著的，说明存在因子结构，另外KMO=0.764，较适宜因子分析！，一般KMO=0.8就是Excellent了！
接下来看因子方差解释，总的方差解释是63.448%，总共存在7个公因子，说明如果将来不用24个变量，而改用这7个因子可以说明原来24个变量的63.4%的变差。（如果你确认了这样的结果，可以选择把7个因子得分保存为变量了）
如果我们只是看非旋转的话，就是主成份分析部分了，我们来看旋转后的结果：
&&&&&我们可以看到因子排列非常恰当和明显，这都是因为我们在选项中选择了排序和压缩了小于0.4的负荷值！
你可以看到F1_6变量在3和4因子上都有负荷，这就产生了双负荷！如果存在大量的双负荷，我们就要考虑是否要斜交旋转了！
最后，我们要完成因子命名！如果不能给出好的因子命名，我们放弃24个变量用7个因子变量都不知道意义，如何分析呢！当然如何命名因子是个艺术活了！我一般的思考方式是：1）先看意义，哪些变量负荷在一个因子上，是否能解释这些因子；2）如果可以，选择因子名称；3）如果不能给出恰当名字，就选择负荷变量的简称综合在一起，先代表着；4）随着后续的分析，因子慢慢确定；
到这里因子分析就完成了！
但因子分析往往是预处理技术，如果要用来细分市场，该如何进一步操作呢？是选因子还是选前两个负荷最大的变量，我将在聚类分析中讲解！
注：仅供学习，所有资源来自互联网。
本文已收录于以下专栏：
相关文章推荐
对应分析与典型相关分析笔记_数学建模系列这里的对应分析与典型相关分析仍然用于降维，因子分析的进阶！
对应分析：在同一张图上，直观的展现样本和属性的聚类效果，同时省去因子选择、因子轴旋转等复杂过程。...
对应分析图解读的七种方法
今天刚听完沈浩老师对对应分析图的讲解，觉得很有必要总结下来与大家分享。本资料重点在数据解读，这点是非常重要的，大部分人会做对应分...
前边我们已经讲过很多内容了。回顾一下，主要有相关分析，假设检验，和各种回归。以及因子分析。我们知道，对于两组连续变量，我们可以通过假设检验来判断他们的分布是否相同，差异时候存在。不知道大家想过没有，如...
原文地址：市场研究中的多变量分析技术（转至沈浩老师博客）作者：小蚊子数据分析原文：http://shenhaolaoshi./.html
很多人在从事...
NumPy常用函数一文件读写：1、创建单位矩阵，所谓单位矩阵就是主对角线上所有元素都是1，其他地方全是0的二维数组，numpy可以很方便地创建这样的矩阵，即利用eye函数，例：
import nump...
用SPSS进行多变量数据分析
1.将所给的数据输入SPSS 22.0中文版。分别设置变量为温度，体重1、2、3、4；体重，温度5、10、15、20、30。
2.用SPSS进行作图（过程略）。3.对...
版权说明：内容来自互联网及书籍
一、主成分分析
作者： Edwin
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都...
大多数数据集需要我们对之进行“清洗”工作，包括数据转换、数据离散化、数据缺失替换和数据异常点处理
在实际的挖掘分析中，过多的变量对模型精度的提升十分有限，但是对于挖掘速度的影响确实十分巨大的，维数灾...
RabbitMQ-C是AMQP通信协议的RabbitMQ实现的C语言接口；Java接口的文档倒是挺多的，C语言的很少，讨论的人也很少。在使用的过程中，我遇到了这几个坑：1.connection的句柄a...
他的最新文章
讲师：董晓杰
讲师：姚远
他的热门文章
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)}

杰西卡呢吗信息网