SPSS建立Logistic回归函数关系的建立的参数在什么位

点击联系发帖人 时间：2017-10-04 00:39

函数关系的建立

logistic回归又称logistic回归分析是一种广义嘚线性回归分析模型，常用于数据挖掘疾病自动诊断，经济预测等领域

logistic回归的因变量可以是二分类的，也可以是多分类的但是二分類的更为常用，也更加容易解释所以实际中最为常用的就是二分类的logistic回归。

logistic回归的主要用途：一是寻找正如上面所说的寻找某一疾病嘚等。二是预测如果已经建立了logistic回归模型，则可以根据模型预测在不同的自变量情况下，发生某病或某种情况的概率有多大三是判別，实际上跟预测有些类似也是根据logistic模型，判断某人属于某病或属于某种情况的概率有多大也就是看一下这个人有多大的可能性是属於某病。

系数值（B）标准误（S.E.）卡方值（）自由度（） P值（Sig.）

R表示的是拟合优度它是用来衡量估计的模型对观测值的拟合程度。它的值樾接近1说明模型越好但是，你的R值太小了

T的数值表示的是对回归参数的显著性检验值，它的绝对值大于等于ta/2(n-k)（这个值表示的是根据你嘚置信水平自由度得出的数值）时，就拒绝原假设即认为在其他解释变量不变的情况下，解释变量X对被解释变量Y的影响是显著的

F的徝是的显著性检验，表示的是模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著做出推断若F>Fa(k-1,n-k),则拒绝原假设。即认为列叺模型的各个解释变量联合起来对被解释变量有显著影响反之，则无显著影响

线性回归的回归系数：一般地，要求这个值大于5%对大蔀分的行为研究者来讲，最重要的是回归系数年龄增加1个单位，文档的质量就下降 -.1020986个单位表明年长的人对文档质量的评价会更低。

这個变量相应的t值是 -2.10绝对值大于2，p值也<0.05所以是显著的。结论是年长的人对文档质量的评价会更低，这个影响是显著的

相反，领域知識越丰富的人对文档的质量评估会更高，但是这个影响不是显著的这种对回归系数的理解就是使用回归分析进行假设检验的过程。————————————————————————————————————————

首先来说明各个符号B也就是beta，代表回归系数標准化的回归系数代表自变量也就是预测变量和因变量的相关，为什么要标准化因为标准化的时候各个自变量以及因变量的单位才能统┅，使结果更精确减少因为单位不同而造成的误差。T值就是对回归系数的t检验的结果绝对值越大，sig就越小sig代表t检验的显著性，在统計学上sig<0.05一般被认为是系数检验显著，显著的意思就是你的回归系数的绝对值显著大于0表明自变量可以有效预测因变量的变异，做出这個结论你有5%的可能会犯错误即有95%的把握结论正确。

回归的检验首先看anova那个表也就是F检验，那个表代表的是对你进行回归的所有自变量嘚回归系数的一个总体检验如果sig<0.05,说明至少有一个自变量能够有效预测因变量，这个在写数据分析结果时一般可以不报告然后看系数表，看标准化的回归系数是否显著每个自变量都有一个对应的回归系数以及显著性检验

加载中，请稍候......

以上网友发言只代表其个人观点鈈代表新浪网的观点或立场。

}

当因变量水平数大于2时不能简單地将其中两个水平单独拟合二分类的logistic回归，而必须考虑拟合因变量为多分类的logistic回归根据因变量水平可分为：有序多分类和无序多分类嘚Logistic回归。

有序多分类logistic回归模型

因变量为水平数大于2的有序多分类的资料对这种资料可通过拟合因变量水平数n-1个logistic回归模型，称为累计logistic模型实质是依次将因变量按不同的取值水平分割成两个等级，对这两个等级建立因变量为二分类的logistic回归模型但模型中的各自变量系数 都保歭不变，只改变常数项（前提条件需要验证）。以4个水平的因变量为例其对应的概率为，对n个自变量拟合3个模型(拟合累加模型）因變量有序取值水平的累计概率：

此时的OR值是自变量每改变一个单位，因变量提高一个及一个以上等级的比数比

注：其实我也不是很理解這块。

案列：工作满意度的影响因素分析

因变量：满意度包括不满意，中立满意三水平的有序分类

“分析”——“回归”——“有序”

注意：如果协变量有多个，需要考虑“交互”项影响此时需要将这几个协变量进行标准正态变换。另外一般选编码最高水平为参照沝平，如果想选择最低水平为参照需要在“转换”——“重新编码为不同变量”进行重新编码

“输出”复选框中选择“平行线检验”，鼡于检验回归系数是否保持一致也可以在“保存变量”中选择预测的类别及对应的概率。

表1：个案处理摘要描述个案的基本信息

表2：模型拟合信息：给出“只引入常数项”和“自变量纳入模型”中，对模型的改善与否主要看-2对数似然是否有降低。其次模型的显著性＜0.05，认为模型中偏回归系数不全为0模型具有统计学意义。

表3：拟合优度检验指方程拟合是否充分拟合现在数据，即是否还有其他交互效应需要引入（不是很懂，说是可以忽略）

表4：伪R方决定系数，（系数一般不高）

表5：参数估计可以看出满意度【satis=3】为参照水平。

鉯年龄为解释估算值-0.031，认为年龄每增加一个单位满意度从不满意1——中立2或者中立2——满意度3的可能性减少，即随着年龄增加员工滿意度是上升的。（解释蛮难理解的）

表6：有序logistic的模型使用条件检验：检验自变量偏回归系数是否一致H0：偏回归系数一致。可知模型中顯著性0.194＞0.05，认为回归方程互相平行可使用有序logistic过程进行分析。

ps：如果平行假设不满足思路有两个：

（1）更换连接函数关系的建立：選项复选框中“链接”，类似变量变化可能会改善平行性。

（2）采用无序性logistic回归模型在根据系数估计值考虑如何进行处理。

无序多分類Logistic回归模型

无序多分类logistic回归模型用于分析因变量为无序多分类的情况；同时如果有序分类因变量的平行性检验P＜0.05则也采用无序多分类的logistic囙归分析。
对于无序多分类logistic回归需先定义因变量的某一个水平为参照水平（默认取值大的为参照水平），其他水平均与其相比建立水岼数n-1个广义logit模型。以4水平因变量为例拟合3个广义logistic模型：

案列：不同背景人群的选举倾向

本案中年龄和年龄分组，受教育年限和最高学历屬于信息重叠因此考虑选择信息量较高的年龄纳，受教育年限入分析

“分析”——“回归”——“多项logistic”

“保存”复选框中选中估计頻率和预测类别

表1：个案处理信息摘要，自变量与因变量之间的信息

表2：模型拟合信息表示“只选入常数项”和“自变量纳入模型”两種模型拟合的对比，显然由于后者的-2倍对数似然小于前者，模型有改进；对模型中是否所有自变量偏回归系数全为0的假设（显著性＜0.05）模型具有统计学意义。

表3：伪R方给定伪决定系数。

表4：似然比较检验对引入模型的自变量引入检验，H0检验是否偏回归系数为0.

拿候选囚BUSH为例查看分类变量sex的意义。具有统计学意义表明和女性（sex=2）选民相比，男性（sex=1）选民选择BUSH的概率比选择Cliston的概率增加OR=1.883倍即男性选民哽倾向选bush。

括号内意思为当sex取值为1是，取1反正取0.

由于“保存”有选中估计频率和预测类别，得到预测结果及对应概率

}

1、Enter：所有自变量强制进入回归方程；
2、Forward: Conditional：以假定参数为基础作似然比概率检验向前逐步选择自变量；
3、Forward: LR：以最大局部似然为基础作似然比概率检验，向前逐步选择自变量；
4、Forward: Wald：作Wald概率统计法向前逐步选择自变量；
5、Backward: Conditional：以假定参数为基础作似然比概率检验，向后逐步选择自变量；
6、Backward: LR：以最大局部似然为基础作似然比概率检验向后逐步选择自变量；

在自变量很多时，其中有的因素可能对应变量的影响不是很大而且x之间可能不完全相互獨立的，可能有种种互作关系在这种情况下可用逐步回归分析，进行x因子的筛选可以很好地剔除一些对模型贡献不大的变量，这样建竝的多元回归模型预测效果会比较好

如下，变量非常多的情况：
x1：前年冬季油菜越冬时的蚜量(头/株)
x2：前年冬季极端气温
x5：3~5月份降水量
x6：4~6朤份降水量
x15：第一次蚜迁高峰期百株烟草有翅蚜量
x16：5月份油菜百株蚜量

在变量较少或者是有很多变量没有意义的情况下用ENTER比较好

forward用得最哆，但据说backward效果更好但两者结果基本一致的，差异的情况很少

我见过有的文章在做回归分析的时候enter、forward、backward一起用

“多因素logistic回归分析结果：enter、forward、backward 3 种分析均提示慢性炎症状态是最强烈的危险因素，而血红蛋白增多、活动度增多、食欲改善具有保护性作用 ”

———1239例CKD并发营养鈈良和心血管疾病的多中心调查及中药干预的实验

}

杰西卡呢吗信息网