logistic 自变量连续多因素分析中无统计学意义的变量怎么分析

杰西卡呢吗信息网

你的位置：网站首页 >> 频道首页 >>数据分析 >>logistic 自变量连续多因素分析中无统计学意义的变量怎么分析

logistic 自变量连续多因素分析中无统计学意义的变量怎么分析

点击联系发帖人 时间：2016-12-26 15:52

logistic回归变量筛选

|/|/|/|/|/| //|//|//|//|//| 【求助】多元回归时，是否能先单因素分析？？今天看到一篇文章中写到Logistic回归分析：“将调查数据先进行单因素logistic回归分析，对单因素分析中差异有统计学意义的变量，再进行行多因素非条件logistic回归分析，逐步将变量纳入方程”原文位置：http://www./paper.php?serial_number=但是，看了本书《医学统计学基础与典型错误辨析》（胡良平、李子建主编），讲到“这是一种错误的分析策略，自变量之间可能有交互作用，对应变量得贡献可能受其他因素得影响，所以正确得做法是把所有变量代如回归方程，逐步回归分析，必要是多用几种筛选变量得技术，同时要考虑因素得交互作用，综合分析”请问：1.碰到这种情况到底该如何分析？2.书中所说得“多用几种筛选变量得技术”是指什么？统计学得非常不好，请各位指教，谢谢个人理解如果样本量比较大，一般超过自变量的15～20倍，可以直接采用多因素分析，样本量比较小，需要先进行单因素分析。几种筛选技术包括逐步法、向前法、向后法。对于logistic回归的诊断问题，很多统计教材都几乎没怎么说。变量筛选的几种方法在共线不很严重时也许很方便，但是如果存在多重共线时，也许效果并不好。logistic回归的原理上是和多元线性回归一样的，只是进行了概率转换而已。 logistic回归的诊断也和线性回归一样，基本上线性回归的诊断方法一般是可以用到logistic回归诊断中。也有人提出诸如主成分分析等诊断方法，当然也很麻烦，最后要根据主成分情况要代入logistic回归后方程当中，也许损失一定的信息。更多的情况时，很多书中根本没提logistic回归诊断问题。1，单变量分析是为了解你的数据，是多重分析的前提。2，一般在单变量分析时设定i概率为0。25－。30，这样，对于一些不显著的变量可以不予考虑。3，胡的意思不是说不要做单变量，而是说单的可能有偏倚。4，逻辑回归选变量可以参考一下hosmer的应用逻辑回归。5，变量的选择是专业和统计的结合。一般情况下，单因素logistic回归可作为资料的基础分析，以对变量做初步筛选，将有意义的变量和专业上有意义的变量（不管统计分析结果是否有意义）一起进入多因素分析。多因素回归则可控制混杂因素。但是也有不同意见，有学者说如果自变量数目不多，一般不必进行单因素回归，直接进行多因素逐步回归也可。还有就是，在回归时自变量的离散问题，也是很有说法，有学者说如果不很必要的话可以不离散，以保持信息的完整；也有人说，一般情况下都要离散，否则不利于结果的解释。根据自己情况，斟酌吧。我做的时候，只是做了下相关矩阵大致看了下，相关性很弱，就没继续向下分析了！单因素分析没有什么问题，就是在选择进入多因素分析模型的时候，把单因素分析的a值设高一些，如0.3甚至0.5，以免丢失信息，然后进行多因素分析，当然，建议在进行多因素分析之前检验一下各指标的相关性，如果比较大，还得考虑一下主成分分析或其他的解决办法个人愚见。周末没法上网，非常感谢各位的积极回复，看来到底要用单因素还是多因素是没有定律的，要根据具体情况而定了？统计之星－－－“样本量比较大，一般超过自变量的15～20倍，可以直接采用多因素分析，样本量比较小，需要先进行单因素分析”，是为什么呢，样本量是怎么影响结果的呢？mrguo1234－－－“hosmer的应用逻辑回归”，我没怎么听说过，网上有相关的理论么？我了解一下。另外谢谢zhangxiaoke520，yuew_l的经验之谈，不过我还是不太明白，需要再琢磨一下，谢谢了。统计学是我学过的最难的东西，学来学去是“只见树木不见森林”啊！以后还请各位指教。这是两种不同的学术观点,1 一种认为为了避免损失信息,应该全部纳入变量建立方程,然后就如同你所提到的采用多种筛选方法,找出较为适合的模型. 另一种就是我们现在常用的,先进行单变量分析,然后放宽纳入标准(0.6)这个界值不是一定的,和你的研究目的有关,如果你所关心的变量单变量分析p值较大,可以适当放宽标准,当然如果从专业上考虑通过单因素分析无法纳入的变量是你的研究变量可以采用强迫法纳入.2 共线性的问题,除了考虑相关矩阵外还应考虑其几个诊断指标(已有文献发现,相关性并不是共线性诊断的一个凭据).因为logistic回归其实质也是线性模型,所以在进行诊断时(以上战友已提及)可以借鉴多元线性回归的诊断方法3如果想要比较前面的了解一个模型,往往涉及的方面很多,需要相当长的一段时间学习.如果你的目的只是简单的应用,国内的教材就可以满足你的需要.4样本含量的问题,如果你的样本含量不足,那么会造成你最后建立的模型系数估计不稳定,出现意想不到的情况(比如说系数特大)从而影响模型的正确拟和.一般为自变量的15-20倍是一个经验值,一般认为&15倍后拟和的方程就相对比较稳定了.5一点建议,现在比较的倾向是采用单因素分析(0.3-0.6)后,再进行多因素分析.在进行多因素分析时对变量间共线性进行诊断.如果变量间共线性较大.可以采用主成分logistic回归等方法.受益非潜，谢谢rurenlong 您的位置： &&Logistic回归分析时几个必须注意的问题【荐阅】我的图书馆 Logistic回归分析时几个必须注意的问题【荐阅】松哥统计精鼎数据分析联盟精鼎数据分析联盟微信号 data973 功能介绍（为伊消得人憔悴；一用就错学不会；舍得应付换应用；案例实战真英雄！）这里没有生涩难懂的统计理论，只有白话统计思维+案例实战。咱们一起成长吧！缘起Logistic回归作为三大回归（逻辑、线性和COX回归）之一，是研究风险因素最重要的一种回归方法。其作为多因素研究的方法，我们更注重建模策略的学习，而没有Logistic的金标准。在构建模型时，常会遇到如下问题！认真研读，确实可以解惑！1.样本量logistic回归分析中，到底样本量多大才算够，这一直是个令许多人困惑的问题。尽管有的人从理论角度提出了logistic回归分析中的样本含量估计，但从使用角度来看多数并不现实。直到现在，这一问题尚无广为接受的答案。根据国外一些大牛的看法，如果样本量小于100，logistic回归的最大似然估计可能有一定的风险，如果大于500则显得比较充足。当然，样本大小还依赖于变量个数、数据结构等条件。一般认为，每一个自变量至少要10例结局保证估计的可靠性。注意：这里是结局例数，而不是整个样本例数。（如果你有7个自变量，那至少需要70例研究结局，否则哪怕你有1000例，而结局的例数只有10例，依然显得不足。）2.混杂因素混杂因素一般可以通过三个方面确定：一是该因素（吸烟）对结局（心绞痛）有影响；二是该因素（吸烟）在分析因素（基因）中的分布不均衡；三是从专业角度来判断，即该因素不能是分析因素与结局中间的一个环节。也就是说，不能是分析因素引起该因素，通过该因素再引起结局。3.交互作用交互作用有的书中也叫效应修饰，是指在该因素的不同水平（不同取值），分析因素与结局的的关联大小有所不同。在某一水平上（如取值为0）可能分析因素对结局的效应大，而在另一个水平上（如取值为1）可能效应小。4.自变量形式理论上，Logistic回归中的自变量可以是任何形式，定量资料和定性资料均可。但我觉得在数据分析时更倾向于自变量以分类的形式进入模型，因为这样更方便解释。例如体重，如果直接进行分析，结果提示的是每增加1Kg发生某病的危险。而现实中多数疾病可能对体重增加1Kg不敏感，或者我们医务人员不关心增加1Kg所发生的变化，而关注的是胖子是不是比瘦子有更高的发病风险。So，很多情况下将连续自变量转化为分类变量可能会有更合理的结果解释。5.标准误过大我有过这样的经历，logistic回归分析结果中某个自变量的OR值特别大（如>999.999）或特别小（999.999）。明显觉得有问题，但始终摸不着头脑，后来，发现可能是数据出了问题。对于此类问题，可能有以下原因：该变量某一类的例数特别少，如性别，男性有100人，女性有2人，可能会出现这种情形。空单元格（zero cell count），如性别与疾病的关系，所有男性都发生了疾病或都没有发生疾病，这时候可能会出现OR值无穷大或为0的情形。完全分离（complete separation），对于某自变量，如果该自变量取值大于某一值时结局发生，当小于该值时结局都不发生，就会出现完全分离现象。如年龄20~、30~、40~、50~四个年龄段，如果40岁以上的人全部发生疾病，40岁以下的人全部不发病，就就产生了完全分离现象，也会出现一个大得不可理喻的标准误。多重共线性问题，多重共线性会产生大的标准误。6.几个错误做法关于logistic回归分析，某些“大牛”如是说：“把因变量和自变量往软件里一放，一运行就出来结果了”，那么简单，我只能呵呵了！（1）多分类变量不看其与logitP的关系直接进入模型有时候你会发现某些多分类自变量应该有意义但怎么也得不到有统计学意义的结果，那你最好看一下这些自变量与logitP是神马关系，是直线关系吗？如果不是，请设置虚拟变量（SPSS叫做哑变量）后再进入模型。（2）变量赋值相反有时候，你会发现你的结果恰好与别人的相反。于是乎你不得不陷入深深的苦恼中，当揪头发、拍脑袋都无济于事是，看看是不是因变量赋值问题。如患病（赋值1）和不患病（赋值0）弄成了患病（赋值0）和不患病（赋值1）。注意：SPSS拟合模型时默认取值水平高的为阳性结果，而SAS与其相反。（3）参数估计无统计学意义有时候会发现所有自变量参数估计均无统计学意义，是不是很让你沮丧？（不管你沮不沮丧，反正我都看在眼里）如果你认为从专业角度不大可能所有自变量都无统计学意义，那你可以看下是不是标准误太大导致的Wald卡方检验失效，如果是，不妨换用似然比检验重新分析。如果不是，那你默哀，如果你知道原因请告诉我！（4）只看参数检验结果看到参数结果就认为分析结束了，这就是典型的只管工作完成，不理会工作质量。很少有人喜欢看拟合优度的结果，尽管拟合优度确实有用，尤其是在模型比较时。拟合优度通俗来讲就是看你求得的模型与实际数据的符合程度。logistic回归中有很多指标可用于拟合优度的评价，如Pearson卡方、Deviance、AIC、似然比统计量等。只要你不是非得追究它们的来历，这些指标的用法还是比较简单的，通常用于模型的比较。作者：StatsHuo链接：/p/fbd來源：简书著作权归作者所有。长按二维码向我转账受苹果公司新规定影响，微信 iOS 版的赞赏功能被关闭，可通过二维码转账支持公众号。微信扫一扫关注该公众号即将打开''小程序 TA的最新馆藏喜欢该文的人也喜欢Logistic回归在临床数据分析中的应用要求 Logistic回归在临床数据分析中的应用要求 LinkLabVIP Logistic回归是一种研究某个事件发生的概率与多个影响因素之间关系的的非线性回归的统计方法，根据结果之间的关系以及结果变量的取值个数，可以分为有序多分类Logistic回归、无序多分类Logistic回归、二分类Logistic回归，前两者是基于二分类Logistic回归的，二分类Logistic回归在临床医学中是应用最为广泛的，具有良好的判别和预测功能。在临床病因研究中，二分类Logistic回归主要用于分析疾病和危险因素间联系，与多元线性回归分析要求因变量是来自正态总体的连续性随机变量不同，二分类Logistic回归要分析其影响因素的结果必须是分类型变量，例如疾病的良性和恶性、肿瘤是否复发、感染和未感染、药物有效和无效或者是否患某种疾病等等只有两种分类的变量。另外，进行Logistic回归的观察样本要求相互独立，因此不适用于遗传性疾病或者家族聚集性疾病的发病因素研究。因为Logistic回归模型是在大样本的基础上建立起来的，所以进行分析时要求有足够的样本量，而为了保证根据样本得到的模型稳定性，样本量要随着引入模型自变量的的数目而增加，一般认为样本量至少要是自变量个数的10-20倍，如果要求更严格的话，二分类结果中的每一类的样本量都要达到自变量的至少十倍左右。例如，想要分析9个自变量与因变量肿瘤良性或者恶性的关系，按照严格要求，肿瘤良性和肿瘤恶性的病例数都要达到至少90例，而不能有140例肿瘤良性但只有40例肿瘤恶性；当然如果是非严格要求的话，只要 90~180例病例数就可以进行分析。当然，临床上可能会遇到自变量多然而样本量又不能保证充足的情况，这就需要对自变量进行分析和预先进行筛选，先过滤掉一部分自变量，再用剩余的自变量与因变量进行回归分析。对自变量的初步筛选，可以按照事先确定的检验水准（一般取检验水准为0.20），对每个自变量进行逐一分析，将没有统计学意义的排除在外，只将可能有统计学意义的自变量引入Logistic回归分析过程。主要有以下两种方法：一种是将某一自变量与因变量进行单变量logistic回归分析，如果自变量回归系数P值小于0.2则可以引入多变量Logistic回归分析，反之则剔除该变量；另外还可以将因变量作为分组因素，将样本分为两组，判断某一自变量的组间差异是否有统计学意义（检验水准一般取0.2），根据自变量的类型，可以选择卡方检验、t检验、秩和检验等等，选出有统计学意义的自变量。需要注意的是，初步筛选只是选出了具有统计学意义的自变量，但是不能代替该因素在临床和流行病学方面的意义，而且结合专业知识和临床经验，必要时可以将部分重要的自变量强行纳入回归分析，使建立的回归模型能够得到临床和流行病学的合理解释。最后，关于Logistic回归分析可以选择专业软件来实现。比如LinkLab，新型电子数据库采集系统，“一站式”医学科研管理工具！LinkLab是一款符合cFDA对于EDC系统规范的临床科研数据采集系统，以哈佛大学临床研究数据库（RedCap）和盖茨基金研发的随访软件（CommCare）为蓝本研发而成，可用于临床科研的数据管理，实现eCRF自定义设计、患者数据采集和管理、自定义病例筛选和导出、在线统计分析和展示、及多中心人员流程化管理等功能。旨在以更低成本、更短时间、更高质量完成最具颠覆性的临床科学研究。点击下方【阅读原文】，可免费注册试用！LinkLab 主体功能目前需要在电脑端操作哦，电脑端申请实名认证后才能体验科研项目的创建、自主搭建符合您个人需求的临床科研电子数据库等强大功能。目前LinkLab手机端只是基于电脑端项目创建后的数据收集管理功能。鼓励大家电脑端登录LinkLab官方网站【】完成认证后进行更好的用户体验！“一站式”医学科研管理工具！LinkLab帮您轻松做科研成为更好的临床医生！本文仅代表作者观点，不代表百度立场。系作者授权百家号发表，未经许可不得转载。 LinkLabVIP 百家号最近更新：简介: LinkLab——“一站式”医学科研管理工具！作者最新文章关注今日：9 | 主题：197502 微信扫一扫【求助】logistic单因素分析无意义，多因素分析有意义，如何解释页码直达：这个帖子发布于7年零79天前，其中的信息可能已发生改变或有所发展。各位达人，在临床资料分析中，一个变量在单因素分析时p=0.393,而在logistic多因素分析采用逐步回归时p&0.001,问题出在哪，如何解释？先表示感谢。不知道邀请谁？试试他们微信扫一扫广告宣传推广政治敏感、违法虚假信息恶意灌水、重复发帖违规侵权、站友争执附件异常、链接失效我也遇到类似的情况，希望高手解答解答微信扫一扫广告宣传推广政治敏感、违法虚假信息恶意灌水、重复发帖违规侵权、站友争执附件异常、链接失效因为单变量分析时没考虑其他因素，得出无意义的值可能是其他因素混杂因素引起的，而多因素分析考虑多种因素的影响，排除了混杂，就得出了不同的结果了微信扫一扫广告宣传推广政治敏感、违法虚假信息恶意灌水、重复发帖违规侵权、站友争执附件异常、链接失效我也遇到过这种情况，最后还是选择了多因素分析的结果，关于解释也是认同楼上的。微信扫一扫广告宣传推广政治敏感、违法虚假信息恶意灌水、重复发帖违规侵权、站友争执附件异常、链接失效关于丁香园spss的二元logistic回归分析,怎么判断两个变量之间是否有关系? spss的二元logistic回归分析,怎么判断两个变量之间是否有关系?方程中的变量 B S.E,Wals df Sig.Exp (B) 1a 性别 -.013 .343 .001 1 .969 .987 常量 -1.213 .542 5.010 1 .025 .297 &是否有统计学意义主要看sig 如果这个值小于0.05那么就是相关的,在此基础上看第一列B值,负号代表负相关.你的例子中性别不对因变量产生影响.另外logistic回归中Exp(B)值即为OR值也是非常有参考意义的值,你可以参考一下相关教科书,不同的案例解释内容不同.

杰西卡呢吗信息网