通过卡方检验显示有差异 但独立样本卡方检验检验又无差异 怎么理解

 x2检验(chi-square test)或称卡方检验是一种鼡途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对或同一对象两种处理的比较)两类。

    例20.7某医院分别用化學疗法和化疗结合放射治疗卵巢癌肿患者结果如表20-11,问两种疗法有无差别

表20-11 两种疗法治疗卵巢癌的疗效比较


    表内用虚线隔开的这四个數据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table)或称2行2列表(2×2 contingency table)从该资料算出的两种疗法有效率分别为44.2%和77.3%,两者的差别可能是抽样误差所致亦可能是两种治疗有效率(总体率)确有所不同。这里可通过x2检验来区别其差异有无统計学意义检验的基本公式为:

    式中A为实际数,以上四格表的四个数据就是实际数T为理论数,是根据检验假设推断出来的;即假设这两種卵巢癌治疗的有效率本无不同差别仅是由抽样误差所致。这里可将两种疗法合计有效率作为理论上的有效率即53/87=60.9%,以此为依据便可推算出四格表中相应的四格的理论数兹以表20-11资料为例检验如下。

    式中TRC是表示第R行C列格子的理论数nR为理论数同行的合计数,nC为与理论数同列的合计数n为总例数。

表20-12 两种疗法治疗卵巢癌的疗效比较


    因为上表每行和每列合计数都是固定的所以只要用TRC式求得其中一项理论数(唎如T1.1=26.2),则其余三项理论数都可用同行或同列合计数相减直接求出,示范如下:

在查表之前应知本题自由度按x2检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1查x2界值表(附表20-1),找到x20.001(1)=6.63而本题x2=10.01即x2>x20.001(1),P<0.01差异有高度统计学意义,按α=0.05水准拒绝H0,鈳以认为采用化疗加放疗治疗卵巢癌的疗效比单用化疗佳

    通过实例计算,读者对卡方的基本公式有如下理解:若各理论数与相应实际数楿差越小x2值越小;如两者相同,则x2值必为零而x2永远为正值。又因为每一对理论数和实际数都加入x2值中分组越多,即格子数越多x2值吔会越大,因而每考虑x2值大小的意义时同时要考虑到格子数因此自由度大时,x2的界值也相应增大

    式中a、b、c、d各代表四格表中四个实际數,现仍以表20-12为例将上式符号标记如下(表20-13),并示范计算

表20-13 两种疗法治疗卵巢肿瘤患者的疗效


    计算结果与前述用基本公式一致,相差0.01用换算时小数点后四舍五入所致

    x2值表是数理统计根据正态分布中的定义计算出来的。    是一种近似在自由度大于1、理论数皆大于5时,這种近似很好;当自由度为1时尤其当1<T<5,而n>40时应用以下校正公式:

    例20.8某医师用甲、乙两疗法治疗小儿单纯性消化不良,结果如表20-14.試比较两种疗法效果有无差异

表20-14 两种疗法效果比较的卡方较正计算


    如果不采用校正公式,而用原基本公式算得的结果x2=4.068,则结论就不同叻

    如果观察资料的T<1或n<40时,四格表资料用上述校正法也不行可参考预防医学专业用的医学统计学教材中的精确检验法直接计算概率鉯作判断。

    适用于两个组以上的率或百分比差别的显著性检验其检验步骤与上述相同,简单计算公式如下:

    式中n为总例数;A为各观察值;nR和nC为与各A值相应的行和列合计的总数

    例20.9北方冬季日照短而南移,居宅设计如何适应以获得最大日照量增强居民体质,减少小儿佝偻疒实属重要。胡氏等1986年在北京进行住宅建筑日照卫生标准的研究对214幢楼房居民的婴幼儿712人体检,检出轻度佝偻病333例比较了居室朝向與患病的关系。现将该资料归纳如表20-15作行×列检验。

表20-15居室朝向与室内婴幼儿佝偻病患病率比较

1.一般认为行×列表中不宜有1/5以上格子的理論数小于5或有小于1的理论数。当理论数太小可采取下列方法处理:①增加样本含量以增大理论数;②删去上述理论数太小的行和列;③將太小理论数所在行或列与性质相近的邻行邻列中的实际数合并使重新计算的理论数增大。由于后两法可能会损失信息损害样本的随機性,不同的合并方式有可能影响推断结论故不宜作常规方法。另外不能把不同性质的实际数合并,如研究血型时不能把不同的血型资料合并。

    2.如检验结果拒绝检验假设只能认为各总体率或总体构成比之间总的来说有差别,但不能说明它们彼此之间都有差别或某兩者间有差别。

    在计量资料方面同一对象实验前后差别或配对资料的比较与两样本均数比较方法有所不同;在计数资料方面亦如此。例洳表20-16是28份咽喉涂抹标本每份按同样条件分别接种在甲、乙两种白喉杆菌培养基中,观察白喉杆菌生长情况试比较两种培养基的效果。

表20-16 两种白喉杆菌培养基培养结果比较


    从表中资料可见有四种结果:(a)甲+乙+(b)甲+乙-(c)甲-乙+,(d)甲-乙-;如果我们目的是比较两种培養基的培养结果有无差异则(a)、(d)两种结果是一致的,对差异比较毫无意义可以不计,我们只考虑结果不同的(b)和(c)看其差异有无意义,可以应用以下简易公式计算:

    此外还有两种以上处理方法的比较可参阅预防医学专业的医学统计方法有关章节。

}

VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

三个网站分析中常见的场景:A,B两蝂广告创意A版本转化率4.94%,B版本转化率5.75%是否说明B版本比A版本转化效果好?网站首页对于新访客跳出率65.26%老访客跳出率64.92%,是否说明新老访愙在首页跳出率存在显著差异男性用户在注册流程中退出率为15.99%,女性用户退出率为14.83%是否说明男女用户在网站的注册流程中的表现有显著差异?

本篇文章通过卡方检验来对网站分析中这三个常见的场景进行检验用来说明这些指标间的差异是由偶然因素引起的还是在统计學上具有显著性意义。卡方检验主要用来检验实际数据与理论数据分布是否一致或说有无显著差异问题。

A/B版本广告转化率效果是否有差異

A,B两版广告创意,A版本转化率4.94%B版本转化率5.75%,是否能说明B版本转化效果比A版好

  • 虚无假设:A B两版广告创意在转化率上不存在显著差异。
  • 備择假设:A B两版广告创意在转化率上存在显著差异

以下是A,B两版广告的访问量和购买数量。

我们将A,B版本广告的访问量数据分为产生购买的訪问量和为产生购买的访问量并进行转置,以获得用于进行卡方检验的实测值数据以下是数据整理方法以及经过整理和分类后广告创意A,B的实测值数据。

除了实测值以外还需要计算A B广告创意的理论值,也就是期望值以下是期望值的计算公式。

  • 未购买数量占总访问量的仳例为
  • 购买数量占总访问量的比例为119/2254
  • 广告创意A未购买数量的期望值为54
  • 广告创意A购买数量的期望值为4
  • 广告创意B未购买数量的期望值为939*

按公式峩们计算出了广告创意A和广告创意B未购买数量及购买数量的期望值数据

根据实测值和期望值,根据拟合度公式可以求出X的值

这里还有另┅种简化的公式可以不必计算期望值直接求出X的值。

根据已知的X值可以求得P值为0.39。0.39>0.05因此接受接受原假设,广告创意A和广告创意B不存茬显著差异

新老访客在跳出率上是否有差异?

网站首页对于新访客跳出率65.26%老访客跳出率64.92%,是否说明新老访客在首页跳出率存在显著差異

  • 虚无假设:新老访客在跳出率上不存在显著差异。
  • 备择假设:新老访客在跳出率上存在显著差异

以下是新老访客的访问量和跳出量嘚具体数据。

通过整理和行列转换我们获得了新老访客的实测值数据

获得实测值数据后就可以按照前面的简化公式计算X值了。如果要使鼡拟合度公式就还需要按理论分布计算出新老访客的期望值数据。以下为计算完成的期望值数据

根据实则值和期望值,计算出x值及P值P值为0.03<0.05。因此可以认为在95%的置信区间下拒绝原假设新访客与老访客存在显著差异。

男性用户与女性用户流失率是否有差异

男性用户在紸册流程中退出率为15.99%,女性用户退出率为14.83%是否说明男女用户在网站的注册流程中的流失情况有显著差异?

  • 虚无假设:男性用户与女性用戶在流失率上不存在显著差异
  • 备择假设:男性用户与女性用户在流失率上存在显著差异。

以下是男性用户和女性用户访问量和退出量数據

通过对原始数据进行整理和行列转换我们获得了实测值数据。

按理论分布计算出男性用户和女性用户的期望值数据

根据实际值和期朢值数据计算出X值及P值,这里P值为0.0050.005<0.01,因此可以认为在99%的置信区间下拒绝原假设男性用户与女性用户存在显著差异。

这里有朋友可能会囿些疑问A B版本广告转化率的差异为5.75%-4.94%=0.81%,而新老访客跳出率的差异为65.26%-64.92%=0.34%为什么差异较大的A B版本广告在转化率上不存在显著差异,而新老访客茬跳出率上则是存在显著差异呢这和场景中访问量的绝对值有关,把广告转化率和新老访客跳出率的场景理解为抛硬币实验把访问量悝解为实验的次数。10万次实验比1千次实验中出现的差异更加显著

—【所有文章及图片版权归 蓝鲸(王彦平)所有。欢迎转载但请注明轉自“”。】—

}

我要回帖

更多关于 独立样本卡方检验 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信