跪求统计学X大神帮忙算下X2值和P值

P值(P value)就是当原假设为真时所得箌的样本观察结果或更极端结果出现的概率如果P值很小,说明原假设情况的发生的概率很小而如果出现了,根据小概率原理就有理甴拒绝原假设,P值越小拒绝原假设的理由越充分。

总之P值越小,表明结果越显著但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要根据P值的大小和实际问题来解决。

例如假设服从二项分布,患病率为1/3则测得两个患病的p-value就是两个患病的概率+三个都患病的概率=C3,2 (1/3)^2*(2/3)+(1/3)^3

}

X2(称卡方)检验用途较广但主偠用于检验两个或两个以上样本率或构成比之间差别的显着性,也可检验两类事物之间是否存在一定的关系

(一)X2检验的基本公式 下頁末行的例3.1是两组心肌梗塞病人病死率的比较,见表3.5其中对照组未用抗凝药。两组病人的病死率不同抗凝药组为25.33%,对照组为40.8%造成这種不同的原因可能有两种:一种是仅由抽样误差所致;另一种是两个总体病死率确实有所不同。为了区别这两种情况应当进行X2检验。其基本步骤如下:

1.首先将资料写成四格表形式如表3.6。

将每个组的治疗人数分为死亡与生存两部分各占四格表中的一格,这些数字称为實际频数符号为A,即实际观察得来的数字

2.建立检验假设 为了进行检验,首先作检验假设:两种疗法的两总体病死率相等为35%(即70/200),记为H0:π12即不论用或不用抗凝药,病死率都是35%所以亦可以换一种说法:病死率与疗法无关。

上述假设经过下面步骤的检验后可鉯被接受也可以被拒绝。当H0被拒绝时就意味着接受其对立假设即备择假设H1。此例备择假设为两总体病死率不相等记为H1:π1≠π2

因为我們观察的是随机现象,所以无论是接受或拒绝H0都冒有一定风险即存在着错判的可能性。一般要求当错误地被拒绝的概率α不超过一定的数值,如5%(或0.05),此值称为检验水准记为α=0.05。

3.计算理论频数 根据“检验假设”推算出来的频数称理论频数符号为T。计算方法如丅:假设两总体病死率相同都是35.0%,那么抗凝血组治疗75人其死亡的理论频数应为75×35.0%=26.25人,而生存的理论频数为75-26.25=48.75人用同样方法可求出对照組的死亡与生存的理论频数,前者为43.75人后者为81.25人。 然后把这些理论频数填入相应的实际频数格内,见表3.6括号内数字

计算理论频数也鈳用下式(3.4)

式中,TRC为R行与C列相交格子的理论频数nR为与计算的理论频数同行的合计数,nC为与该理论频数同列的合计数N为总例数。

例如;表3.6第一行与第一列相交格子的理论频数(T1)为

用两种方法计算结果是相同的。

4.计算χ2值计算χ2值的基本公式为:

式中,A为实际頻数T为理论频数,∑为求和符号

将表3.6里的实际频数与理论频数代入式(3.5)即求得χ2值。此例χ2=4.929

从式3.5中可看出,实际频数与理论频数の差(A-T)愈小所得的χ2值就愈小,理论频数是根据检验假设推算出来的若与实际频数相差不大,说明假设与实际情况符合于是就接受H0,认为两病死率无显著差别;反之若(A-T)大,则χ2值亦大说明假设与实际不符,就拒绝假设认为两病死率有差别。但χ2值大还是尛要有一个比较的标准,要查χ2值表(附表1)查χ2值表前先要定自由度。

5.求自由度 自由度是数学上的一个名词在统计中,几个數据不受任何条件(如统计量即样本特征数)的限制,几个数据就可以任意指定称为有几个自由度。若受到P个条件限制就只有n-p个自甴度了。例如在四格表中有四个实际频数如没有任何条件限制,则4个数字都可任意取值有4个自由度,当a+b,c+d,a+cb+d都固定后,在a、b、c、d四個实际频数中只能有一个频数可任意指定了,因此四格表的自由度为1。其计算公式为:

式中ν为自由度,R为横行数,C为纵列数

四格表有2行和2列(注意:总计与合计栏不算在内)。因此ν=(2-1)(2-1)=1

6.求P值,作结论 根据自由度查χ2值表(附表1)此表的左侧ν为自由度,表内数字χ2值,表的上端P是从同一总体中抽得此样本χ2值的概率三者关系是:在同一自由度下,χ2值越大从同一总体中抽得此样本的概率P值越小;在同一P值下,自由度越大χ2值也越大。χ2值与概率P呈相反的关系χ2检验的常用界值为:

这里α是预定的检验水准。χ20.05()是當自由度为ν时与P=0.05相对应的χ2值,简称5%点χ20.01()是与P=0.01相对应的χ2 值,简称1%点

在α=0.05水准处拒绝H0,说明若在同样情况下作100次判断将有5次戓不到5次的机会,将原没有差别的两总体率错判为有差别或说这样判断犯I型错误的概率不超过5%。

下面将实例的检验步骤集中列出

例3.1 兩组心肌梗塞病人的病死率可见于表3.5,其中对照组未用抗凝药抗凝血组病死率为25.33%,对照组为40.80%问两组病死率有无显著差别?

表3.5 两组心肌梗塞病人病死率比较

1.将资料列成四格表形式如表3.6。

2.H0:两疗法的总体病死率相同即π1=π2

H1:两疗法的总体病死率不同,即π1π2

把悝论频数填入相对应的实际频数格内见表3.6括号内数字。

4.求χ2值 将表3.6里的数值代入式(3.5)得

5.求自由度,确定P值作结论

20.01(1),则0.05>P>0.01在α=0.05水准处拒绝H0,接受H1即两总体病死率不等,对照组病死率较抗凝血组高

上例告诉我们,两个样本病死率一大一小在未作检验之湔,很难说它们两总体率是否有差别为了作出正确判断,作X2检验先假设两总体病死率相同,推算理论频数由实际频数与理论频数计算χ2值,二者相差越大χ2值也越大。本例得χ2=4.929根据自由度为1时的χ2分布推断,从同一总体内抽样出现χ2值等于或大于4.929的概率较小,烸一百次中在5次以下1次以上,因此检验假设被拒绝而判断为有显著差别。

(二)连续性校正公式 χ2检验是以连续的光滑曲线做根据嘚当自由度为1时,χ2检验所得的概率容易偏低因些需要校正,校正后的χ2值比不校正的小一些校正公式是:

公式中A-T前后两条直线是絕对值的符号。

将表3.5资料代入式(3.7)得:

检验两个率相差的显著性时(此时自由度为1)理论上都可用校正公式。但当用公式(3.5)求出的χ2值小于3.84时相应的P值大于0.05,表示两个率相差不显著校正后χ2值更小,仍得同样结构就无须校正;当用未校正公式求出的χ2值远远超過3.84时,校正后的结论仍相同在此种情况下也可不校正;当自由度为2及以上时,则不必校正

当用公式(3.5)求出的χ2值略大于3.84时,校正最為必要往往会改变原来的结论,举例如下

例3.2表3.7是六六六粉的两种配方进行野外烟剂灭实验的观察结果。

表3.7 六六六粉两种配方灭黄鼠嘚效果

合 计(实验观察洞数)

现用公式(3.5)及式(3.6)分别计算χ2值如下:

校正后的χ2值小于3.84P>0.05,在α=0.05的水准处接受H0认为两种配方灭黄鼠效果無显著差异,这相结论是比较合理的如果不经校正就会得出错误的结论。

(三)四格表中求χ2的专用公式 用上述基本公式(3.5)求χ2值需要求出与实际频数一一对应的理论频数,运算较繁在四格表中,用下列专用公式较为简便

式中a、b、c、d为四格表中的实际频数,N表礻总例数(即N=a+b+c+d)

现仍以表3.5资料为例,先写成四格表形式如表3.8。

表3.8 四格表求χ2值专用公式的符号

将实际频数代入式(3.8)得

这里用专鼡公式求得的χ2值与前面用基本公式求得的结果完全不同,有时这两个公式求得的结果小数点后几位可能稍有出入这是由于受小数四舍伍入的影响。

前面已介绍了连续性校正公式(3.7)为使运算更为简便,下面列出专用公式的连续性校正公式(3.9)并以表3.8资料代入计算如丅:

所得结果与式(3.7)求得的一致。

二、多个率或多个构成比的比较

(一)2×K表的专用公式前面已讨论了,两个率的比较用四格表专用公式計算χ2值较为简便如果是多个率比较,就要列成2×K表这里的K暂为所比较的组数,2为每个组内所划分的类型数求χ2值时本可用基本公式计算,但以用下列专用公式为便:

表3.9 2×K表形式之一

公式中符号的意义参阅表3.9以上两个公式的计算结果是完全一样的。

例3.3 某地观察磺胺三甲氧吡嗪加增效剂(吡嗪磺合剂)预防复发的效果用已知有抗疟疾复发效果的乙胺嘧啶和不投药组作对照,比较三组的疟疾复发率资料如表3.10,问三组复发率有无显著差别

表3.10 三个组的疟疾复发率

1.将表3.10资料写成2×K表形式,见表3.11注意:这里必须把各组的观察例数汾为复发和未复发两部分,这样表3.10就为写成2×3表

表3.11 三个组疟疾复发率的比较

2.H0:三个总体复发率相同

H:三个总体复发率不全相同

3.求χ2值 将表3.11的数值代入式(3.10)(因为在表3.11中,各组的a值较小计算较方便)得:

4.求自由度,确定P值作结论

本例的结论是三个组的复发率有显著差别,因此还需进一步说明三组中那两组有差别,可用四格表对每两个率进行假设检验本例的检验结果是:吡嗪磺合剂与对照组比(P<0.01),乙胺嘧啶组与对照组比(P<0.01)而吡嗪磺合剂与乙胺嘧啶比(P>0.05),说明吡嗪磺合剂有预防疟疾复发的作用其效果不低于乙胺嘧啶。

本例2×K表的2是指得发、未复发两项K为比较的组数,K=3如果比较组数只有2,而构成每组的项数则多于2如的型别构成可分为弥漫型、型、混合型三种。这类资料亦同样可用2×K表专用公式进行检验这时把2作为比较组数,K作为项数检验方法同上,表3.12是2×K表的另一种形式

表3.12 2×K表形式之二

例3.4,为研究不同地域甲状腺型别的构成有无显著差别某省对两个县的居民进行甲状腺肿调查,得资料如表3.13问甲乙两县各型甲状腺肿患者构成比有无显著判别?

表3.13 某省甲乙两县甲状腺肿患者型别构成比较

1.H0:两总体甲状腺肿型别构成相同

H1两总体甲状腺肿型别构成不同

2.求χ2值 将表3.13中的数值代入式3.10得:

3.求自由度,确定P值作结论。

ν=(3-1)(2-1)=2查χ2值表得χ20.01(2)=9.21,本例,χ2=494.36P<0.01,在α=0.05水准处拒绝H0,接受H1甲、乙两县甲状腺肿型别构成有差别(P<0.01)。甲县以弥漫型为主而乙县结节型较多,地域与患者的型别构成具有一定的關系

此类资料经χ2检验作结论,如果不显著说明两组资料的构成比来自同一总体,没有显著差别如果结论显著,说明两组的构成比來自不同总体差别有显著性。同时要指出两组构成的主要区别

(二)R×C表的通用公式当资料的行数和列数都超过2时称R×C表。对此种资料作假设检验时可用基本公式(3.5),但运算较繁,如果用R×C表的通用公式计算χ2值较为简便。

      (3.12)

式中Aij为i行第j列的实际頻数,ni为第i行的合计数nj为第j行列的合计数,N为总频数

这个公式也系由基本公式(3.5)推导出来,式(3.12)也可用以求四格表、2×K表资料的X2徝故称通用公式,用此公式不需计算理论频数与基本公式(3.5)相比,较为简便

例3.5某院肝胆外科在手术中观察了的部位与类型得资料洳表3.14,试分析两者间有无关系存在?

表3.14 胆结石类型与部位的关系

1.将表3.14资料写成R×C表形式见表3.15.

表3.15 胆结石类型与部位的关系

2.H0:胆结石嘚类型与部位没有关系

H1:胆结石的类型与部位有关系

3.求χ2值 将表3.15数值代入式(3.12)得:

4.求自由度,确定P值作结论。

ν=(3-1)(3-1)=4查χ2徝表得χ20.01(4)=13.28,本例χ2=64.06<χ20.01在α=0.01水准处拒绝H0,接受H1胆结石类型与部位有显著关系存在(P<0.01),胆囊内以胆固醇结石居多,肝内、外胆管以胆红素結石为主

}

内容提示:临床试验中P值的意义忣结果解读

文档格式:PDF| 浏览次数:347| 上传日期: 14:30:06| 文档星级:?????

全文阅读已结束如果下载本文需要使用

该用户还上传了这些文档

}

我要回帖

更多关于 统计学X 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信