正态分布概率密度函数列p的概率是怎么算出来的啊 感觉计算量很大啊 希望得到解释 谢谢

统计学假设检验中 p 值的含义具体是什么?
大神们求不要复制百科定义,也不要用一堆专业术语。举个例子好了:投飞镖,假设一个飞镖有10,9,8,7,6,5,4,3,2,1总共十个环(10是中心),定义合格投手为其真实水平能投到10~3环,而不管他临场表现如何。假设10~3环占靶子面积的95%。H0:A是一个合格投手H1:A不是合格投手以上面这个故事为例,请问大神们可不可以就此来讲解一下【显著性水平】、【p值】、【检验的势】的意义以及计算方法?
按投票排序
已经有很多大神的精彩回答了,我也来凑个热闹说一下我的理解。题主也补充了要求对【显著性水平】、【p值】、【检验的势】进行说明。已经熟悉前面基本内容的,可以直接从「稍安勿躁」后面开始看,仍旧穿插题主的打靶的例子和
给出的投掷硬币的例子来谈:「假设检验」,顾名思义,就是通过概率统计的知识来判断一个命题(如「A是一个合格的投手」,如「这枚硬币是均匀的」,如「值大于0.75」)的真伪性。这个命题便称作「虚拟假设,null hypothesis」,我们通常可以将该命题用数学语言表达出来,比如:「这枚硬币是均匀的」可以定义为「硬币出现正面的概率为,即。」这个命题在统计学中通常用来表示,所以我们需要检验的假设写成:。然后问题就来了,在什么情况下,我们认为这个假设是不正确的呢?我们需要给出一个判断条件,这个判断条件通常有三种给出方式:1. 比大很多;2. 比小很多;3. 比大很多或小很多。在统计学上,我们将这个判断条件称为「对立假设,null hypothesis」,通常用来表示,以上三种情况可以分别写为:1. ;2. ;3. 。前两种对立假设下的检验被称为单峰检验,而第三种对立假设下的检验被称为双峰检验。然而,「对立假设」的条件仍不是很明确,以第一种对立假设为例,究竟偏离多远,我们才认为虚拟假设不成立,而对立假设成立呢?我们下一步要做的,就是要量化这个评判标准。很明显,我们的标准越严格,我们越有可能拒绝而接受,在这一过程中,我们可能会犯两种错误:第1类错误:是真的,但是由于我们标准过于严格,把他拒绝掉了;第2类错误:是假的,但是由于我们标准过于宽松,没有把它拒绝掉;可以将这两类错误概括为「拒真」错误和「受伪」错误(其实我觉得这种翻译很烂。)很明显,在制定评判标准的时候,我们要在犯两类错误的可能性之间有所权衡。虽然我们永远不会知道我们假设检验是否犯了错误,但幸运的是,我们可以知道我们犯这两类错误的概率。我们将犯第1类错误的概率,即「拒绝了一个真的假设」的概率称为「显著性水平,significance level」,通常用字母表示,即:也就是A本来是个好投手,但检验之后认为他是坏的;本来是枚均匀的硬币,但检验之后我们认为这枚硬币有问题;也就是A本来是个好投手,但检验之后认为他是坏的;本来是枚均匀的硬币,但检验之后我们认为这枚硬币有问题;显著性水平即为「被告」被冤枉的概率。通常情况下,我们不希望好人被冤枉,所以我们会在进行假设检验之前,取定一个的值,而且这个值通常比较小。在一定的的值的情况下,我们去考察犯第2类错误的概率,即「接受了一个假的假设」的概率。显然,我们希望这个概率越小越好,因为这个概率越小,我们的检验能力越厉害。我们用「检验的势」来刻画我们检验的厉害程度,用来表示:也就是,在尽量不冤枉好人的情况下,我们越能发现浑水摸鱼的坏投手,我们这个假设检验的势就越大!也就是,在尽量不冤枉好人的情况下,我们越能发现浑水摸鱼的坏投手,我们这个假设检验的势就越大!———————各位稍安勿躁,我们马上就要说到p值(p value)了!——————之前说到,当我们进行一个假设检验之前,通常要先选定一个显著性水平,也就是你所能接受的冤枉好人的可能性。然而,每位判官在这一点上是有分歧的,有的人希望大一点儿,有的人希望小一点儿。(越大,意味着检验越严格,我们冤枉好人的概率就越大)在这种情况下,我们就期望回答一个问题:对于面前的这个投手A,我们拿到了他的数据,我们不会冤枉他的最严格的检验水平,即最大的是多少呢?得到了这个问题的答案,我们就可以轻松完成在任意严格程度上的检验了,如果某位判官所希望的大于这个值,那么我们就认为投手A是个坏投手,反之亦可。而这个最大的,就是我们的值,即 所概括的:假设检验正确的情况下,得到当前情况乃至更差情况的概率。对于一枚均匀的硬币来说,投掷20次,得到18次正面是当前情况,投掷20次,得到18次反面对于硬币的均匀性来说,是同样「差」的情况,而投掷20次,出现19次正面、出现20次正面,出现19次反面,出现20次正面,对于硬币的均匀性来说,都是比当前情况「更差」的情况。所以,值就是将一枚均匀的硬币投掷20次,出现以下情况的概率:18次正面,19次正面,20次正面,18次反面,19次反面,20次反面注意,这是在「双侧检验」的前提下得到的结论,即我们的「对立假设」为通常意义下的「硬币不均匀」,即出现太多的正面与太多的反面是同样不好的情况。如果我们换一个「对立假设」,采用「单侧检验」的方式,即允许均匀硬币出现更多的反面,即「硬币不均匀」是指「投掷硬币出现了异常多的正面」。「对立假设」意味着,即使我们投掷一枚硬币一亿次都是反面,我们仍旧认为它是「均匀的」。此时,值就是将一枚均匀的硬币投掷20次,出现以下情况的概率:18次正面,19次正面,20次正面然后,我们说题主给出的例子, 给出了一种答案,在此多啰嗦几句:我认为,题主并没有对「假设检验」这个事儿完全吃透,因而提出了一个很奇怪的例子。因为通常情况下,「假设检验」的对象是一个随机变量的概率分布的参数情况。比如均匀硬币的例子,我们要明确定义「什么是一枚均匀硬币?」:若将投掷一枚硬币的结果记为随机变量,独立重复实验的结果服从二项分布,均匀硬币的值为「二分之一」。为了检验这个值,我们再定义检验统计量,在此题中定义为投掷20次硬币出现正面的次数,然后才有了以上关于值的计算和讨论。而题主给出的例子是很奇怪的,如果我们定义一个投手的投掷结果为随机变量,而题主并没有给出所服从的分布情况,只是认为合格投手大于三环(含三环)的概率为95%,低于三环的概率为5%。然后,我们要检验的参数是什么呢?检验统计量又是什么呢?我只能暂时理解为均是大于三环(含三环)的概率。而题主又如何定义「非合格投手」呢?如果有一名投手投掷大于三环(含三环)的概率为100%,题主是否认为他是一名「合格投手」呢?这个并没有说明白,只能按常识来判断题主的「假设检验」和「对立检验」:假设检验:对立检验:所以,对于投掷一次的情况,如果某一投手投了三环及以上,那么他的,值就是1,如果某一投手投掷一次,投了三环以下,那么他的,值就是0。这类似于给出的答案,也就是检验统计量取做大于三环(含三环)的概率的情况。然而,如果我们换一个检验统计量,将检验统计量改为投掷一次出现大于三环(含三环)的次数,此时,某一投手投了三环及以上,即,此时的值为好的投手等于或差于这一情况的概率,显然仍为1;但是,如果某一投手投了三环以下,即,那么值为好的投手投出等于或差于这一情况的概率,这是没有明确答案的,因为没有明确给出好的投手投掷情况的概率密度分布函数,只能说此时的值小于0.05,是不是0不知道。————————————————啰嗦完的分割线———————————————总之,对值的认识最好结合到假设检验的背景中去,比如对多元线性回归模型的进行检验之类的,这样可能会形成一个更清楚的认识。
谢邀,。反对当前排名第一的
的答案。(原因见后)我整篇文章就说了一句话:通俗的来说,p值代表:在假设原假设(H0)正确时,出现现状或更差的情况的概率。前半句话大家理解起来都没问题,重点在理解后半句——出现现状或更差的情况。举个例子:假如我有特别的打电话技巧,我告诉楼主接我电话的人都是女生。楼主不信,于是他要做试验来检验。他默默的写下原假设和备择假设:原假设(没有确凿证据一般不推翻的假设):这个人没有特别的打电话技巧,也就是他打电话是男是女接听的概率都是1/2。备择假设:他真的有特别的打电话技巧。好了然后我们做实验:我在楼主面前打了20个电话,这20个电话里有18个是娇滴滴的萌妹子回复的。那这个实验的p值怎么算呢?在假设原假设(H0)正确时:所以现在我们都假设接我电话的人的性别是随机的,也就是接听我电话的人是男是女的概率分别为1/2。出现现状或更差的情况:对楼主来说,20个里有18个萌妹子已经是很奇怪的了。如果有19个?甚至20个都是岂不是更奇怪么?所以,出现现状或更差的情况代表着:接我电话的妹子等于或超过18个。这下p值就清楚了吧:楼主看了一眼这么多0,觉得还是吹的可能性还是很小的,于是就拒绝了原假设,接受了我“真的有特别的打电话技巧的”备择假设。可是呢!!!!!!千万不要以为你这就理解了出现现状或更差的情况哦!更多时候,我们会遇到这种情况:我们检验硬币的均匀性:原假设(没有确凿证据一般不推翻的假设):硬币均匀,正反出现概率各为1/2。备择假设:硬币不均匀。如果这次试验我们抛了20次硬币,18次出现正面,出现现状或更差的情况是什么呢?答案是:出现18次、19次、20次正面和0次、1次、2次正面。(不是出现18、19、20次正面哦!)我可没说这个硬币正面出现概率多,所以这个时候出现18次正面和出现18次反面(2次正面)或更差的情况(19正、19反、20正和20反)一样是更坏的情况。这也是为什么当前排名第一的 的答案是错误的原因。他的答案应该是1/当然,如果你以后继续学习概率论的知识的话,有可能碰到比单侧和双侧更难的情况。当然我就不让你犯迷糊了。最后回到另一个问题:为什么我不对楼主的命题进行分析呢?因为楼主的命题要求:H0:他是合格的射手(p=1)这下....只要出现任意一次没射中,p就 小于等于 1-至少全中=1-1*1*1*1*1……=0看到了吗?一次没中,H0就一定拒绝了。同理,在检验很多东西的时候,你不能说绝对如何如何。因为数理统计告诉你:小概率发生不正常;而概率论告诉你:一切皆有可能。
好吧我不擅长讲故事..但我还是试着讲一下。这些故事是我的统计老师讲给我听的P.S. 1 在我的故事里,显著性水平被称为α,“检验的势”被称为“检验力”,power..P.S. 2 要彻底理解这三个概念,故事真的不够,建议在有了更多了解之后,看这篇文章《》,或者果壳的翻译版《》故事1  公司A全国的某个岗位X有1000人应聘,这1000人当中,有400是真的符合公司要求的,有600个是能力不达标来碰运气的。这间公司对自己的测试题很有信心(觉得只有5%的人能碰运气通过),没有面试,只是让所有应聘者参加这个测试,只要测试通过就录取入职,根据一年后的表现决定留任、升职还是裁员。最后350人通过测试,入职  但是实际上呢,其实5%浑水摸鱼的人因为种种原因通过了测试,20%真正有能力的人又因为其他种种原因没有通过测试  这些人工作一年后,根据他们的表现,公司发现,其中320人是真的符合公司要求的,30人是碰运气给碰进来的。也就是如下图的情况  有30个(8.57%&5%)浑水摸鱼的,看来这测试不太行啊..故事2  公司B全国的某个岗位Y有1000人应聘,这1000人当中,有800是真的符合公司要求的,有200个是能力不达标来碰运气的。这间公司也对自己的测试题很有信心(觉得只有5%的人能碰运气通过),没有面试,只是让所有应聘者参加测试,只要测试通过就录取入职,根据一年后的表现决定留任、升职还是裁员。最后650人通过测试,入职  但是实际上呢,其实5%浑水摸鱼的人因为种种原因通过了测试,20%真正有能力的人又因为其他种种原因没有通过测试  这些人工作一年后,根据他们的表现,公司发现,其中640人是真的符合公司要求的,10人是碰运气给碰进来的,也就是如下图的情况  650人里只有10人(1.54%&5%)是浑水摸鱼的,这个测试还不错~  为什么要说这两个坑爹的故事?(哪有公司这么招人的= =)因为这和研究者在进行“通过样本推断总体”一类的研究时的情况类似,不过两家公司代表的可能是不同的研究领域。而用故事最后的比例对比5%来判断故事中的测试是否“有用”,是很容易犯的一个错误  所谓显著性水平α,就是你允许最多有多大比例庸才(H0)通过你的测试——你允许最多有多大比例“H0”被你误以为是H1。这是预先设置好的,在研究前就存在的。为了防止浑水摸鱼的人靠运气入职公司,你的测验不能太简单  所谓检验力power,就是你的测试能够让多大比例人才(H1)通过——你有多大能力发现"H1是H1"。检验力分两种,一种是事前检验力,即在正式进行研究前,你预先设定一个检验力标准,为了获得这么大的检验力(以防人才没有被你招进来),你需要对研究进行一些设计(公司需要设计一份“好”的测试,例如不要太难);另一种是回溯性检验力,即在研究进行之后,根据结果计算自己在研究中实际拥有的检验力。故事里的两个其实都是回溯性检验力  如何权衡上面两者,就看所在领域,及研究者自身了(公司的偏好、决策,以及对于损失人才和浪费资源在庸才两种不同类型的风险承担能力)  而p值,我的理解则是实际上你让庸才之中的多大比例庸才(H0)招了进来,而不是入职者当中的庸才比例。故事里两个p值都是.05,但是入职者当中的庸才比例却不是.05。这是最容易混淆的两点。放到研究里,假设p=.030,意思是说你的研究有3%的可能是在“H0”这个库里面被发现而错误地归入H1;而不是指3%的可能在“包含H0和H1的所有现象”这个库里被发现。后一个比例的大小,相当于故事里入职庸才在所有入职人士中的比例,这个比例取决于在应聘者(你想要检验的假设的总体)当中,有多少是人才(H1),有多少是庸才(H0)
其实理解起来很简单,基本原理只有两个:1、一个命题只能证伪,不能证明为真2、小概率事件不可能发生证明逻辑就是:我要证明命题为真-&证明该命题的否命题为假-&在否命题的假设下,观察到小概率事件发生了-&搞定。结合这个例子来看:证明A是合格的投手-》证明“A不是合格投手”的命题为假-》观察到一个事件(比如A连续10次投中10环),而这个事件在“A不是合格投手”的假设下,概率为p,小于0.05-&小概率事件发生,否命题被推翻。可以看到p越小-》这个事件越是小概率事件-》否命题越可能被推翻-》原命题越可信---------------------这个过程实际上和人脑的做判断的过程很相似
谢谢两位高票的评论,更赞同前者观点和实例,后者的阐述详尽,但可能混淆了p-value,两类统计学错误等概念,也就是混淆了“显著性检验”和“假设检验”的两套理论体系。p值是Fisher先提出来的“显著性检验”理论体系中的概念:1. 有一个命题,称之为”零假设“(null hypothesis)H0;2. 找到一个统计量T,可以计算T的统计分布;3. 一次试验结果可以计算得到一个确切的T值(T0),在H0成立的情况下,出现比T0更极端情况的概率值记作p值;4. 如果p很小,则可以作为”零假设并不成立“的有力证据。注意,在Fisher的这套体系里面不涉及备择假设Ha(alternative hypothesis)。参考文献:Fisher, Ronald Aylmer. "The goodness of fit of regression formulae, and the distribution of regression coefficients." Journal of the Royal Statistical Society (1922): 597-612.
()Fisher, Ronald Aylmer. "On a distribution yielding the error functions of several well known statistics." Proceedings of the international congress of mathematics. Vol. 2. 1924.
()Fisher, RonaldAylmer. "Applications of” Student's” distribution." Metron 5.3 (1925): 90-104.
()Fisher, Ronald Aylmer. Statistical methods for research workers. Genesis Publishing Pvt Ltd, 1925.关于备择假设Ha和两类错误(以及似然比检验),是E. Pearson和J. Neyman在1928年发表在《生物计量》杂志上的文章中提出的概念,他们建立了与Pearson简单的p值系统不同的一套称作“假设检验”的理论体系。H0为真而拒绝的错误,称作I类错误,又称弃真错误、假阳性(false positive),和检验的显著水平(significancelevel),记作α;H0为假Ha为真而没能拒绝H0的错误,称作II类错误,又称存伪错误、假阴性(false negative)。而是否拒绝H0是将一次实验得到的统计量T0与事先确定的显著水平α相比较。参考文献:Neyman, Jerzy, and Egon S. Pearson. "On the use and interpretation of certain test criteria for purposes of statistical inference: Part II." Biometrika A 20.175-240 (1928): 263-294. ()Fisher和E. Pearson、J. Neyman对于这两套体系是互相诋毁互不相认的,现今也有诸多争论,但一般认为后者更加global而前者比较简单粗暴。而现今的教科书和实践中,已经把这些概念混淆起来了,想必这是两套体系的发明者不愿意看到的状况。"For all the P value's apparent precision, Fisher intended it to be just one part of a fluid, non-numerical process that blended data and background knowledge to lead to scientific conclusions. But it soon got swept into a movement to make evidence-based decision-making as rigorous and objective as possible. This movement was spearheaded in the late 1920s by Fisher's bitter rivals, Polish mathematician Jerzy Neyman and UK statistician Egon Pearson, who introduced an alternative framework for data analysis that included statistical power, false positives, false negatives and many other concepts now familiar from introductory statistics classes. They pointedly left out the P value.But while the rivals feuded — Neyman called some of Fisher's work mathematically "worse than useless"; Fisher called Neyman's approach “childish” and “horrifying [for] intellectual freedom in the west” — other researchers lost patience and began to write statistics manuals for working scientists. And because many of the authors were non-statisticians without a thorough understanding of either approach, they created a hybrid system that crammed Fisher's easy-to-calculate P value into Neyman and Pearson's reassuringly rigorous rule-based system. This is when a P value of 0.05 became enshrined as 'statistically significant', for example. “The P value was never meant to be used the way it's used today,” says Goodman."参考文献:Lew, Michael J. "Bad statistical practice in pharmacology (and other basic biomedical disciplines): you probably don't know P." British journal of pharmacology 166.5 (2012): .
()Regina Nuzzo. Scientific method: Statistical errors. Nature 506(2014): 150-152.()Statistical Hypothesis Testing, Wiki. ()而现今批评p值滥用的文章也不乏其数,总结起来是p值显著结果在重复研究中不可重现的问题。而不论Fisher还是E. Pearson、J. Neyman的体系,都是频率学派的理论,所以对p值的批判常被当做频率学派和贝叶斯学派之间争论的靶子。频率学派与贝叶斯学派的不同可以参考知乎相关问题“”。参考文献:Ioannidis, John PA. "Why most published research findings are false." PLoS medicine 2.8 (2005): e124. ()Regina Nuzzo. Scientific method: Statistical errors. Nature 506(2014): 150-152.()Goodman, Steven N. "Toward evidence-based medical statistics. 1: The P value fallacy." Annals of internal medicine 130.12 (1999): 995-1004. ()O'Neill, Robert T. "Secondary endpoints cannot be validly analyzed if the primary endpoint does not demonstrate clear statistical significance." Controlled Clinical Trials 18.6 (1997): 550-556. ()笔者认为还是将这些概念区分开来比较好。对于p值而言, 如所解释的“在H0成立的条件下,出现该实验结果或更极端情况的概率值”就足够通俗易懂地传达Sir Ronald Aylmer Fisher老人家方法的初衷了。
的答案尽管基本正确,但从严格的定义来说是有一定误导的。要说清楚p-value,就要说清楚很多其他基本概念。我就用题主的例子讲个故事好了。题目叫:射击队来了个新领导。射击队来了个新领导,想选拔一些队员为省(自己)争光。于是他找来 一个叫费舍尔的人来做统计检验。虽然费舍尔表示这个方差应该是比较好判断一个选手素质的统计量。但领导表示我们没那么多时间,全运会马上开始了,大家打一枪直接看结果拉到。费舍尔想应该是个分布应该是正态吧,你看要不我自己定一个拒绝区间,但领导表示就是10-3了。费舍尔算了一下发现合格选手打进这个区间的概率应该是96%。但领导希望这个检测最好尽量少出错,费舍尔说这有两种可能的错误:第一种是,运动员是合格的,但我们认为他不合格,就是拒绝原假设。第二种是,运动员不合格,但我们认为他合格。领导说那就让这两种概率都小,费舍尔说这个数学上不行啊,两种错误概率不能同时都降得很小。领导想了想说把一个好的人说成不合格,他会出去说我们输了是领导选人无房,你把不合格的人说成合格的,我们可以说比赛前状态不好。看来第一种错误比较严重,那就尽量让第一种小吧。费舍尔说,我们统计一般都是把第一类错误确定一个很小数值,然后尽量设计实验令第二种尽量小。领导说最多4%好了。费舍尔告诉领导这个4%,或者说我们希望第一类错误的最大值,就是显著水平。那么同时,我们希望看一下我们犯错误的平均概率也恰好是4%,这个4%同时也是我们犯错误百分比的期望,也就是说有100个候选人,我们平均会把四个合格的人弄成不合格的。那么具体到实验中就是,这个人在合格的情况下,打出n环以外就会被认为不合格。所以这个实际的概率就是合格的人打出n环以外的概率,我们希望这个概率不要大于4%。费舍尔发现n等于3的时候恰好是4%。那么只要n小于等于3,整体的第一类错误都不会大于4%。但是我们还要尽量让第2类的错误概率小,就是说一个不合格的人,打进n环以内的概率要尽量小。反过来,一个不合格的人打出n环以外的概率就是我们正确的概率,当然第一类错误地反面也是正确的,但那个概率就是最少1-4%,在最优情况下,无法改动。所以我们就希望让一个不合格的人打出n环以外的概率尽量大,费舍尔给这个概率起了一个名,叫检验的势(power),检验的是就是我们争取的概率,他越大,第二类错误就越小。费舍尔算了一下对于一个不合格的人来说,打出3环的概率也就势是60%,打出2环是20%。3环最大。所以我们就选择了3环到10环作为拒绝区间。这时候第二类错误最小是40%。费舍尔发现跟领导想的一样,不用说服领导了,松了一口气。(下面开始解释p-value)然后费舍尔做了一次实验,一个人打了一个2环外。费舍尔的拒绝区间的形式,是多少环之外就拒绝。那么当一个人打了2环外,如果拒绝区间是2环外,那么如果假定他合格,平均来说他被拒绝,也就是费舍尔犯错的概率就是2%。如果是3环外,就是4%。如果1环,我们不拒绝。如果我们的拒绝区间没有定下来,领导希望这个犯错误的概率越小越好,那么这个拒绝区间就应该是2环外。在假设拒绝区间没确定的情况下,对给定的样本,在H0假设下,我们选择一个拒绝区间,使得拒绝这个样本的概率(也就是一类错的概率)最小,这个概率叫做p-value(这就是为何之前的答案不妥,p-value是个最小值,只不过由于某人答案里拒绝区间只有一种,所以最小值就是唯一的值,那个答案没错,但定义不全面)。费舍尔这时候跟领导说,假设有100个人都这样,如果我们都拒绝他们,我们平均也就弄错两个,也就是2%,领导您定的是最多4%,这个符合要求,不如就索性都拒绝了吧。领导表示费舍尔领会了他的精神表示同意。这也就是为什么pvalue小于置信度就拒绝,因为在给定了拒绝区间的情况下,p-value越小我们约少可能犯错,所以就放心大胆拒绝了。这基本就是答案。必须说,在高等数理统计里的p-value定义真反人类。
这是修改后的版本,之前的答案中提到我的假如没有另外说明的话都是修改前的版本。原版本存在一定的误导性,以及语句上的确存在漏洞,所以进行了订正。既然题主不想听干巴巴的定义,那就让我们讲故事。就从打赌开始说起。一日闲机无聊,我与楼主会饮于望胡楼。饮罢,两人都不想主动买单,于是我提议以置硬币来决定谁买单。规则是这样的:有二十个一元硬币,谁的菊花朝上多,谁就算赢。然后楼主先投,有十一个硬币菊花朝上。他就得意洋洋的看我。然后我一扔,有十九个硬币个个菊花朝天。楼主角色由红转白,由白转黑。拍案而起,大吼一声,你丫作弊,硬币有问题!我笑而不语问楼主:凭什么说硬币有问题?难道二十个硬币中十九个硬币菊花朝上就根本不可能么?显然理论上是可能的,但是楼主依旧会认为我在作弊,实际上,任何人见到这个的场景都会怀疑背后有猫腻。因为楼主或其他任何人都知道:假如这场打赌是公平的话,那么每一个硬币的两面都有相等的概率向上,所以每个硬币菊花朝上的概率都是1/2也就是0.5,那么十九个菊花朝上的概率是20/1048576,约等于0.00002。这种概率太小了,楼主认为在假如我没有在硬币上做手脚以让结果有利于我的话是不可能发生这种情况的。我立刻反驳说,你这是嫉妒我,那我要扔出二十个菊花朝上你还不是要说我也在作弊?楼主说,没错,我既然认为你扔出十九个菊花朝上是在作弊,那二十个菊花朝上当然也是因为你对硬币动了手脚!让我们用统计学的语言概括一下。H0:我没有对硬币动手脚。H1:我对硬币动了手脚,以让结果偏向于我。(这里面的H0称之为检验假设,意思是说你要检验的这个假设,H1称之为备择假设。他们两的关系是不能兼容的。这两者只能且必须拒绝一个。假如拒绝H0的话,那么就不能拒绝H1了。)于是我们做了一个实验(赌博)。结果出现了十九个硬币菊花朝上的情况。假如赌博是公平的,那么出现这种情况的概率是20/1048576。而比这种情况更加极端的二十个硬币统统朝上的概率是1/1048576,这种概率更加低。假如我们认为十九个硬币朝上是个小概率事件的话,那么比它更极端的二十个硬币朝上是一个更加极端的更小概率事件。这两者的和是21/1048576。于是楼主认为在这么一次实验(赌博)当中出现这么个小概率事件或者比它更极端的事件是不肯能的。于是只能拒绝H0,于是不能拒绝H1。也就是说我对硬币动了手脚,以让结果偏向于我。以上就是假设检验的基本思想,里面涉及到了楼主的一个问题,什么是p值?这里的p值等于21/1048576,p值就是假如赌博是公平的,那么出现这种情况和比这种情况更极端的概率值。翻译成干巴巴的语言就是在H0成立的条件下,出现该实验结果或更极端情况的概率值。继续鄙视剧透党,我恨你们!!!
前几天刚刚学完 Coursera 的课程《Statistical Reasoning for Public Health: Estimation, Inference, & Interpretation》,看到这一题难免有点手痒。当年学医学统计的时候,蒙混过关,现在终于到还的时候。答案有点长,废话有点多,不想花时间的请直接读文末的粗体字,其余的就当作我的复习了。鉴于题主的例子不够典型,不能体现样本、总体的概念,所以我决定和其他几位一样,重新设定场景。在此之前,假设题主理解通常的函数、概率、正态分布和统计学概念,这样我不至于太痛苦。后台老板发布任务,要求我提供知乎所有知友的月收入平均值。显然,一种直观的解决方法是询问每一个知友他们的月收入,然后计算出平均值。可是这并不简单:一来我不知道究竟有多少知友,难免有所遗漏;二来难免有个别知友不愿合作,提供我月收入情况;三来工作量巨大,会耽误我「德玛西亚」的时间。于是我决定使用统计学方法,随机寻找 100 位善良的知友,收集他们的收入数值,计算平均值,再借助这个平均值去估计(estimate)全体知友的收入平均值。在这里,全体知友就是本次统计学研究的总体(population),研究的参数(parameter)是月收入平均值(),而那些善良的知友则是一个样本(sample),其样本数(n)为 100,月收入平均值记为。经过一系列复制粘贴发送的枯燥动作,我终于获得了善良知友们的数据,然后轻而易举地算出了。看看距离交差时间还早,我突然胡思乱想,害怕这 100 位知友的其实无法代表老板需要的,于是我痛下决心,再多取样(sampling)几次,多计算几个,看看会有什么发生。所谓「好奇害死猫」,我反复取样了几次,发现算出来的竟然都不一样——究竟哪个才能代表呢?我越来越恐惧,唯一能做的就是反复取样,反复取样……等我缓过神来,发现已经整整取样了 500 次,手头已经握有整整 500 个。我停下手头的工作,陷入了深深的恐慌,习惯性地将这些数字按出现的次数进行归纳,结果惊讶地发现,它们竟然服从正态分布(中心极限定理)!我灵机一动,只要我的取样足够靠谱,真正的不就是正态分布最中央的峰值吗?考虑到正态分布的特性,假如我在当中随便取一个,然后计算以其为中心、前后各 2 倍这些的标准差(standard deviation, SD)距离的区间(即),那么岂不是有 95% 的概率将包含其中吗?我释然了,随手找了个(点估计),算出个区间发给了后台老板——这就是置信度(confidence level)为 95% 的置信区间(confidence interval, CI),区间估计。邮件刚发出,突然铃声大作,我猛然从桌前抬头。该死!工作太过无聊,我竟然伏案睡着了,之前的不过是黄粱一梦。笔记本里仍然仅有 1 个样本得出的 1 个均值,扭头看手表,时间也来不及了。于是我决定将我手头的这个作为「点估计」,然后估计一个反复取样样本均值的标准差(标准误,standard error),便可轻轻松松地计算出区间估计交差了。到此告一段落,看看之前提到哪几个概念:标准误:对某一总体进行相同样本数的反复取样,得到的样本均值的标准差。可以使用某个样本标准差和样本数进行估计。置信区间:使用某个样本的参数均数和标准误构造的区间,有一定概率能够覆盖(包含)总体该参数均数的真值。其相应的概率,称为「置信度」。很快,老板发来回复。我喜滋滋地打开邮件,期待收到表扬。没想到展现在我面前的,是资产阶级的罪恶本质。老板又布置了任务,丢给我一组数据,声称是百度贴吧随机抽样 120 人的月收入数据,要我研究研究两个网站人群的收入是否一致。我计算出贴吧样本的收入均值,估计出标准误,看上去也可以估计一个置信区间。如果和之前那个有重叠的话,那我可不敢说两个人群的收入不一致。不过,这次我想试试「假设检验」(hypothesis test)的方法。这个方法的原理相当简单,如果反复在两个总体中对应地抽样,然后将同一批抽样的样本均值相减,得到差异值(difference),就会发现这许许多多差异值同样符合正态分布(中心极限定理)。那么假设两个总体的均值相等,换言之,刚刚发现的正态分布,就以 0 为中心,以的标准误为标准差。接下来,便可以利用正态分布的性质计算手头上的样本均值差异(或更远值),在该正态分布中出现的概率(P value,P 值)。所以,第一步先做假设。一般地,需要一个零假设(null hypothesis)和一个备择假设(alternative hypothesis)。比如像这次的问题:然后,还需要一个概率的临界值。如果两个总体的均值相等( 成立),已有的样本差异(或更远值)发生的概率多小,才算不可能发生啊?就 5% 吧,如果样本差异(或更远值)落在正态分布两头最远端各 2.5% 的区域,应该是小概率事件,不可能发生;既然发生了,说明假设有误,必须拒绝零假设,备择假设成立。而这里的 5% 就被称为「显著性水平」。于是又产生了两个概念:P 值:当零假设成立时,已知样本参数差异(或更远值)出现的概率。显著性水平:拒绝零假设时的 P 值阈值,一般取 5%。好吧,我的故事讲完了。我不是统计学出身,大学时的统计学成绩仅仅及格,这里所提及的例子也只能涵盖「假设检验」的一小部分。而且我确实不懂什么叫做「检验势」…… 的答案更为专业,请移步阅读。非常感谢各位,希望知友发现错误,能够不吝指出。谢谢!
1、首先,纠错票数最高的一个说法,纠错后应该是H0不成立≠认定H1成立。补充:假设检验一般是倾向于保护原假设的或者说在显著性检验中,H0是受保护的假设,处于有利地位。(谢谢黄勋留言纠错,开始我说的是肯定句,没有用一般二字,如同他所说,这里要涉及的第一类错误α和第二类错误β,而实际生活中,由于我们更清楚的是我们想要推翻的H0是什么样的,于是我们选择控制α)逻辑上说,H0和H1是非此即彼没有错,如此说来,随意把哪个作为H0都是应该非此即彼,但是,事实上选择哪个作为H0是有差别的。
对于H0,我们是用拒绝和不拒绝(虽然有的文献上说的是"接受",但是我更偏向于精确的"不拒绝"),如果拒绝H0,那不能打包票说H0一定错。
2、然后纠错某个答案,P值反映的是实际数据与原假设之间不一致的概率值,与传统的显著性水平相比,P是一个具体的值。而显著性水平是事先确定的,比如0.05。否定一个事物相对于肯定一个事物要容易得多,这是假设检验背后的哲学。而在假设检验中,一般要设立一个原假设,动机是用现实数据来找出假设和现实的矛盾从而否定这个假设,并称该检验显著。这里所谓的矛盾,是指按照原假设,现实数据的出现仅仅属于小概率事件,是不大可能出现的。如果否定不了,那就说明证据不足,无法否定原假设(注意:不等于接受原假设),就好比你追一个女生,若她没拒绝你,不代表她接受你了,只能说有发展的可能。这道题中,扔飞镖可以看成这样一个过程:每次瞄准的位置相当于中心值,然后实际投中的位置与瞄准的位置之间的偏离相当于方差,技术高低就看方差大小了,投手每扔一支飞镖都相当于一个正态分布的随机事件。然后。。。。然后纠错T主的描述,“定义合格投手为投一次飞镖能在置信区间内”这一句话,置信区间是一个随机区间,它会因样本的不同而不同,而不是所有的区间都包含总体参数的真值!请题主换一个例子或者修改题目。——————update——————假设检验的过程在任何一本统计学书本上都能看到,在此,我只对P值进行说明,尽量通俗:P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。举个栗子:就举举烂了的抛硬币吧,我们假设硬币是均匀的,那么常识或者说第一反应是如果抛个100次,那么正面和反面朝上的次数应该差不多,在统计学中就将这个“差不多”给量化了。试想一下,正面数等于45或者55,你就有一点点的怀疑它是均匀的;正面数等于30或者70,比较怀疑;正面数等于10或者等于90,非常怀疑。如上,正面数和反面数的差异越大,你就越有把握认为硬币不是均匀的(拒绝原假设)。再重复一下,P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。P值越小,我们拒绝原假设的理由越充分。把这个定义套入上述硬币试验的场景中,比如你观察到“正面数是5或者95,正反面次数差异是90”:如果原假设为真(硬币是均匀的),P值就是你投100次,所得的正反面数差异大于90的机率。如果这个P值很大,表明,每次投100次均匀的硬币,经常有正反面差异大于90的情形出现。如果这个P值很小,表明,每次投100次均匀的硬币,你很难看到正反面的差异会超过90。这里的逻辑是:在假定原假设为真的情况下,出现所看到的偏差(正反面差异为90),是这么地不可能(P值很小),以至于我们不再继续相信原假设。则拒绝原假设。
看到楼主的提问和以上各路大神的精彩回答,将近年来我看到过的关于P值的理解做和我自己的理解一个最大限度的总结,供正在研究假设检验和P值的同学提供多种不同角度的参考: P-值是在原假设为真的条件下某一统计量的取值以其观察值为最小值或最大值的事件的小概率,或说某一统计量的取值以其观察值为最小值或最大值是一个小概率事件,此小概率就是 P。(我所理解的)P值的各路定义:在一个假设检验问题中,利用观测值能够做出拒绝原假设的最小显著性水平称为 P-值。对于 P-值的理解,一般情况下有这几种认识:(1) 拒绝原假设的最小显著性水平。(2) 观察到的(实例样本的) 显著性水平。(3) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。(4) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。(5) 我们在拒绝原假设的犯的最小的第一类错误,而所规定的显著性水平(具有主观性)是事先给定的犯第一类错误的最大错误。以上基本就是我所知道的关于P值的各种解释了。对于了解统计学的人,相信稍微思考就应该能够会心一笑,哈哈;对于不懂统计学的人,可以看一些基本的书籍,假设检验虽然重要,但是描述性的统计一样蕴含着古老的化繁为简的智慧。看到上面各路大神绘声绘色的描述,不知道我这样是否满足知乎的回答方式,不过相信在看完上面各种精彩回答之后,也应该能够看懂这些定义方式,哈哈。莫喷!
p值的含义是,在数据满足指定假设条件的情况下(例如xxxx满足正态分布一类的),如果我们认为H1假设成立,但是H1假设其实不成立的概率。实用中这是一个值得注意的坑。例如我们在回归分析找能影响y的x的时候,如果我们设定5%的p值作为显著水平,同时我们有一大堆x,实际上x和y一点关系都没有,但是平均每试验20个x,就会有一个的p值小于5%(5%的出现概率)。这也是为什么在用统计方法研究问题的时候前提假设推理非常重要,因为你只要试验的因变量足够多,总会有一个显著的。另外扯下时髦的大数据。所谓大数据真正的意义在于,由于数据如此之大,导致数据间有关联时获得的p值如此之低,H1假设其实不成立的概率几乎就是零,这样问题的前提假设推理也就并不重要了。当然这方面有一点的争议。
显著性水平就是你定的5%(1-5%就是你所谓的95%置信区间的confidence level,中文可能是叫做置信阈)。P值得官方定义,在零假设成立的条件下,得到观察值以及比观察值更极端的值得概率。比如你说3-10环,如果做单尾检验,P值就是当A是好投手时,A投出3环以下的概率。如果P值大于0.05,就是一般说的p值不显著,也就是说我们没有足够的证据排除A作为一个好投手投出3环以下是偶然的这种情况,那么我们仍然不能认为A不是一个好投手(注意,不能认为A不是好投手,一般不说我们认为A是一个好投手,在实践里面一般不”接受“空假设,只说不拒绝空假设)。相反,如果p小于0.05,那么认为p是显著的,我们就接受alternative hypothesis,认为A投手之所以投出3环以下,是因为他不是好投手,而不是出于偶然。0.05的制定不是硬性的,只是通常情况下大家都这样用。关于具体为什么制定成0.05,比如我以前在国内的教材上看到的说法是”认为发生概率小于0.05的事件是小概率事件,单次不可嫩发生“,但是在其他地方还没有怎么见过。假设检验大概就是这样了,希望有帮助。
其实不用想得多复杂。P值就是一个概率数值,它表示对你提出的原假设有多支持,这是用来确定是否应该拒绝原假设的一种方法。你提到的95%,说明它的置信度a就是0.05,这是说明我们有多少把握认定最后结果是正确的。这里你设定的是95%,那意思就是最后结果我们有95%的把握做对。比如说,根据你提到的数据,假设最后分析出来P值是0.01,它小于0.05,那就是要拒绝你提出的H0假设了。关于显著性水平。假设检验中有两种错误,一种就是弃真错误。A其实是个不好的投手,但题主最后结论是A是个好投手,那题主得到的结论把真相抛弃了,所以就是弃真错误。我们把犯这个错误的概率成为a,这个a就是显著性水平了。
p-value: 在原假设成立的情况下,发生比原假设这个事件更极端的情况的概率。如果原假设H0:A&B,那这个事情的反面或者是极端情况就是A&=B,p-value=P(A&=B|H0);如果原假设是H0:A=B,那这个事情的反面或者是极端情况就是A&B或A&B,p-value=P(A&B|H0)+P(A&B|H0)
P值越小,拒绝原假设的理由越充足。可以理解为,P值是原假设成立的概率。拒绝原假设,即不能认为原假设成立。但这不代表接受备择假设。
就是在空假设分布下出现比某实际值还夸张的值的概率。
从这个题目的提法,我觉得题主可能有一个误区。在这个题目里,合格不合格不能以投进10-3环的圈内判断,这样判断等同于一次投标判定,与统计学没有关系了。需要判断应该有限次投标投进的次数,比如一个合格的投手应该投100次,有70次以上投进圈内,另外,这个与圈内外的面积无关(楼主题目中说的95%)。其实只要在靶上画个圈,圈内计投中一次,圈外不计即可。圈的大小只影响一组人中,可能达到合格的比例。与本题判断一个人是否合格无关。理清这个就应该弄明白问题方向了。电脑里没装作图软件,文字表述这个太苍白了,我觉得其他人讲的也比较多了,就不再说了。
一般,原假设都是否定假设
犯第一类错误的概率的一种体现吧
做参数假设检验问题时,一定会将『H0:A是一个合格投手
H1:A不是合格投手』也就是研究目的转化为数学语言,如『H0: theta&a &-& H1:theta&=a』然后才是讨论参数假设检验名词的时候。但如何转化是建模的问题了。。。问题是题设定义『合格投手为其真实水平能投到10~3环,而不管他临场表现如何。』想说明什么,个人觉得不清不楚,很难把投手水平参数化,如果真要研究,不如删去重新假设。很多答案都在进行上面说的建模,然后再用统计分析。但由于题主定义有问题,我觉得都不是好模型。 的回答 p 值定义不对。和匿名用户比较靠谱。。。最后吐槽一下,这么多非统计的过来答统计题,明明在谈很严谨的 p『值』、假设检验,大部分人却脱离数值谈意义。。。}

我要回帖

更多关于 正态分布概率密度函数 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信