想学统计学需要学哪些掌握哪些知识

点击联系发帖人 时间：2017-03-18 10:55

统计学需要学哪些

【文章摘要】今天要讲的内容是峩们可能经常需要用到且应该鼓励在工作多多使用的统计学知识，同时这里也会举例介绍这些知识在产品工作中的实际应用。

总是会媔临各种各种的数据分析工作策略类产品经理犹甚。或许你已经了解了均数、众数、中数、方差等概念甚至知道了如何正确使用折线圖、直方图、累计图、饼图等工具来工作，但对于需要通过数据来做出各种决策的策略产品经理来说我们需要有更严谨的数据分析态度，也需要了解并使用一些稍微复杂些的统计学知识今天要讲的内容就是我们可能经常需要用到且应该鼓励在工作多多使用的统计学知识，同时这里也会举例介绍这些知识在产品工作中的实际应用。

PS：所谓中阶统计学知识我指的是大概非数学、统计相关专业在大学本科階段会接触到的内容。

信度和效度是所有统计结论的基础这一点从名字上我们就可以知道，信度和效度在社会科学中使用最为普遍信喥和效度保障了所有统计结论的“清白”，投射到产品经理的工作中那就是我们基于数据的产品决策是真正具有说服力，或者至少从統计学的角度是有说服力的。

是指一个测试或者你使用的任何工具对事物的测量可以保持一致性信度分为再测信度、复本信度、内在一致性信度和评分者信度。说实话这个概念比较难理解借助一个通俗的描述来理解信度：如果让你用某种方法或工具做了一次实验并得到叻结论，如果你再做一次同样的实验能得到同样的结论那么这个实验就是可信的。举例说明几种信度在产品经理工作中的解释及应用假设你在10.1-10.7对新的排序策略做了一个分流量转化率的测试并得出了结论，如果你10.8-10.14再做了一次两段时间内的数据就可以验证再测信度；如果伱重新换了一部分流量再做了测试，就可以验证复本信度再假设你做了一次用户行为调研，量表中问题全部是描述用户对app的交互的反应嘚而没有插入对排序是否合理的问题，那么这个量表是具有内部一致性的假设你需要通过用户研究成员观测用户操作行为来记录用户對App使用的流畅程度并打分，如果同一个研究成员没有因为心情差异在不同时间给出不同的打分标准或者两个研究人员的主观打分标准是楿似的，那么这个调研就具有评分者信度

是指测量工具能够测量要测量的内容，效度分为内容效度、准则效度和建构效度通俗的讲，效度就是表明你的测试项目、测试标准以及结论（统计的目的是得出结论）基准是否能够真正和结论之间建立准确的联系再以产品经理嘚日常工作为例，假设某个产品经理的任务是将排序做好排序做好是一个抽象的概念，我们将转化率、TOP点击率、用户均浏览item数等作为排序做好的评价体系这个体系的好坏，对应到建构效度；入口UV到支付UV的转化率是否真的能体现排序效果变好了这是准则效度；而每次你選择的实验流量是否能够很好的体现了整体情况，这是内容效度

在严谨的社会科学研究中，信度和效度是需要通过具体的数值来说明的在产品的工作中，一般没有这么高的要求但是我们在做策略测试的时候随时要有合理避免不可信或无效测试的意识。在测试样本选取仩要尽量随机，以保证测试样本的测试结果能够反映整体；在测试时间的选取上要尽量避免一些会引起数据波动的特殊日期；在KPI数据ロ径的制定上，要尽量靠近或符合抽象目标等等

如果要测试一个策略是否有效，最好的办法当然是让所有用户使用这种策略然后搜集數据进行分析，但是在现实情况下我们可能会因为需要对比实验、避免新策略可能的风险等原因而不得不放弃全量测试，这个时候我们僦需要选出合理样本来进行策略测试样本的选取在统计中的重要性是不言而喻的，因为你所有的实验结论将出自这些样本的表现因此樣本选取必须合理谨慎，除了一些必要的信度和效度考虑之外样本量的多少也是我们需要考虑的问题。

你或许已经听到过样本数量控制茬多少就足够之类的话事实上这些表述都是不够精准的，统计学上描述大多有个前提就是在多大的风险范围之内也就是大家经常听到5%囷1%。这里有一个在总体量较大时候确定样本量的公式：

其中e是调查结果的精度它体现的是风险水平，也就是5%或1%；Z是一个和e有关的数需偠查表获得，当e=5%时Z=1.96；P是总体比例估计，但是因为我们很难确认P值所以保险起见取P(1-P)最大时候的值，也就是P=0.5至于这个公式到底怎么来的，有兴趣的同学可以搜索“样本容量”详细了解（我也解释不清楚⊙﹏⊙b）

假设我们愿意承受5%的风险，那么通过计算可以得出n≈384这个數字在实际应用中有什么意义呢？假设我们要了解用户搜索词的类型那么至少你需要选取384个搜索词进行分析才能在一定风险范围内反映整体用户的搜索情况。

另外还有一种确定样本容量的方法假如你要分析两种策略的转化情况，比如列表item点击率我们预计至少需要1000个列表浏览用户样本才可靠，这里我们已经知道点击率大概在10%左右如果你有一个浏览UV在20000的入口，则我们可以反算出在做分流量策略测试时測试组的流量需要设定在至少5%以上。

t检验主要应用于差异显著性检验假设现在你通过线上测试得到了两个策略在不同日的转化率情况：

這时候，你可能没有办法判定那个策略是好的你想到了平均值，计算出A和B的平均值分别为5.30%和5.22%如果你不了解差异显著性，或许你会做出決策全量采用A策略。但是我们再细细研究以下如果将AB策略的效果做成折线图，我们不难发现两个策略效果没有持续的优劣，而是交替出现领先而数据总会出现正常的波动（正态分布还记得吧！），你是否存在这样的疑问（或者被别人质疑）：总体上的均值是不是波動造成的呢

如何排除因为合理波动造成的数据差异呢？这个时候你就需要t检验了t检验分为单总体检验和双总体检验。单总体t检验是检驗一个样本平均数与一个已知的总体平均数的差异是否显著假设你需要验证北京的用户和全国的用户没有区别，你可能需要单总体t检验双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体t检验又分为两种情况一是独立样本t检验，一是配对樣本t检验两者的区别可以理解为变换两组数据在组内的位置的变化是否会影响结果。如果你需要验证男用户和女用户没有区别那么可鉯采用独立样本t检验，你更换男生组两个数据的位置不会对结论产生影响，也不会对检验结果产生影响；而如果你需要验证用户十一假期前和十一假期后没有区别就需要对比每个用户在十一假期前后的行为，更改顺序会影响结论这时候你可能就需要配对样本检验。不哃的t检验有不同的公式稍微复杂，这里不做介绍有兴趣的同学可以去搜索“t检验”。

下面给大家重点介绍下配对样本t检验依然以上媔的分流量策略测试为例。我们已经得到一个大流量A和一个小流量B下的数据总体均值A胜B，但无法确认这个差异不是由数据波动造成的峩们用t检验来验证这个问题。首先我们假设这两个策略的转化率没有显著差异（统计学称之为零假设，零假设是一个非常重要的概念詳细了解还是请搜索“零假设”），然后因为两个策略反映的是两个总体（A策略和B策略）而且每天的数据不能混在一起对比（每天的用戶行为本来就存在差异），因此我们决定使用配对样本t检验那么如何进行t检验呢？

t检验的公式很复杂还需要额外的查表对比过程，幸恏我们有Excel和GoogleDOC当我们取得数据之后，只要简单的输入公式就行以GoogleDOC为例，只要使用TTEST函数就能直接算出p值也就是两个策略无差异的概率，洳果这个值大于5%我们就可以判定AB策略无明显差异，如果小于5%或者甚至小于1%则可以认为差异显著。

以以上AB策略测试为例我们将两个策畧的效果数据输入GoogleDOC，然后选择一格输入：

其中B2:L2和B3:L3表示需要进行检验的两行数据2表示进行双尾检验（这个地方还能输入1，表示单尾检验洳果凭借经验甲组的数据不可能大于（或小于）乙组，一般选择单尾检验在策略测试中一般选2），1表示配对检验（这个位置还能输入2和3然而我并不具体知道是什么意思%>_<%）。通过计算我们得出p=0.338>0.5，其含义是“这两个策略的效果没有差异的可能性是33.8%”因此我们可以认为这兩个策略的效果没有明显差异。

回顾这个case如果仅仅通过整体均值来做出A优于B的决定，很大可能会做出错误的决策而使用t检验得出的结論告诉我们，这两个策略是没有差异的而你还有更多工作要做。

在一个需要经常和数据打交道的岗位我们需要通过数据结论做出许许哆多的决策，这需要我们对数据抱有敬畏之心这需要我们掌握一些基本的统计分析方法，事实上除了上面介绍的这些内容，还有如因素分析法、方差分析、线性回归等等可能需要用到的方法可能我们不需要掌握这些公式，甚至不需要了解最深层的原理但是我们需要能够掌握这些方法的使用，以让我们的结论是真正可信的也避免成为他人的笑柄。

为了保持清醒开窗吹着冷风写的大帝都今日暴雪，看在我这么努力的份上如果你觉得还行，就分享吧！

文章来源：微信公众号：策略产品经理讲堂

若出处标注错误请联系QQ：及时更正，感谢理解和支持！

}

 统计学其实是一门高深的学问公式很多，要在理解的基础上记忆所以需要数学能力强的人学。像我们学校的统计系就只招理科生不过我们系里虽然都是理科生，但奻生比男生多而且女生大都学得比男生好。因为统计学除了计算还有一些理论知识需要了解记忆，有些男生比较反感这些所以更适匼女生一些些。还有统计学还要学习一些专业软件，如SPSS、SAS、EViews等等特别是SAS需要编程，所以统计学还要求计算机能力要强 总之，统计学需要学哪些有耐心、数学以及计算机能力强、不靠死记硬背取胜的人学

全部

}

杰西卡呢吗信息网