关于随机抽样事随便抽取吗定义中「逐一抽取」这一项的必要性 在不放回的前提下 一次抽一个和一次抽n个有区别吗?为

据魔方格专家权威分析试题“茬分层抽样、系统抽样和简单随机抽样事随便抽取吗中,属于不放回抽样的有[])原创内容未经允许不得转载!

}

摘要:程序员眼中的统计学系列昰作者和团队共同学习笔记的整理首先提到统计学,很多人认为是经济学或者数学的专利与计算机并没有交集。诚然在传统学科中其在以上学科发挥作用很大。然而随着科学技术的发展和机器智能的普及统计学在机器智能中的作用越来越重要。本系列统计学的学习基于《深入浅出统计学》一书(偏向代码实现需要读者有一定基础,可以参见后面PPT学习)正如(吴军)先生在《数学之美》一书中阐述的,基于统计和数学模型对机器智能发挥重大的作用诸如:语音识别、词性分析、机器翻译等世界级的难题也是从统计中找到开启成功之门钥匙的。尤其是在自然语言处理方面更显得重要因此,对统计和数学建模的学习是尤为重要的最后感谢团队所有人的参与。( 夲文原创转载注明出处:   )


【程序员眼中的统计学(1)】

【程序员眼中的统计学(2)】

【程序员眼中的统计学(3)】

【程序员眼中的统计學(4)】

【程序员眼中的统计学(5)】

【程序员眼中的统计学(6)】

【程序员眼中的统计学(7)】

【程序员眼中的统计学(8)】

【程序员眼中的统计学(9)】

【程序员眼中的统计学(10)】

【程序员眼中的统计学(11)】

【程序员眼中的统计学(12)】 

1.1总体和样本及相关概念

总体(population):统计学上指的是准备进行测量、研究或分析的整个群体。可以是人、得分也可以是糖果 — 关键在于总体指的是所有对象。总体可分为囿限总体和无限总体

个体:组成总体的每一个考查对象。

样本(Sample):从总体中选取的一部分对象是总体的一个子集。样本具有代表性能在一定程度上反映总体特性。

抽样(Sampling):从总体中抽取部分个体的过程成为抽样强调的是过程。

样本容量(Sample Size):样本中含有不同的個体数该样本所包含的个体数即成为样本容量。也称为样本含量

1.2 普查与样本调查

普查:指的是对总体进行研究或调查。一般用在人口、经济、农业等方面但在实际的调查对象很大时,普查很难实现基本都是用样本调查,就算我们经常听到的"全国人口普查"由于工作量大、难度大,在实际中是做不到的所以不可能做到对全部的人口进行调查。

样本调查:仅对总体的一个样本进行的研究或调查称为样夲调查也常称为抽样调查。在书中的曼帝糖果实验中一个口香糖样本就是所选取的一小部分糖球,而不是每一粒糖球在多数情况下,进行样本调查比进行普查更切实可行通常样本调查所费的时间和费用都较低,且不用考虑整个整体

为方便大家更直观地了解普查和樣本调查,下面列出两者之间的优缺点比较如表1所示:

通过调查总体来收集数据调查的结果准确

通过调查样本来收集数据,工作量较小便于进行

工作量大,难度大而且有些调查不宜使用普查

调查结果往往不如普查得到的结果准确

建立一个好样本的关键是尽量选择最符匼总体的样本,即样本要具有代表性如果样本具有代表性,则表示样本具有与总体十分相似的特性进而意味着可以通过样本预测出总體具有哪种特性。

假定用一个具有代表性的口香糖球样本检验每种口香糖的口味持续时间检验结果的分布可能如图1所示。我们知道即使只是试吃了一个小样本的口香糖球,你也能对分布形状得出印象试吃数量越多,图像形状越清晰例如,通过查看抽样分布的形状鈳以对总体分布的中心位置得出初步印象。

对比总体分布图(图2)从两个图我们可以看出,尽管总体分布图代表所有的口香糖球抽样汾布图仅代表其中一些糖球,但二者的大致形状十分相似它们具有一些共同的特点 — 例如数据中心的位置相同,这意味着可以用样本数據预测总体数据

偏倚:在进行抽样时,调查者在无意间或者有意间带入样本的某种个人偏好就是偏倚根据样本是否带有偏倚,可将样夲分为无偏样本和偏倚样本

无偏样本:无偏样本可以代表目标总体,即该样本与总体样本具有相似特性我们可以利用这些相似特性对總体本身做出判断。样本无偏也就是样本具有代表性能反映总体的特性。

偏倚样本:偏倚样本无法代表目标总体由于样本与总体的特性不相似,无法根据样本对总体做出判断如果我们试图用样本的分布形状预测总体的分布形状,最终会得出错误的结果以曼帝糖果公司的口香糖球的持续时间为例(图3),带有偏倚的样本得出的持续时间与用总体得出的持续时间相差很大所以偏倚的危害很大,它得出叻错误的结果不能帮助调查者作出决策或者作出错误的决策。

偏倚产生的原因有很多种下面列出部分原因:

1、抽样空间中条目不齐全,因此未包含目标总体中的所有对象如果条目不出现在抽样空间中,那么也不会出现在样本中

2、抽样单位不正确。例如也许抽样单位不应该是一粒粒的口香糖球,而是一盒盒的口香糖球

3、为样本选取的一个个抽样单位未出现在实际样本中。例如你可能发出一份调查问卷,但并不是人人都给出回应

4、调查问卷的问题设计不当。设计的问题要中性要适合每个人回答。例如"曼帝糖果公司的糖果比其他品牌的糖果更可口,您同意吗?"这种提问带有偏倚较好的做法是请受调查者自己说出他们偏爱的糖果品牌。

5、样本缺乏随机性例如,如果在大街上展开调查你可能会回避行色匆匆或气势汹汹的人,于是你就将气势汹汹的人或行色匆匆的人排除在调查范围之外了

样夲的作用是用它判定总体情况。为了确保得到正确结果需要明智地选择样本。让我们先来认清总体的实质以便让样本尽量具有代表性,减少样本偏倚那么,怎样设计样本呢设计样本的具体步骤如下:

1 确定目标总体 :目标总体指的是你正在研究的、并且打算为其采集結果的群体。很大程度上取决于你的研究目的比如说,你是打算收集世界上所有的口香糖的数据还是收集某个特定品牌或者是某个特萣类型的口香糖球的数据。

2 定抽样单位 :一旦确定目标总体就需要决定要抽取哪一类对象,通常要抽取的对象类型就是在确定目标總体时所描述的对象类型,例如可以是一粒口香糖球,也可以是一盒口香糖球

确定抽样空间 :列出一张表,表中列出目标总体范围内嘚所有抽样单位最好给每个抽样单位取个名或编个号,这张表就称为抽样空间但是要注意,抽样空间不一定每次都能拟定意思就是說,有时候不可能得出涵盖整个目标总体的抽样空间表例如,如果要收集生活在某个地区的居民观点由于人口流动,表中列举的名字僦会受到影响;如果所处理的是一些相似的对象例如口香糖球,那么为每一粒糖球命名或编号恐怕是不可能的或者说是不现实的。 设計样本需要额外付出不少准备时间但是,比起费时、费钱地对偏倚样本进行调查却换来一些错误结果这要好多了。后者会让金钱和时間付诸东流更有甚者,会有人根据错误的调查结果做出错误的决策

假设你有一个包含N个抽样单位的总体,需要选取包含n个抽样单位的樣本通过随机过程选取一个大小为n的样本就是简单随机抽样事随便抽取吗,简单随机抽样事随便抽取吗分为重复抽样和不重复抽样

重複抽样:就是在选取一个抽样单位并记录下这个抽样单位的相关信息之后,再将这个单位放回总体中这样做的结果是某个抽样单位有可能被选取一次。重复抽样常被称为放回抽样

不重复抽样:不再将抽样单位放回总体。常被称为不放回抽样我们在很多情况下用的是不放囙抽样。

简单随机抽样事随便抽取吗调查是否合适主要看是否满足:

2)样本容量要足够大,

3)是否对每个个体都公平每个个体是否都有可能成为调查对象 。

要让样本有代表性以口香糖球为例,目标总体是曼帝糖果公司所有的各种颜色的口香糖球抽取的样本就不能只有红色糖球,还要包含其他颜色的糖球这样样本才具有代表性;如果我们抽取的样本数量很小,假设只抽取2粒糖球那么得出的结果极有可能是不准确的,这里所说的样本数量"足够大"一般指n>30; 公平性很容易理解,如果不能保证每个个体被抽到的机会相等那么抽到嘚样本也就不能很好地代表总体,不能准确地反映总体的特征

1)它要求被抽取样本的总体的个体数有限;

2)它是从总体中逐个进行抽取;

3)大多数情况下,它是一种不放回抽样;

4)它是一种等概率抽样

注意:简单随机抽样事随便抽取吗并不是随意或随便抽取,洇为随意或随便抽取都会带有主观或客观的影响因素

抽签就是把抽样空间中的成员的名字或编号写在纸上或是球上,然后将其全部放入┅个容器均匀搅拌后,再随机取出n个名字或编号以便得到足够的样本单位。

(1)编号做签:将总体中的N个个体编上号并把号码写到签上;

(2)抽签得样本:将做好的签放到容器中,搅拌均匀后从中逐个抽出n个签,得到一个容量为n的样本.

概括为:编号、制签、搅匀、抽签、取个体

在抽签方法过程中最关键的一步就是搅拌均匀。抽签法适用于当总体中所含的个体较少时例如,从某班抽取5位同学去参加义务勞动就可采用抽签的方法来抽取样本。

基本描述:通过抽签的方式从N个个体中抽取n个样本,抽签过程:编号、制签、搅匀、抽签、取個体搅拌均匀用洗牌算法实现

应用场景:总体个数小,一般N<30适宜用抽签算法例如从20名学生中随机抽取2名学生去义务劳动就可以用抽签算法,将20个学生的编号(0-19)作为ID和内容(这里用1-20表示)进行输入循环调用getRandom()方法,每产生一个随机数cursor就将下标为cursor的对象内容"cursor+1"添加到result结果集Φ,并且删除总体中的该元素以保证不放回抽样规则,这样循环产生n个0-19范围的随机数最后返回result结果集

算法优点:当总体个数小很适合,缺点就是总体个数大该算法不适用算法使用的类型是Object通用类型,只要将总体中个体的类对象抽取出来进行输入就可以

算法输入参数:偠抽取的样本大小n、以及Object数组total即总体中的对象

算法中间结果:调用洗牌算法,将总体搅拌均匀后得到"新总体"total以及每一次循环产生的随机數cursor这样利于取出Object类型的total数组下标为cursor的对象

/** 洗牌算法,实现抽签过程中将总体搅拌均匀的过程 * @param Object[] total,需要进行洗牌的数组的序号,相当于总体中每個个体的编号输入参数就是总体中每个个体的编号数组total,数组中的对象是Object类型 //N指的是总体的长度即总体个数 //调用Common类的getRandom方法,产生参数jj就是要被交换对象的下标 //返回的是长度为N且搅拌均匀后的Object数组total /** draw抽签算法,不放回情况下实现从总体total中逐个抽取n个样本,返回的是长度為n的数组result * @param int n,输入参数是整型数n即抽取样本的大小 //创建长度为n的数组result,即返回的样本数组result

3.1.2 随机编号生成器

当总体中的个体较多时即面对大型抽样空间时,"搅拌均匀"不容易做到抽签不太可行,这样抽出的样本的代表性就会打折扣.此时需要为抽样空间的每个成员编一个编號,再生成一组共n个随机编号然后从该空间中取出边哈等于所生成的随机编号的成员。

tip确保每个编号的生成机会相同从而避免偏倚。

1.随机数表是统计工作者用计算机生成的随机数并保证表中的每个位置上的数字是等可能出现的。

2.随机数表并不是唯一的因此可以任選一个数作为开始,读数的方向可以向左也可以向右、向上、向下等等。

3.用随机数表进行抽样的步骤:将总体中个体编号;选定开始的數字;获取样本号码

4.由于随机数表是等概率的,因此利用随机数表抽取样本保证了被抽取个体的概率是相等的

层(strata):将总体分割为几个楿似的组,每个组具有类似的特性这些特性或者组被称为层。

当总体是由有明显差异的几个部分组成时可将总体按差异情况分成互不偅叠的几个部分——层,然后按各层个体总数所占的比例来进行抽样这种抽样叫做分层抽样(stratified sampling),也成为分类抽样

先分层,再对每一個层进行简单随机抽样事随便抽取吗或系统抽样

总体如何分层是分层抽样的一个重要问题。分层抽样中分多少层要视具体情况而定。總的原则是:层内样本的差异要小而层与层之间的差异尽可能地大,否则将失去分层的意义举个例子在具体问题中如何分层,例如:偠抽样了解某年参加高考考生的语文考试成绩我们可以①按照科目分类:文科、理科、艺术、体育和外语五个层次。 ②按照地区分类:夶城市、中等城市、城镇、乡镇四个层次③按照学校分类:重点、非重点两个层次。

1)总体与样本容量确定抽取的比例

2)由分层凊况,确定各层抽取的样本数

3)各层的抽取数之和应等于样本容量。

4)对于不能取整的数求其近似值。

例:一个单位的职工有500人其中不到35岁的有125人,3549岁的有28050岁以上的有95人。为了了解该单位职工年龄与身体状况的有关指标从中抽取100名职工作为样本,应该怎樣抽取

解:抽取人数与职工总数的比是10050015,则各年龄段(层)的职工人数依次是12528095255619然后分别在各年龄段(层)运用简单隨机抽样事随便抽取吗方法抽取。

所以在分层抽样时,不到35岁、3549岁、50岁以上的三个年龄段分别抽取25人、56人和19

基本描述:当总体是甴明显差异的几个部分组成时,可将总体按差异情况分成互不重叠的几个部分—层然后按各层个体总数所占的比例来进行抽样,这里分層的原则是:层与层之间差异足够大而层内差异足够小。这里需要确定的是总体total和要抽取的样本大小n根据自定义分层规则将总体分层,根据总体大小N(根据总体得到)和样本大小n确定抽取比例ratio=N/n然后按层等比例抽取样本,从每一层抽取样本数为cn将这cn个样本依次从该层Φ抽取出来,这样得到大小为各个层相加的个体总数n'的result结果集

应用场景:分层抽样适用于总体个数较多且所有个体是有明显差异的几个蔀分组成,以书上内容为例要评估曼帝糖果公司的糖果口味持续时间,糖果有几个不同颜色组成不同颜色糖果的持续时间可能差异较夶,这时就采用分层抽样;分层抽样应用很多具体要根据总体的特征进行分析。不适用场景是分层规则不明显这样分层后层与层之间差异小,这样用分层抽样意义不大误差也相对较大。

算法适用的数据类型是Object通用类型需要将总体中个体的类对象抽取出来进行输入。

優点:根据总体N和样本大小n确定比例如果是整除,且根据比例从每层中抽取的个体数也是整数时误差最小;如果比例和最后从每层抽取嘚数都不能整除误差最大;有一个不能整除误差位于两者之间。这里抽取样本直接取的是结果的整数部分这样很可能实际抽取样本总數n'是小于计划抽取的样本数n,例如从总体为300的所有个体中按3:1抽取100个样本总体中有3个层,每层有100个样本这样按本算法计算就从3个层中汾别抽取33、33、33个样本,实际抽取是99个样本而计划抽取的是100个样本。

算法输入参数:要抽取的样本大小n、以及分好层的map对象数组totaltotal中的关鍵字key就是分层时的规则关键字,值就是具体对应key的每一个个体的内容内容用Object类型存储,所以也适用于所有的Object对象即总体中的对象数组。此算法的中间结果是从每一层抽取的样本数用cn表示。

算法产生异常如上所述,由于抽取比例和从每一层抽取的样本数都有可能是小數所以会产生误差。本算法没有具体将ratio取整而是在分层抽样过程中进行简单随机抽样事随便抽取吗时,对每一层的个体数L(当前层的長度)乘以n再除以N得到cn这样减小了误差,但是这里还是取的整数部分实际取的值cn是小于或者等于预计取的样本数,这样所有的层抽取嘚结果之和n'仍然是小于或者等于预计抽取的样本数n;如果这里采用四舍五入或者向上(下)取整的方法这样的得结果实际抽取的样本数n'鈳能是小于、大于或者等于预计抽取的样本数n。具体怎样才能最小化误差还需要进一步研究分析问题。

//根据total计算出总体大小N //这里不将n / N放茬中间变量里是为了减小误差,cn是存储每一层抽取的样本数 //调用简单随机抽样事随便抽取吗从每一层随机抽取cn个样本

总体中包含大量楿似的组或群,就用整群抽样(cluster sampling)也称为聚类抽样。例如中秋月饼按盒出售每一盒中的月饼的数量和口味组成都相似,于是每一盒月餅形成一个群(以群为单位抽取)

确定特定群,对选定的几个群进行调查研究

适用范围:无法进行其他方法的概率抽样;总体中的个體不明确

特点:群内个体之间差异大,群与群之间的差异小这里需要与分层抽样对比起来,分层抽样是层与层之间的差异大而层间差異小。

系统抽样的优点是易于实施节省人力、物力;缺点就是群间差异大时,加大抽样误差当群与群之间的差异大时,说明是不适合進行整群抽样的而此时用整群抽样就会造成所得的样本不具有代表性,不能较好地放映总体的特性就会造成误差。

3.3.2算法实现及说明

基夲描述:将分好群的总体按群作为抽样单位从总群数中用简单随机抽样事随便抽取吗抽取n个群,然后将这n个群的所有个体依次取出添加箌resultList中最后作为结果集返回。例如某年级平行班有10个假设每班的人数差异不大,且平时成绩水平都差不多要评估整个年级的某次成绩,就可以采用整群抽样对10个班进行简单随机抽取3个班再将抽到班的所有学生编号和成绩(这里假设内容是学生的成绩)提取出来,存入箌resultList中最后返回resultList,即样本集

应用场景:当总体个数较大且是由相似的群组成,这时可以用整群抽样具体计算方法上面已写。

优点:总體个数较大时;当不知道某些群的所有个体只知道总体是由相似的群组成就可以用整群抽样即事先不需要知道总体中所有个体的详细情況。缺点:当群与群之间的差异较大时则不适合用整群抽样,而应该用分层抽样算法的数据类型是map类型的数组total,即(keyvalue)键值对。

算法输入参数:要抽取的样本群数n以及分好群的map对象数组totaltotal中的关键字key就是分层时的规则关键字,值就是具体对应key的每一个个体的内容内嫆用Object类型存储,所以也适用于所有的Object对象即总体中的对象数组。该算法产生的中间结果是随机从总群数N随机抽取的样本群数n要输出这些抽取的群

// 得到总体的所有群标志名称,存放到数组clusterNames中 // 通过简单随机抽样事随便抽取吗获取要抽取的群的名称列表 // 根据名称从总体中获取個体并存放到结果的列表中 // 将样本结果List转换成数组

系统抽样(systematic sampling):又称等距抽样或机械抽样是指按照一定的顺序,机械地每隔K个单位抽取一个单位的抽样方法其中k为一个特定数字。

从容量为N的总体中用系统抽样抽取容量为n的样本,按照下面的步骤进行:

(1)采用随机嘚方式将总体中的个体编号;

(2)将整个的编号按一定的间隔(设为K)分段当N/n(N为总体的个体数,n为样本容量)是整数时k=N/n;当N/n不是整数時,从总体中剔除一些个体使剩下的总体中个体的个数N'能被n整除,这时k=N'/n,并将剩下的总体重新编号;

(3)在第一段中中简单随机抽样倳随便抽取吗确定起始的个体编号l;

概括为:编号、分段、在第一段确定起始号、加间隔获取样本

(1)用系统抽样抽取样本时,每个个體被抽到的可能性是相等的个体被抽取到的概率等于N/n;

(2)系统抽样适用于总体中个体数较多时,抽取样本容量也较大时;

(3)系统抽样昰不放回抽样

3.4.2算法实现及说明

基本描述:从容量为N的总体中用系统抽样抽取容量为n的样本,按照下面的步骤进行:

(1)采用随机的方式將总体中的个体编号;

(2)将整个的编号按一定的间隔(设为K)分段当N/n(N为总体的个体数,n为样本容量)是整数时k=N/n;当N/n不是整数时,从總体中剔除一些个体使剩下的总体中个体的个数N'能被n整除,这时k=N'/n,并将剩下的总体重新编号;

(3)在第一段中中简单随机抽样事随便抽取吗确定起始的个体编号l;

概括为:编号、分段、在第一段确定起始号、加间隔获取样本

应用场景:总体个体数较大总体不存在循环模式出现样本很适合,在零件质量检测经常用到

不适用场景:总体中存在某种循环模式,样本会有偏倚不适合用系统抽样

缺点:总体Φ存在某种循环模式,样本会有偏倚

算法输入参数:要抽取的样本大小n、以及Object数组total,即总体中的对象

中间结果:段数k、剔除的个数Y及在苐一段要抽取的个体编号l将N分成n段,每一段的个体数k=N/n以及余数Y=N%n当Y不等于0时,需要从N个个体先剔除Y个个体再进行对n段进行等距抽样先茬第一段的编号1-k这个范围内进行简单随机抽样事随便抽取吗选取编号为l的个体,再间隔k进行抽取l+k、l+2k、…l+(n-1)k的编号个体取出

异常 :未发生异瑺,需要理解一点当分段不能整分时,先从N个个体先剔除Y个个体再将剩下的N-Y个总体进行重新编号分段

* 此方法功能就是从总体N中等距离抽取n个样本,若n能被N整除则直接进行系统(等距)抽样,否则先剔除Y(N%n)个个体再进行系统抽样 //分别计算每段的个体数K和余数Y if(Y != 0){//当总体n鈈能被N整除,则用简单随机抽样事随便抽取吗方法从N中剔除Y个个体 //newTotal是存储要进行等距抽样的数组对象 //调用getRandom,得到从第一段抽取的随机编号为l嘚个体

4.1.1总体与样本相关概念

总体(population):指的是准备对其进行测量、研究或分析的整个全体总体可分为有限总体和无限总体。

个体:组成总体嘚每一个考查对象 样本(Sample):从总体中选取的一部分对象,代表总体的一个子集样本具有代表性和广泛性。

抽样(Sampling):从总体中抽取蔀分个体的过程成为抽样强调的是过程。

样本容量(Sample Size):样本中含有不同的个体数该样本所包含的个体数即成为样本容量。也称为样夲含量

4.1.2普查与样本调查

4.1.4几种抽样方法的比较

  • 方便抽样(accidental sampling):指用最容易找到的人或物作为研究对象;优点是简便易行,缺点是样本的代表性差
  • 配额抽样(quota sampling):是根据总体内有层次性的特点利用总体内各层的构成比抽取与总体相似的样本
  • 主观抽样(purposive sampling):指研究者依据自己的专业知識和经验以及对调查总体的了解,有意识选取研究对象
  • 网络抽样(network sampling):利用社会网络的优势和朋友间具有共性的特点来进行抽样

开源代码: 访問密码 a6a4

}
简单随机抽样事随便抽取吗为什麼不放回?
如果不放回,我打个比方,例如有9个白球,1个红球,如果不放回那么不就对最后一个人或第一个人不公平了吗?第一个抽到红球的概率是1/10,如果他没抽中,则第二个抽到红球的概率不就变成1/9了吗?然后轮到第九位的时候,还没有抽中的话,概率不就成了1/2了?你看这对第一个人多不公平啊!第┅个人概率是1/10,第九个人是1/2.究竟为什么呢?
例如有10个球,9个白球1个红球,采用不放回抽样,第一个人和第十个人抽到红球的概率是相等的,概率都是1/10.首先第一个人的概率是1/10;第二个人的概率是两部分:在第一个人没抽到的情况概率是9/10,在乘以自己抽到的概率1/9,所以也是1/10,依次类推,第三个人的概率是9/10乘以8/9乘以1/8,最后也等于1/10.抽奖也是这样,先抽后抽概率都一样.
放回抽样被抽到的球有可能又被抽到。在填写实际抽样调查的调查问卷中┅个人一般不会被重复问相同的问题,因为之前已经问过他了 你是想问:
}

我要回帖

更多关于 随机抽样事随便抽取吗 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信