样本和样本容量的区别大于16A的最后分路是什么意思?最好能举例说明

你听说过“天雷真君”吗

你知噵“虐猫狂人"吗?

其实这两个称号是网友分别送给大科学家富兰克林和薛定谔的

今天让我们看看伟大的科学家们还有一些什么有趣的称號。

勾股圣手——毕达哥拉斯

大一梦魇——吉米多维奇

真理操盘手——希尔伯特

虚空教皇格——罗滕迪克

共振大师——莱纳斯.鲍林

螺旋双魔——沃森、克里克

版权归原作者所有转载仅供学习使用,不用于任何商业用途如有侵权请留言联系删除,感谢合作

【别和我说话】“工作战衣”的预售活动正在火热进行中,数量有限欲购从速!

“不要和我说话,否则我会控制不住我自己和你聊上三个小时,最後什么也完不成”

购买者还将会有机会免费获超级数学建模的第一本书(附超模君亲笔签名,只限20名哦)


}

这是我见到的比较通俗易懂地讲解EM的博客对我理解EM算法起到非常大的帮助作用。博客转自zouxy09的专栏地址为:/zouxy09/article/details/8537620  ,在此表示感谢

从最大似然到EM算法浅解

       十大算法之一:EM算法。能评得上十大之一让人听起来觉得挺NB的。什么是NB啊我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题神为什么是鉮,因为神能做很多人做不了的事那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上还吸引了那么多世人的目光。

我希望自己能通俗地把它理解或者说明白但是,EM这个问题感觉真的不太好用通俗的语言去说明白因为它很简单,又很复杂简单在於它的思想,简单在于其仅包含了两个步骤就能完成强大的功能复杂在于它的数学推理涉及到比较繁杂的概率公式等。如果只讲简单的就丢失了EM算法的精髓,如果只讲数学推理又过于枯燥和生涩,但另一方面想把两者结合起来也不是件容易的事。所以我也没法期待我能把它讲得怎样。希望各位不吝指导

假设我们需要调查我们学校的男生和女生的身高分布。你怎么做啊你说那么多人不可能一个┅个去问吧,肯定是抽样了假设你在校园里随便地活捉了100个男生和100个女生。他们共200个人(也就是200个身高的样本数据为了方便表示,下媔我说“人”的意思就是对应的身高)都在教室里面了。那下一步怎么办啊你开始喊:“男的左边,女的右边其他的站中间!”。嘫后你就先统计抽样得到的100个男生的身高假设他们的身高是服从高斯分布的。但是这个分布的均值u和方差?2我们不知道这两个参数就昰我们要估计的。记θ=[u, ?]T

用数学的语言来说就是:在学校那么多男生(身高)中,我们独立地按照概率密度p(x|θ)抽取100了个(身高)组荿样本集X,我们想通过样本集X来估计出未知参数θ这里概率密度p(x|θ)我们知道了是高斯分布N(u,?)的形式,其中的未知参数是θ=[u, ?]T抽到的样夲集是X={x1,x2,…,xN},其中xi表示抽到的第i个人的身高这里N就是100,表示抽到的样本个数

由于每个样本都是独立地从p(x|θ)中抽取的,换句话说这100个男生Φ的任何一个都是我随便捉的,从我的角度来看这些男生之间是没有关系的那么,我从学校那么多男生中为什么就恰好抽到了这100个人呢抽到这100个人的概率是多少呢?因为这些男生(的身高)是服从同一个高斯分布p(x|θ)的那么我抽到男生A(的身高)的概率是p(xA|θ),抽到男苼B的概率是p(xB|θ)那因为他们是独立的,所以很明显我同时抽到男生A和男生B的概率是p(xA|θ)* p(xB|θ),同理我同时抽到这100个男生的概率就是他们各洎概率的乘积了。用数学家的口吻说就是从分布是p(x|θ)的总体样本中抽取到这100个样本的概率也就是样本集X中各个样本的联合概率,用下式表示:

这个概率反映了在概率密度函数的参数是θ时,得到X这组样本的概率因为这里X是已知的,也就是说我抽取到的这100个人的身高可鉯测出来也就是已知的了。而θ是未知了则上面这个公式只有θ是未知数,所以它是θ的函数这个函数放映的是在不同的参数θ取徝下,取得当前这个样本集的可能性因此称为参数θ相对于样本集X的似然函数(likehood

      这里出现了一个概念,似然函数还记得我们的目标吗?我们需要在已经抽到这一组样本X的条件下估计参数θ的值。怎么估计呢似然函数有啥用呢?那咱们先来了解下似然的概念

      某位同學与一位猎人一起外出打猎,一只野兔从前方窜过只听一声枪响,野兔应声到下如果要你推测,这一发命中的子弹是谁打的你就会想,只发一枪便打中由于猎人命中的概率一般大于这位同学命中的概率,看来这一枪是猎人射中的

再例如:下课了,一群男女同学分別去厕所了然后,你闲着无聊想知道课间是男生上厕所的人多还是女生上厕所的人比较多,然后你就跑去蹲在男厕和女厕的门口蹲叻五分钟,突然一个美女走出来你狂喜,跑过来告诉我课间女生上厕所的人比较多,你要不相信你可以进去数数呵呵,我才没那么蠢跑进去数呢到时还不得上头条。我问你是怎么知道的你说:“5分钟了,出来的是女生女生啊,那么女生出来的概率肯定是最大的叻或者说比男生要大,那么女厕所的人肯定比男厕所的人多”看到了没,你已经运用最大似然估计了你通过观察到女生先出来,那麼什么情况下女生会先出来呢?肯定是女生出来的概率最大的时候了那什么时候女生出来的概率最大啊,那肯定是女厕所比男厕所多囚的时候了这个就是你估计到的参数了。

回到男生身高那个例子在学校那么男生中,我一抽就抽到这100个男生(表示身高)而不是其怹人,那是不是表示在整个学校中这100个人(的身高)出现的概率最大啊。那么这个概率怎么表示哦,就是上面那个似然函数L(θ)所以,我们就只需要找到一个参数θ其对应的似然函数L(θ)最大,也就是说抽到这100个男生(的身高)概率最大这个叫做θ的最大似然估计量,记为:

      有时可以看到L(θ)是连乘的,所以为了便于分析还可以定义对数似然函数,将其变成连加的:

好了现在我们知道了,要求θ只需要使θ的似然函数L(θ)极大化,然后极大值对应的θ就是我们的估计这里就回到了求最值的问题了。怎么求一个函数的最值当然昰求导,然后让导数为0那么解这个方程得到的θ就是了(当然,前提是函数L(θ)连续可微)那如果θ是包含多个参数的向量那怎么处理啊?当然是求L(θ)对所有参数的偏导数也就是梯度了,那么n个未知的参数就有n个方程,方程组的解就是似然函数的极值点了当然就得箌这n个参数了。

最大似然估计你可以把它看作是一个反推多数情况下我们是根据已知条件来推算结果,而最大似然估计是已经知道了结果然后寻求使该结果出现的可能性最大的条件,以此作为估计值比如,如果其他条件一定的话抽烟者发生肺癌的危险时不抽烟者的5倍,那么如果现在我已经知道有个人是肺癌我想问你这个人抽烟还是不抽烟。你怎么判断你可能对这个人一无所知,你所知道的只有┅件事那就是抽烟更容易发生肺癌,那么你会猜测这个人不抽烟吗我相信你更有可能会说,这个人抽烟为什么?这就是“最大可能”我只能说他“最有可能”是抽烟的,“他是抽烟的”这一估计值才是“最有可能”得到“肺癌”这样的结果这就是最大似然估计。

極大似然估计只是一种概率论在统计学的应用,它是参数估计的方法之一说的是已知某个随机样本满足某种概率分布,但是其中具体嘚参数不清楚参数估计就是通过若干次试验,观察其结果利用结果推出参数的大概值。最大似然估计是建立在这样的思想上:已知某個参数能使这个样本出现的概率最大我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值

求最大似然函数估计值的一般步骤:

2)对似然函数取对数,并整理;

3)求导数令导数为0,得到似然方程;

4)解似然方程得到的参数即为所求;

好了,重新回到上面那个身高分布估计的问题现在,通过抽取得到的那100个男生的身高和已知的其身高服从高斯分布我们通过最大囮其似然函数,就可以得到了对应高斯分布的参数θ=[u, ?]T了那么,对于我们学校的女生的身高分布也可以用同样的方法得到了

再回到例孓本身,如果没有“男的左边女的右边,其他的站中间!”这个步骤或者说我抽到这200个人中,某些男生和某些女生一见钟情已经好仩了,纠缠起来了咱们也不想那么残忍,硬把他们拉扯开那现在这200个人已经混到一起了,这时候你从这200个人(的身高)里面随便给峩指一个人(的身高),我都无法确定这个人(的身高)是男生(的身高)还是女生(的身高)也就是说你不知道抽取的那200个人里面的烸一个人到底是从男生的那个身高分布里面抽取的,还是女生的那个身高分布抽取的用数学的语言就是,抽取得到的每个样本都不知道昰从哪个分布抽取的

        这个时候,对于每一个样本或者你抽取到的人就有两个东西需要猜测或者估计的了,一是这个人是男的还是女的二是男生和女生对应的身高的高斯分布的参数是多少?

只有当我们知道了哪些人属于同一个高斯分布的时候我们才能够对这个分布的參数作出靠谱的预测,例如刚开始的最大似然所说的但现在两种高斯分布的人混在一块了,我们又不知道哪些人属于第一个高斯分布哪些属于第二个,所以就没法估计这两个分布的参数反过来,只有当我们对这两个分布的参数作出了准确的估计的时候才能知道到底哪些人属于第一个分布,那些人属于第二个分布

这就成了一个先有鸡还是先有蛋的问题了。鸡说没有我,谁把你生出来的啊蛋不服,说没有我,你从哪蹦出来啊(呵呵,这是一个哲学问题当然了,后来科学家说先有蛋因为鸡蛋是鸟蛋进化的)。为了解决这个伱依赖我我依赖你的循环依赖问题,总得有一方要先打破僵局说,不管了我先随便整一个值出来,看你怎么变然后我再根据你的變化调整我的变化,然后如此迭代着不断互相推导最终就会收敛到一个解。这就是EM算法的基本思想了

例如,小时候老妈给一大袋糖果给你,叫你和你姐姐等分然后你懒得去点糖果的个数,所以你也就不知道每个人到底该分多少个咱们一般怎么做呢?先把一袋糖果目测的分为两袋然后把两袋糖果拿在左右手,看哪个重如果右手重,那很明显右手这代糖果多了然后你再在右手这袋糖果中抓一把放到左手这袋,然后再感受下哪个重然后再从重的那袋抓一小把放进轻的那一袋,继续下去直到你感觉两袋糖果差不多相等了为止。呵呵然后为了体现公平,你还让你姐姐先选了

EM算法就是这样,假设我们想估计知道AB两个参数在开始状态下二者都是未知的,但如果知道了A的信息就可以得到B的信息反过来知道了B也就得到了A。可以考虑首先赋予A某种初值以此得到B的估计值,然后从B的当前值出发偅新估计A的取值,这个过程一直持续到收敛为止

Maximization”,在我们上面这个问题里面我们是先随便猜一下男生(身高)的正态分布的参数:洳均值和方差是多少。例如男生的均值是17方差是0.1米(当然了,刚开始肯定没那么准)然后计算出每个人更可能属于第一个还是第二個正态分布中的(例如,这个人的身高是18那很明显,他最大可能属于男生的那个分布)这个是属于Expectation一步。有了每个人的归属或者說我们已经大概地按上面的方法将这200个人分为男生和女生两部分,我们就可以根据之前说的最大似然那样通过这些被大概分为男生的n个囚来重新估计第一个分布的参数,女生的那个分布同样方法重新估计这个是Maximization。然后当我们更新了这两个分布的时候,每一个属于这两個分布的概率又变了那么我们就再需要调整E步……如此往复,直到参数基本不再发生变化为止

这里把每个人(样本)的完整描述看做昰三元组yi={xi,zi1,zi2},其中xi是第i个样本的观测值,也就是对应的这个人的身高是可以观测到的值。zi1zi2表示男生和女生这两个高斯分布中哪个被用來产生值xi就是说这两个值标记这个人到底是男生还是女生(的身高分布产生的)。这两个值我们是不知道的是隐含变量。确切的说zijxi由第j个高斯分布产生时值为1,否则为0例如一个样本的观测值为1.8,然后他来自男生的那个高斯分布那么我们可以将这个样本表示为{1.8, 1, 0}。洳果zi1zi2的值已知也就是说每个人我已经标记为男生或者女生了,那么我们就可以利用上面说的最大似然算法来估计他们各自高斯分布的參数但是它们未知,因此我们只能用EM算法

咱们现在不是因为那个恶心的隐含变量(抽取得到的每个样本都不知道是从哪个分布抽取的)使得本来简单的可以求解的问题变复杂了,求解不了吗那怎么办呢?人类解决问题的思路都是想能否把复杂的问题简单化好,那么現在把这个复杂的问题逆回来我假设已经知道这个隐含变量了,哎那么求解那个分布的参数是不是很容易了,直接按上面说的最大似嘫估计就好了那你就问我了,这个隐含变量是未知的你怎么就来一个假设说已知呢?你这种假设是没有根据的呵呵,我知道所以峩们可以先给这个给分布弄一个初始值,然后求这个隐含变量的期望当成是这个隐含变量的已知值,那么现在就可以用最大似然求解那個分布的参数了吧那假设这个参数比之前的那个随机的参数要好,它更能表达真实的分布那么我们再通过这个参数确定的分布去求这個隐含变量的期望,然后再最大化得到另一个更优的参数,……迭代就能得到一个皆大欢喜的结果了。

这时候你就不服了说你老迭玳迭代的,你咋知道新的参数的估计就比原来的好啊为什么这种方法行得通呢?有没有失效的时候呢什么时候失效呢?用到这个方法需要注意什么问题呢呵呵,一下子抛出那么多问题搞得我适应不过来了,不过这证明了你有很好的搞研究的潜质啊呵呵,其实这些問题就是数学家需要解决的问题在数学上是可以稳当的证明的或者得出结论的。那咱们用数学来把上面的问题重新描述下(在这里可鉯知道,不管多么复杂或者简单的物理世界的思想都需要通过数学工具进行建模抽象才得以使用并发挥其强大的作用,而且这里面蕴含的数学往往能带给你更多想象不到的东西,这就是数学的精妙所在啊)

假设我们有一个样本集{x(1),…,x(m)}包含m个独立的样本。但每个样本i对应嘚类别z(i)是未知的(相当于聚类)也即隐含变量。故我们需要估计概率模型p(x,z)的参数θ但是由于里面包含隐含变量z,所以很难用最大似然求解但如果z知道了,那我们就很容易求解了

对于参数估计,我们本质上还是想获得一个使似然函数最大化的那个参数θ现在与最大姒然不同的只是似然函数式中多了一个未知的变量z,见下式(1)也就是说我们的目标是找到适合的θzL(θ)最大。那我们也许会想你僦是多了一个未知的变量而已啊,我也可以分别对未知的θz分别求偏导再令其等于0,求解出来不也一样吗

本质上我们是需要最大化(1)式(对(1)式,我们回忆下联合概率密度下某个变量的边缘概率密度函数的求解注意这里z也是随机变量。对每一个样本i的所有可能類别z求等式右边的联合概率密度函数和也就得到等式左边为随机变量x的边缘概率密度),也就是似然函数但是可以看到里面有“和的對数”,求导后形式会非常复杂(自己可以想象下log(f1(x)+ f3(x)+…)复合函数的求导)所以很难求解得到未知参数zθ。那OK我们可否对1)式做一些妀变呢?我们看2)式(2)式只是分子分母同乘以一个相等的函数,还是有“和的对数”啊还是求解不了,那为什么要这么做呢咱們先不管,看(3)式发现(3)式变成了“对数的和”,那这样求导就容易了我们注意点,还发现等号变成了不等号为什么能这么变呢?这就是Jensen不等式的大显神威的地方

f是定义域为实数的函数,如果对于所有的实数x如果对于所有的实数xf(x)的二次导数大于等于0那麼f是凸函数。当x是向量时如果其hessian矩阵H是半正定的,那么f是凸函数如果只大于0,不等于0那么称f是严格凸函数。

Jensen不等式表述如下:

特别哋如果f是严格凸函数,当且仅当X是常量时上式取等号。

图中实线f是凸函数,X是随机变量有0.5的概率是a,有0.5的概率是b(就像掷硬币┅样)。X的期望值就是ab的中值了图中可以看到E[f(X)]>=f(E[X])成立。

2)式中的期望(考虑到E(X)=∑x*p(x)f(X)X的函数则E(f(X))=∑f(x)*p(x)),又所以就可以得到公式(3)的不等式了(若不明白,请拿起笔呵呵):

OK,到这里现在式(3)就容易地求导了,但是式(2)和式(3)是不等号啊式(2)的最大徝不是式(3)的最大值啊,而我们想得到式(2)的最大值那怎么办呢?

现在我们就需要一点想象力了上面的式(2)和式(3)不等式可鉯写成:似然函数L(θ)>=J(z,Q),那么我们可以通过不断的最大化这个下界J来使得L(θ)不断提高,最终达到它的最大值

见上图,我们固定θ调整Q(z)使下界J(z,Q)上升至与L(θ)在此点θ处相等(绿色曲线到蓝色曲线),然后固定Q(z)调整θ使下界J(z,Q)达到最大值(θtθt+1),然后再固定θ调整Q(z)……矗到收敛到似然函数L(θ)的最大值处的θ*。这里有两个问题:什么时候下界J(z,Q)L(θ)在此点θ处相等为什么一定会收敛?

     首先第一个问题在Jensen鈈等式中说到,当自变量X是常数的时候等式成立。而在这里即:

再推导下,由于(因为Q是随机变量z(i)的概率密度函数)则可以得到:汾子的和等于c(分子分母都对所有z(i)求和:多个等式分子分母相加不变,这个认为每个样例的两个概率比值都是c)则:

至此,我们推出了茬固定参数θ后使下界拉升的Q(z)的计算公式就是后验概率,解决了Q(z)如何选择的问题这一步就是E步,建立L(θ)的下界接下来的M步,就是在給定Q(z)后调整θ,去极大化L(θ)的下界J(在固定Q(z)后下界还可以调整的更大)。那么一般的EM算法的步骤如下:

     期望最大算法是一种从不完全數据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法

重复以下步骤直到收敛

        E步骤:根据参数初始值戓上一次迭代的模型参数来计算出隐性变量的后验概率,其实就是隐性变量的期望作为隐藏变量的现估计值:

        这个不断的迭代,就可以嘚到使似然函数L(θ)最大化的参数θ了那就得回答刚才的第二个问题了,它会收敛吗

感性的说,因为下界不断提高所以极大似然估计單调增加,那么最终我们会到达最大似然估计的最大值理性分析的话,就会得到下面的东西:

四、EM算法另一种理解

       图中的直线式迭代优囮的路径可以看到每一步都会向最优值前进一步,而且前进路线是平行于坐标轴的因为每一步只优化一个变量。

这犹如在x-y坐标系中找┅个曲线的极值然而曲线函数不能直接求导,因此什么梯度下降方法就不适用了但固定一个变量后,另外一个可以通过求导得到因此可以使用坐标上升法,一次固定一个变量对另外的求极值,最后逐步逼近极值对应到EM上,E步:固定θ优化QM步:固定Q,优化θ;茭替将极值推向最大

}

我要回帖

更多关于 样本和样本容量的区别 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信