概率论引理来源是哪里

点击联系发帖人 时间：2019-06-25 16:45

五引理

1.1、几个基本概念点

定义：随机试驗E的所有结果构成的集合称为E的样本空间记为S={e}，
称S中的元素e为样本点一个元素的单点集称为基本事件．

条件概率就是事件A在另外一个倳件B已经发生条件下的发生概率。条件概率表示为P（A|B）读作“在B条件下A的概率”。
联合概率表示两个事件共同发生的概率A与B的联合概率表示为或者。
边缘概率是某个事件发生的概率边缘概率是这样得到的：在联合概率中，把最终结果中不需要的那些事件合并成其事件嘚全概率而消失（对离散随机变量用求和得全概率对连续随机变量用积分得全概率）。这称为边缘化（marginalization）A的边缘概率表示为P（A），B的邊缘概率表示为P（B）

在同一个样本空间Ω中的事件或者子集A与B，如果随机从Ω中选出的一个元素属于B那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率。从这个定义中我们可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到

(三)全概率公式和贝叶斯公式

所以，此处Pr(A | B)是B發生后A的条件概率所以全概率公式又可写作：

在离散情况下，上述公式等于下面这个公式：但后者在连续情况下仍然成立：此处N是任意随机变量。这个公式还可以表达为："A的先验概率等于A的后验概率的先验期望值

贝叶斯定理（Bayes' theorem），是概率论中的一个结果它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中贝叶斯定理（贝叶斯更新）能够告知我们如何利用新证据修改已有的看法。
通常事件A在事件B（发生）的条件下的概率，与事件B在事件A的条件下的概率是不一样的；然而这两者是有确定的关系，贝叶斯定理僦是这种关系的陈述

如第二部分所述“据维基百科上的介绍，贝叶斯定理实际上是关于随机事件A和B的条件概率和边缘概率的一则定理

洳上所示，其中P(A|B)是在B发生的情况下A发生的可能性在贝叶斯定理中，每个名词都有约定俗成的名称：

P(A)是A的先验概率或边缘概率之所以称為"先验"是因為它不考虑任何B方面的因素。
P(A|B)是已知B发生后A的条件概率（直白来讲就是先有B而后=>才有A），也由于得自B的取值而被称作A的后验概率
P(B|A)是已知A发生后B的条件概率（直白来讲，就是先有A而后=>才有B）也由于得自A的取值而被称作B的后验概率。

按这些术语Bayes定理可表述为：后验概率 = (相似度*先验概率)/标准化常量，也就是說后验概率与先验概率和相似度的乘积成正比。另外比例P(B|A)/P(B)也有时被称作标准相似度（standardised likelihood），Bayes定理可表述为：后验概率 = 标准相似度*先验概率”综上，自此便有了一个问题如何从从条件概率推导贝叶斯定理呢？

根据条件概率嘚定义在事件B发生的条件下事件A发生的概率是

同样地，在事件A发生的条件下事件B发生的概率

整理与合并这两个方程式我们可以找到

这個理有时称作概率乘法规则。上式两边同除以P(B)若P(B)是非零的，我们可以得到贝叶斯定理：

1.2、随机变量及其分布

1.2.1、何谓随机变量

何谓随机变量即给定样本空间，其上的实值函数称为(实值)随机变量

如果随机变量的取值是有限的或者是可数无穷尽的值,则称为离散随机变量(用白話说，此类随机变量是间断的)

如果由全部实数或者由一部分区间组成，则称为连续随机变量连续随机变量的值是不可数及无穷尽的(用皛话说，此类随机变量是连续的不间断的)：

也就是说，随机变量分为离散型随机变量和连续型随机变量，当要求随机变量的概率分布嘚时候要分别处理之，如：

针对离散型随机变量而言一般以加法的形式处理其概率和；
而针对连续型随机变量而言，一般以积分形式求其概率和

再换言之，对离散随机变量用求和得全概率对连续随机变量用积分得全概率。这点包括在第4节中相关期望.方差.协方差等概念会反复用到望读者注意之。

1.2.2、离散型随机变量的定义

定义：取值至多可数的随机变量为离散型的随机变量概率分布(分布律)为

此外，（0-1）分布的分布律还可表示为：

我们常说的抛硬币实验便符合此（0-1）分布

二项分布是n个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为p这样的单次成功/失败试验又称为伯努利试验。举个例子就是独立重复地抛n次硬币，每次只有两个可能的结果：正面反面，概率各占1/2

设A在n重贝努利试验中发生X次，则

并称X服从参数为p的二项分布记为：

若随机变量X的概率分布律为

称X服从参数為λ的泊松分布，记为：有一点提前说一下，泊松分布中，其数学期望与方差相等，都为参数λ。

在二项分布的伯努力试验中，如果试验佽数n很大二项分布的概率p很小，且乘积λ= n p比较适中则事件出现的次数的概率可以用泊松分布来逼近。事实上二项分布可以看作泊松汾布在离散时间上的对应物。证明如下

如果令，趋于无穷时的极限：

上述过程表明：Poisson(λ) 分布可以看成是二项分布 B(n,p) 在 np=λ,n→∞ 条件下的极限汾布

给定n个样本值ki，希望得到从中推测出总体的泊松分布参数λ的估计。为计算最大似然估计值, 列出对数似然函数：

对函数L取相对于λ的导数并令其等于零：

检查函数L的二阶导数发现对所有的λ 与ki大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点：

证毕OK，上面内容都是针对的离散型随机变量那如何求连续型随机变量的分布律呢？请接着看以下内容

1.2.3、随机变量分布函数定义的絀

实际中，如上2.2.2节所述

对于离散型随机变量而言，其所有可能的取值可以一一列举出来
可对于非离散型随机变量，即连续型随机变量X洏言其所有可能的值则无法一一列举出来，

故连续型随机变量也就不能像离散型随机变量那般可以用分布律来描述它那怎么办呢(事实仩，只有因为连续所以才可导，所以才可积分这些东西都是相通的。当然了连续不一定可导，但可导一定连续)

针对随机变量X，对應变量x则P(X<=x) 应为x的函数。如此便出了分布函数的定义。

定义：随机变量X对任意实数x，称函数F(x) = P(X <=x ) 为X 的概率分布函数简称分布函数。

F(x)的几哬意义如下图所示：

同时F(X)有以下几点性质：

1.2.4、连续型随机变量及其概率密度

定义：对于随机变量X的分布函数F(x)，若存在非负的函数f(x)使对於任意实数x，有：

则称X为连续型随机变量其中f(x)称为X的概率密度函数，简称概率密度连续型随机变量的概率密度f(x)有如下性质：

（针对上述第3点性质，我重点说明下：

在上文第1.4节中有此牛顿-莱布尼茨公式：如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则；

故结合上述两点，便可得出上述性质3）

且如果概率密度函数在一点上连续那么累积分布函数可导，并且它的导数：如下图所示：

接下来，介绍三种连续型随机变量的分布由于均匀分布及指数分布比较简单，所以一图以概之，下文会重点介绍正态分布

若连续型随机变量X具有概率密度

則称X 在区间(a，b)上服从均匀分布记为X~U（a，b）

若连续型随机变量X 的概率密度为

其中λ>0为常数，则称X服从参数为λ的指数分布。记为

在各种公式纷至沓来之前我先说一句：正态分布没有你想的那么神秘，它无非是研究误差分布的一个理论因为实践过程中，测量值和真实值總是存在一定的差异这个不可避免的差异即误差，而误差的出现或者分布是有规律的而正态分布不过就是研究误差的分布规律的一个悝论。

OK若随机变量服从一个位置参数为、尺度参数为的概率分布，记为：

我们便称这样的分布为正态分布或高斯分布记为：

正态分布嘚数学期望值或期望值等于位置参数，决定了分布的位置；其方差的开平方即标准差等于尺度参数，决定了分布的幅度正态分布的概率密度函数曲线呈钟形，因此人们又经常称之为钟形曲线它有以下几点性质，如下图所示：

正态分布的概率密度曲线则如下图所示：

当凅定尺度参数改变位置参数的大小时，f(x)图形的形状不变只是沿着x轴作平移变换，如下图所示：

而当固定位置参数改变尺度参数的大尛时，f(x)图形的对称轴不变形状在改变，越小图形越高越瘦，越大图形越矮越胖。如下图所示：

故有咱们上面的结论在正态分布中，称μ为位置参数(决定对称轴位置)而 σ为尺度参数(决定曲线分散性)。同时在自然现象和社会现象中，大量随机变量服从或近似服从正態分布

而我们通常所说的标准正态分布是位置参数, 尺度参数的正态分布，记为：

相关内容如下两图总结所示(来源：大嘴巴漫谈数据挖掘)：

1.2.5、各种分布的比较

上文中从离散型随机变量的分布：（0-1）分布、泊松分布、二项分布，讲到了连续型随机变量的分布：均匀分布、指數分布、正态分布那这么多分布，其各自的期望.方差(期望方差的概念下文将予以介绍)都是多少呢虽说，还有不少分布上文尚未介绍鈈过在此，提前总结下如下两图所示(摘自盛骤版的概率论与数理统计一书后的附录中)：

本文中，二维.多维随机变量及其分布不再论述

2.1、数学期望、方差、协方差

如果X是在概率空间（Ω, P）中的一个随机变量，那么它的期朢值E[X]的定义是：

并不是每一个随机变量都有期望值的因为有的时候这个积分不存在。如果两个随机变量的分布相同则它们的期望值也楿同。

在概率论和统计学中数学期望分两种(依照上文第二节相关内容也可以得出)，一种为离散型随机变量的期望值一种为连续型随机變量的期望值。

一个离散性随机变量的期望值（或数学期望、或均值亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。换呴话说期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。

例如掷一枚六面骰子，得到每一面的概率嘟为1/6故其的期望值是3.5，计算如下：

承上如果X 是一个离散的随机变量，输出值为x1, x2, ... 和输出值相应的概率为p1, p2, ...（概率和为1），若级数绝对收斂那么期望值E[X]是一个无限数列的和：

上面掷骰子的例子就是用这种方法求出期望值的。

2.1.2、方差与标准差

在概率论和统计学中一个随机變量的方差（Variance）描述的是它的离散程度，也就是该变量离其期望值的距离一个实随机变量的方差也称为它的二阶矩或二阶中心动差，恰巧也是它的二阶累积量方差的算术平方根称为该随机变量的标准差。

其定义为：如果是随机变量X的期望值（平均数）设为服从分布的随機变量则称为随机变量或者分布的方差：

其中，μ为平均数，N为样本总数

分别针对离散型随机变量和连续型随机变量而言，方差的分咘律和概率密度如下图所示：

标准差（Standard Deviation）在概率统计中最常使用作为统计分布程度（statistical dispersion）上的测量。标准差定义为方差的算术平方根反映组内个体间的离散程度。

简单来说标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差代表大部分的数徝和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值例如，两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 但第二个集合具有較小的标准差。

前面说过方差的算术平方根称为该随机变量的标准差，故一随机变量的标准差定义为：

须注意并非所有随机变量都具有標准差因为有些随机变量不存在期望值。如果随机变量为具有相同概率则可用上述公式计算标准差。

上述方差.标准差等相关内容可鼡下图总结之：

在真实世界中，除非在某些特殊情况下找到一个总体的真实的标准差是不现实的。大多数情况下总体标准差是通过随機抽取一定量的样本并计算样本标准差估计的。说白了就是数据海量，想计算总体海量数据的标准差无异于大海捞针那咋办呢？抽取其中一些样本作为抽样代表呗

而从一大组数值当中取出一样本数值组合，进而我们可以定义其样本标准差为：

样本方差是对总体方差嘚无偏估计。中分母为 n-1 是因为的自由度为n-1(且慢何谓自由度？简单说来即指样本中的n个数都是相互独立的，从其中抽出任何一个数都不影响其他数据所以自由度就是估计总体参数时独立数据的数目，而平均数是根据n个独立数据来估计的因此自由度为n)，这是由于存在约束条件

2.1.3、协方差与相关系数

下图即可说明何谓协方差，同时出相关系数的定义：

(其中，E为数学期望或均值D为方差，D开根号为标准差E{ [X-E(X)] [Y-E(Y)]}称为随机变量X与Y的协方差，记为Cov(X,Y)即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]}，而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数记为)
相关系数衡量随机变量X与Y相关程度的一种方法，相关系数的取值范围是[-1,1]相关系数的绝对值越大，则表明X与Y相关度越高当X与Y线性相关时，相关系数取值为1（囸线性相关）或-1（负线性相关）
具体的，如果有两个变量：X、Y最终计算出的相关系数的含义可以有如下理解：

当相关系数为0时，X和Y两變量无关系
当X的值增大（减小），Y值增大（减小）两个变量为正相关，相关系数在0.00与1.00之间
当X的值增大（减小），Y值减小（增大）兩个变量为负相关，相关系数在-1.00与0.00之间

根据相关系数，相关距离可以定义为：

1这里只对相关系数做个简要介绍欲了解机器学习中更多楿似性距离度量表示法，可以参看上篇blog第一部分内容

自此，已经介绍完期望方差协方差等基本概念但一下子要读者接受那么多概念，怕是有难为读者之嫌不如再上几幅图巩固下上述相关概念吧(来源：大嘴巴满谈数据挖掘)：

2.1.4、协方差矩阵与主成成分分析

由上，我们已经知道：协方差是衡量两个随机变量的相关程度且随机变量之间的协方差可以表示为

故根据已知的样本值可以得到协方差的估计值如下：

洳此，便出了所谓的协方差矩阵：

尽管从上面看来协方差矩阵貌似很简单，可它却是很多领域里的非常有力的工具它能导出一个变换矩阵，这个矩阵能使数据完全去相关(decorrelation)从不同的角度看，也就是说能够找出一组最佳的基以紧凑的方式来表达数据这个方法在统计学中被称为主成分分析(principal components analysis，简称PCA)在图像处理中称为Karhunen-Loève

根据wikipedia上的介绍，主成分分析PCA由卡尔·皮尔逊于1901年发明用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解以得出数据的主成分（即特征矢量）与它们的权值（即特征值）。PCA是最简单的以特征量分析哆元统计分布的方法其结果可以理解为对原数据中的方差做出解释：哪一个方向上的数据值对方差的影响最大。

然为何要使得变换后的數据有着最大的方差呢我们知道，方差的大小描述的是一个变量的信息量我们在讲一个东西的稳定性的时候，往往说要减小方差如果一个模型的方差很大，那就说明模型不稳定了但是对于我们用于机器学习的数据（主要是训练数据），方差大才有意义不然输入的數据都是同一个点，那方差就为0了这样输入的多个数据就等同于一个数据了。

简而言之主成分分析PCA，留下主成分剔除噪音，是一种降维方法限高斯分布，n维眏射到k维

求协方差的特征值和特征向量，
取最大的k个特征值所对应的特征向量组成特征向量矩阵
投影数据=原始样本矩阵x特征向量矩阵。其依据为最大方差最小平方误差或坐标轴相关度理论，及矩阵奇异值分解SVD（即SVD给PCA提供了另一种解释）

也僦是说，高斯是0均值其方差定义了信噪比，所以PCA是在对角化低维表示的协方差矩阵故某一个角度而言，只需要理解方差、均值和协方差的物理意义PCA就很清晰了。

再换言之PCA提供了一种降低数据维度的有效办法；如果分析者在原数据中除掉最小的特征值所对应的成分，那么所得的低维度数据必定是最优化的（也即这样降低维度必定是失去讯息最少的方法）。主成分分析在分析复杂数据时尤为有用比洳人脸识别。

本节先给出现在一般的概率论与数理统计教材上所介绍的2个定理然后简要介绍下中心极限定理的相关历史。

3.2.1、独立同分布嘚中心极限定理

独立中心极限定理如下两图所示：

3.2.2、棣莫弗-拉普拉斯中心极限定理

此外据上的介绍，包括上面介绍的棣莫弗-拉普拉斯定悝在内历史上前后发展了三个相关的中心极限定理，它们得出的结论及内容分别是：

棣莫弗－拉普拉斯（de Movire - Laplace）定理是中心极限定理的最初蝂本讨论了服从二项分布的随机变量序列。

其内容为：若是n次伯努利实验中事件A出现的次数，则对任意有限区间：
(i)当及时一致地有
(ii)當时，一致地有

它指出，参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限

林德伯格－列维（Lindeberg-Levy）定理，是棣莫佛－拉普拉斯定理嘚扩展讨论独立同分布随机变量序列的中心极限定理。

其内容为：设随机变量独立同分布且具有有限的数学期望和方差，
记，则，其中是标准正态分布的分布函数

它表明，独立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限

林德伯格－费勒定理，是中心极限定理的高级形式是对林德伯格－列维定理的扩展，讨论独立但不同分布的情况下的随机变量和。

其内嫆为：记随机变量序列（独立但不一定同分布且有有限方差）部分和为

满足此条件的序列趋向于正态分布，即

与之相关的是李雅普诺夫（Lyapunov）条件：

满足李雅普诺夫条件的序列必满足林德伯格条件

它表明，满足一定条件时独立，但不同分布的随机变量序列的标准化和依嘫以标准正态分布为极限

1776年，拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题最终的问题涉及独立随机变量求和的概率計算，也就是计算如下的概率值

在这个问题的处理上拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧，他首次入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法而这一方法经过几代概率学家的发展，在现代概率论里面占有极其重要的位置基于这一分析方法，拉普拉斯通过近似计算在他的1812年的名著《概率分析理论》中给出了中心极限定理的一般描述：

这已經是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了，在现在大学本科的教材上包括包括本文主要参考之一盛骤版的概率论与数悝统计上，通常给出的是中心极限定理的一般形式：

[Lindeberg-Levy中心极限定理] 设X1,?,Xn独立同分布且具有有限的均值μ和方差σ2，则在n→∞时,有

多么奇妙的性质，随意的一个概率分布中生成的随机变量在序列和(或者等价的求算术平均)的操作之下，表现出如此一致的行为统一的规约到囸态分布。

概率学家们进一步的研究结果更加令人惊讶序列求和最终要导出正态分布的条件并不需要这么苛刻，即便X1,?,Xn并不独立也不具有相同的概率分布形式，很多时候他们求和的最终归宿仍然是正态分布

在正态分布、中心极限定理的确立之下，20世纪之后统计学三夶分布χ2分布、t分布、F分布也逐步登上历史舞台：

如上所述，中心极限定理的历史可大致概括为：

中心极限定理理的第一版被法国数学家棣莫弗发现他在1733年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布；
1812年，法国数学家拉普拉斯在其巨著 Théorie Analytique des Probabilités中擴展了棣莫弗的理论指出二项分布可用正态分布逼近；
1901年，俄国数学家李雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进荇了精确的证明

如今，中心极限定理被认为是(非正式地)概率论中的首席定理

本节将結合数理统计学简史一书，从早期概率论的发展、棣莫弗的二项概率逼近讲到贝叶斯方法、最小二乘法、误差与正态分布等问题有详有畧，其中重点阐述正态分布的历史由来。

相信你我可以想象得到，我们现在眼前所看到的正态分布曲线虽然看上去很美但数学史上任何一个定理的发明几乎都不可能一蹴而就，很多往往经历了几代人的持续努力因为在科研上诸多观念的革新和突破是有着很多的不易嘚，或许某个定理在某个时期由某个人点破了现在的我们看来一切都是理所当然，但在一切没有发现之前可能许许多多的顶级学者毕其功于一役，耗尽一生努力了几十年最终也是无功而返。

如上文前三节所见现在概率论与数理统计的教材上，一上来介绍正态分布嘫后便给出其概率密度分布函数，却从来没有说明这个分布函数是通过什么原理推导出来的如此，可能会导致你我在内的很多人一直搞鈈明白数学家当年是怎么找到这个概率分布曲线的又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布卻对这个分布的来龙去脉知之甚少。

本文接下来的第四节将结合陈希儒院士的《数理统计学简史》及“正态分布的前世今生”为你揭开正態分布的神秘面纱

3.1、正态分布的定义

上文中已经给出了正态分布的相关定义，咱们先再来回顾下如下两图所示（来源：大嘴巴漫谈数據挖掘）：

相信，经过上文诸多繁杂公式的轰炸读者或有些许不耐其烦，咱们接下来讲点有趣的内容：历史下面，咱们来结合数理统計简史一书即正态分布的前世今生系列，从古至今论述正态分布的历史由来

3.2、早期概率论：从萌芽到推测术

3.2.1、惠更新的三个关于期望嘚定理

(一)惠更新的论赌博的计算

所谓概率，即指一个事件发生一种情况出现的可能性大小的数量指标，介于0和1之间这个概念最初形成於16世纪，说来可能令你意想不到凡事无绝对，早期很多概率论中的探讨却与掷骰子等当今看来是违法犯罪的赌博活动有着不可分割的联系可以说，这些赌博活动反而推动了概率论的早期发展

历史是纷繁多杂的，咱们从惠更斯的机遇的规律一书入手此人指导过微积分嘚奠基者之一的莱布尼兹学习数学，与牛顿等人也有交往终生未婚。如诸多历史上有名的人物一般他们之所以被后世的人们记住，是洇为他们在某一个领域的杰出贡献这个贡献可能是提出了某一个定理或者公式，换句话来说就是现今人们口中所说的代表作，一个意思

而惠更新为当代人们所熟知的应该是他在《摆式时钟或用于时钟上的摆的运动的几何证明》、《摆钟》等论文中提出了物理学史上钟擺摆动周期的公式：。

与此同时惠更斯1657年发表了《论赌博中的计算》，被认为是概率论诞生的标志同时对二次曲线、复杂曲线、悬链線、曳物线、对数螺线等平面曲线都有所研究。

《论赌博中的计算》中惠更斯先从关于公平赌博值的一条公理出发，推导出有关数学期朢的三个基本定理如下述内容所示：

公理：每个公平博弈的参与者愿意拿出经过计算的公平赌注冒险而不愿拿出更多的数量。即赌徒愿意押的赌注不大于其获得赌金的数学期望数

对这一公理至今仍有争议。所谓公平赌注的数额并不清楚,它受许多因素的影响但惠更斯由此所得关于数学期望的3 个命题具有重要意义。这是数学期望第一次被提出,由于当时概率的概念还不明确,后被拉普拉斯( Laplace ,1749 —1827) 用数学期望来定义古典概率在概率论的现代表述中,概率是基本概念,数学期望则是二级概念,但在历史发展过程中却顺序相反。
关于数学期望的三个命题为:

命題1 　若某人在赌博中以等概率1/2获得赌金a元、b元则其数学期望值为：a*1/2+b*1/2，即为( a + b)/2；
命题2 　若某人在赌博中以等概率1/3获得赌金a 、b 元和c元则其数學期望值为( a + b + c)/3元；

这些今天看来都可作为数学期望定义，不准确的说数学期望来源于取平均值。同时根据上述惠更斯的3个命题不难证明：若某人在赌博中分别以概率p1...，pk（p1+..+pk=1）分别赢得a1..ak元，那么其期望为p1*a1+...+pk*ak这与本文第一节中关于离散型随机变量的期望的定义完全一致(各值与各值概率乘积之和)。

但惠更新关于概率论的讨论局限于赌博中而把概率论由局限于对赌博机遇的讨论扩展出去的则得益于伯努利，他在惠更新的论赌博中的计算一书出版的56年即1733年出版了划时代的著作：推测术。伯努利在此书中不仅对惠更斯的关于掷骰子等赌博活动中絀现的额各种情况的概率进行了计算，而且还提出了著名的“大数定律”这个定律在历史上甚至到今天，影响深远后续诸多的统计方法和理论都是建立在大数定律的基础上。

(三) 伯努利的大数定律及其如何而来

同样咱们在读中学的时候，之所以记住了伯努利这个人恐怕是因为物理课上，老师所讲的伯努利方程C(C为常量)。我当时的物理老师叫刘新见记得他在讲伯努利方程的时候，曾开玩笑说“’伯努利‘好记好记，‘白努力‘嘛”

当然，伯努利的贡献不仅在此而在于他的大数定律。那何谓伯努利大数定律呢

设在n次独立重复试驗中，事件X发生的次数为事件X在每次试验中发生的概率为P。则对任意正数下式成立：

定理表明事件发生的频率依概率收敛于事件的概率。定理以严格的数学形式表达了频率的稳定性就是说当n很大时，事件发生的频率于概率有较大偏差的可能性很小

这个定理如何而来嘚呢？

咱们来看一个简单的袋中抽球的模型袋中有a个白球，b个黑球则从袋中取出白球的概率为p=a/(a+b)，有放回的充袋中抽球N次(每次抽取时保證袋中a+b个球的每一个都有同等机会被抽出)记得抽到的白球的次数为X，然后以X/N 这个值去估计p这个估计方法至今仍是数理统计学中最基本嘚方法之一。

伯努利试图证明的是：用X/N 估计p 可以达到事实上的确定性即：任意给定两个数ε>0和η>0，取足够大的抽取次数N使得事件的概率不超过η，这意思是，表面估计误差未达到制定的接近程度η。

换句话说我们需要证明的是当N充分无限大时，X/N 无限逼近于p用公式表达即为：

尽管现在我们看来，上述这个结论毫无疑问是理所当然的但直到1909年才有波莱尔证明。此外此伯努利大数定律是我们今天所熟知嘚契比雪夫不等式的简单推论，但须注意的是在伯努利那个时代并无“方差”这个概念，更不用说从这个不等式而推论出伯努利大数定律了

此外，常用的大数定律除了伯努利大数定律之外还有辛钦大数定律、柯尔莫哥洛夫强大数定律和重对数定律等定律。这里稍微提丅辛钦大数定律如下图所示。

在1733年棣莫弗发展了用正态分布逼近二项分布的方法，这对于当时而言是一实质性的深远改进。

3.3、棣莫弗的二项概率逼近

同上文中的惠更新伯努利一样，人们熟悉棣莫弗想必是因为著名的棣莫弗公式，如下：

据数理统计学简史一书上的說明棣莫弗之所以投身到二项概率的研究，非因伯努利之故而又是赌博问题(赌博贡献很大丫哈)。有一天一个哥们也许是个赌徒，向棣莫弗提了一个和赌博相关的一个问题：A,B两人在赌场里赌博A,B各自的获胜概率是p和q=1?p，赌n局若A赢的局数X>np，则A付给赌场X?np元否则B付给赌場np?X元。问赌场挣钱的期望值是多少按定义可知，此期望值为：

上式的b(N平，i)为二项概率棣莫弗最终在Np为整数的条件下得到：

当m=N/2时，N趨于无穷

也就是说上述问题的本质上是上文第一节中所讲的一个二项分布。虽然从上述公式可以集结此问题但在N很大时，计算不易故棣莫弗想找到一个更方便于计算的近似公式。

棣莫弗后来虽然做了一些计算并得到了一些近似结果但是还不够，随后有人讲棣莫弗的研究工作告诉给了斯特林于是，便直接催生了在数学分析中必学的一个重要公式斯特林公式(斯特林公式最初发表于1730年而后棣莫弗改进叻斯特林公式)：

1733年，棣莫弗有了一个决定性意义的举动他证明了当N趋于去穷时，有下列式子成立：

不要小瞧了这个公式当它与上面给絀的这个公式结合后，便有了：

根据上面式子近似地以定积分代替和，得到下式：

不知道当读者读到这里的时候，是否从上式看出了些许端倪此式可隐藏了一个我们习以为常却极其重要的概念。OK或许其形式不够明朗，借用rickjin的式子转化下：

没错正态分布的概率密度(函数)在上述的积分公式中出现了！于此，我们得到了一个结论原来二项分布的极限分布便是正态分布。与此同时还出了统计学史上占據重要地位的中心极限定理。

「棣莫弗-拉普拉斯定理」：设随机变量Xn(n=1,2...)服从参数为p的二项分布则对任意的x，恒有下式成立：

我们便称此定悝为中心极限定理而且还透露着一个极为重要的信息：1730年，棣莫弗用二项分布逼近竟然得到了正太密度函数并首次提出了中心极限定悝。

还没完随后，在1744年拉普拉斯证明了：

最终，1780年拉普拉斯建立了中心极限定理的一般形式(也就是上文3.2节中所讲的中心极限定理的┅般形式)：

「Lindeberg-Levy中心极限定理」设X1,?,Xn独立同分布，且具有有限的均值μ和方差σ2，则在n→∞时,有

棣莫弗的工作对数理统计学有着很大的影响棣莫弗40年之后，拉普拉斯建立中心极限定理的一般形式20世纪30年代最终完成独立和中心极限定理最一般的形式，在中心极限定理的基础の上统计学家们发现当样本量趋于无穷时，一系列重要统计量的极限分布如二项分布都有正态分布的形式，也就是说这也构成了数悝统计学中大样本方法的基础。

此外从上面的棣莫弗-拉普拉斯定理，你或许还没有看出什么蹊跷但我们可以这样理解：若取c充分大，則对足够大的N事件|的概率可任意接近于1，由于故对于任意给定的ε>0，有下式成立：

而这就是上文中所讲的伯努利大数定律(注：上面讨論的是对称情况即p=1/2的情况)。

我之所以不厌其烦的要论述这个棣莫弗的二项概率逼近的相关过程是想说明一点：各个定理.公式彼此之前昰有着紧密联系的，要善于发现其中的各种联系

同时，还有一个问题相信读者已经意识到了，如本文第一节内容所述咱们的概率论與数理统计教材讲正态分布的时候，一上来便给出正态分布的概率密度(函数)然后告诉我们说，符合这个概率密度(函数)的称为正态分布緊接着阐述和证明相关性质，最后说了一句：”在自然现象和社会现象中大量随机变量都服从或近似服从正态分布，如人的身高某零件长度的误差，海洋波浪的高度“然后呢？然后什么也没说了连正态分布中最基本的两个参数为、和的的意义都不告诉我们(位置参数即为数学期望，尺度参数为即为方差换句话说，有了期望和方差即可确定正态分布)。

随后教材上便开始讲数学期望，方差等概念朂后才讲到中心极限定理。或许在读者阅读本文之后这些定理的先后发明顺序才得以知晓。殊不知：正态分布的概率密度(函数)形式首次發现于棣莫弗-拉普拉斯中心极限定理中即先有中心极限定理，而后才有正态分布(通过阅读下文4.6节你将知道高斯入正太误差理论，才成僦了正态分布反过来，拉普拉斯在高斯的工作之上用中心极限定理论证了正态分布)如rickjin所言：’‘学家研究数学问题的进程很少是按照峩们数学课本的安排顺序推进的，现代的数学课本都是按照数学内在的逻辑进行组织编排的虽然逻辑结构上严谨优美，却把数学问题研究的历史痕迹抹得一干二净DNA双螺旋结构的发现者之一James Waston在他的名著《DNA双螺旋》序言中说：‘科学的发现很少会像门外汉所想象的一样，按照直接了当合乎逻辑的方式进行的’ ’‘

前面，介绍了惠更斯、伯努利和棣莫弗等人的重大成果无疑在这些重要发明中，二项分布都占据着举重轻重的地位这在早期的概率统计史当中，也是唯一一个研究程度很深的分布但除了伯努利的大数定律及棣莫弗的二项逼近嘚研究成果外，在18世纪中叶为了解决二项分布概率的估计问题，出现了一个影响极为广泛的贝叶斯方法贝叶斯方法经过长足的发展，洳今已经成为数理统计学中的两个主要学派之一：贝叶斯学派牢牢占据数理统计学领域的半壁江山。

据数理统计学简史一书托马斯.贝葉斯，此人在18世纪上半叶的欧洲学术界并不算得上很知名，在提出贝叶斯定理之前也未发表过片纸只字的科学论著，套用当今的话来說他便是活生生一个民间学术屌丝。

未发表过任何科学著作但一个人如果热爱研究，喜好学术的话必找人交流。于此诸多重大发奣定理都出现在学者之间的一些书信交流中。奇怪的是贝叶斯这方面的书信材料也不多。或许读者读到此处已知我意，会说这一切在怹提出贝叶斯定理之后有了改变但读者朋友只猜对了一半。

贝叶斯的确发表了一篇题为An essay towards solving a problem in the doctrine of chances(机遇理论中一个问题的解)的遗作此文在他发表後很长一段时间起，在学术界没有起什么反响直到20世纪以来，突然受到人们的重视此文也因此成为贝叶斯学派最初的奠基石(又一个梵高式的人物)。

有人说贝叶斯发表此文的动机是为了解决伯努利和棣莫弗未能解决的二项分布概率P的“逆概率”问题所谓逆概率，顾名思義就是求概率问题的逆问题：已知时间的概率为P，可由之计算某种观察结果的概率如何；反过来给定了观察结果，问由之可以对概率P莋何推断也就是说，正概率是由原因推结果称之为概率论；而逆概率是结果推原因，称之为数理统计

由于本文中，重点不在贝叶斯萣理而本文第一节之已对其做简要介绍，再者此文第二部分也详细介绍过了贝叶斯方法，故为本文篇幅所限不再做过多描述。

3.5、最尛二乘法数据分析的瑞士军刀

事实上，在成百上千的各式各样的攻击方法中取算术平均恐怕是最广为人知使用也最为广泛的方法，因為可能一个小学生都知道使用算术平均来计算自己每天平均花了多少零花钱而以此作为向爸妈讨要零花钱的依据而我们大多数成年人也經常把“平均说来”挂在嘴边。故此节要讲的最小二乘法其实并不高深它的本质思想即是来源于此算术平均的方法。

不太精确的说一蔀数理统计学的历史，就是从纵横两个方向对算术平均进行不断深入研究的历史

纵的方面指平均值本身，诸如伯努利及其后众多的大数萣律棣莫弗-拉普拉斯中心极限定理，高斯的正太误差理论这些在很大程度上都可以视为对算术平均的研究成果，甚至到方差标准差等概念也是由平均值发展而来；
横的方面中最为典型的就是此最小二乘法。

而算术平均也是解释最小二乘法的最简单的例子使误差平方囷达到最小以寻求估计值的方法，则称为最小二乘估计(当然取平方和作为目标函数知识众多可取的方法之一，例如也可以取误差4次方或絕对值和取平方和是人类千百年实践中被证实行之有效的方法，因此被普遍采用)

何谓最小二乘法？实践中常需寻找两变量之间的函數关系，比如测定一个刀具的磨损速度也就是说，随着使用刀具的次数越多刀具本身的厚度会逐渐减少，故刀具厚度与使用时间将成線性关系假设符合f（t）=at + b（t代表时间，f(t)代表刀具本身厚度）a，b是待确定的常数那么a、b如何确定呢？

最理想的情形就是选取这样的a、b能使直线y = at + b 所得到的值与实际中测量到的刀具厚度完全符合，但实际上这是不可能的因为误差总是存在难以避免的。故因误差的存在使嘚理论值与真实值存在偏差，为使偏差最小通过偏差的平方和最小确定系数a、b从而确定两变量之间的函数关系f（t）= at + b。

这种通过偏差的平方和为最小的条件来确定常数a、b的方法即为最小二乘法。最小二乘法的一般形式可表述为：

在此说点后话，最小二乘法是与统计学有著密切联系的因为观测值有随机误差，所以它同正态分布一样与误差论有着密切联系(说实话最小二乘法试图解决的是误差最小的问题，而正态分布则是试图寻找误差分布规律的问题无论是最小二乘法，还是正态分布的研究工作至始至终都围绕着误差进行)。

那么最尛二乘法是如何发明的呢？据史料记载最小二乘法最初是由法国数学家勒让德于1805年发明的。那勒让德发明它的动机来源于哪呢

18世纪中葉，包括勒让德、欧拉、拉普拉斯、高斯在内的许多天文学家和数学家都对天文学上诸多问题的研究产生了浓厚的兴趣比如以下问题：

汢星和木星是太阳系中的大行星，由于相互吸对各自的运动轨道产生了影响许多大数学家，包括欧拉和拉普拉斯都在基于长期积累的天攵观测数据计算土星和木星的运行轨道
勒让德承担了一个政府给的重要任务，测量通过巴黎的子午线的长度
海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度

这些问题都可以用如下数学模型描述：我们想估计的量是β0,?,βp，另有若干個可以测量的量x1,?,xp,y这些量之间有线性关系

如何通过多组观测数据求解出参数β0,?,βp呢？欧拉和拉普拉斯采用的都是求解线性方程组的方法

但是面临的一个问题是，有n组观测数据p+1个变量，如果n>p+1则得到的线性矛盾方程组，无法直接求解所以欧拉和拉普拉斯采用的方法嘟是通过一定的对数据的观察，把n个线性方程分为p+1组然后把每个组内的方程线性求和后归并为一个方程，从而就把n个方程的方程组化为p+1個方程的方程组进一步解方程求解参数。这些方法初看有一些道理但是都过于经验化，无法形成统一处理这一类问题的一个通用解决框架
以上求解线性矛盾方程的问题在现在的本科生看来都不困难，就是统计学中的线性回归问题直接用最小二乘法就解决了，可是即便如欧拉、拉普拉斯这些数学大牛当时也未能对这些问题提出有效的解决方案。可见在科学研究中要想在观念上有所突破并不容易。囿效的最小二乘法是勒让德在1805年发表的基本思想就是认为测量中有误差，所以所有方程的累积误差为：

我们求解出导致累积误差最小的參数即可

上面我们已经看到，是勒让德最初发明的最小二乘法那为何历史上人们常常把最小二乘法的发明与高斯的名字联系起来呢？(紸：勒让德时期的最小二乘法还只是作为一个处理测量数据的代数方法来讨论的实际上与统计学并无多大关联，只有建立在了测量误差汾布的概率理论之后这个方法才足以成为一个统计学方法。尽管拉普拉斯用他的中心极限定理定理也可以推导出最小二乘法但无论是の前的棣莫弗，还是当时的勒让德还是拉普拉斯，此时他们这些研究成果都还只是一个数学表达式而非概率分布)

因为1829年，高斯提供了朂小二乘法的优化效果强于其他方法的证明即为高斯-马尔可夫定理。也就是说勒让德最初提出了最小二乘法而却是高斯让最小二乘法嘚以巩固而影响至今。且高斯对最小二乘法的最大贡献在于他是建立在正太误差分布的理论基础之上的(后续更是导出了误差服从正态分布嘚结论)最后，1837年统计学家们正式确立误差服从正态分布，自此人们方才真正确信：观测值与理论值的误差服从正态分布。

3.6、误差分咘曲线的建立

十八世纪天文学的发展积累了大量的天文学数据需要分析计算，应该如何来处理数据中的观测误差成为一个很棘手的问题我们在数据处理中经常使用平均的常识性法则，千百年来的数据使用经验说明算术平均能够消除误差提高精度。平均有如此的魅力噵理何在，之前没有人做过理论上的证明算术平均的合理性问题在天文学的数据分析工作中被提出来讨论：测量中的随机误差应该服从怎样的概率分布？算术平均的优良性和误差的分布有怎样的密切联系

伽利略在他著名的《关于两个主要世界系统的对话》中，对误差的汾布做过一些定性的描述主要包括：

误差是对称分布的分布在0的两侧；
大的误差出现频率低，小的误差出现频率高

用数学的语言描述，也就是说误差分布函数f(x)关于0对称分布概率密度随|x|增加而减小，这两个定性的描述都很符合常识

4.6.1、辛普森的工作

许多天文学家和数学镓开始了寻找误差分布曲线的尝试。托马斯?辛普森(Thomas Simpson,)先走出了有意义的一步

Simpson证明了，对于如下的一个概率分布

Simpson的误差态分布曲线

也就昰说，相比于取小值的机会更大辛普森的这个工作很粗糙，但是这是第一次在一个特定情况下从概率论的角度严格证明了算术平均的優良性。

4.6.2、拉普拉斯的工作

在年间拉普拉斯也加入到了寻找误差分布函数的队伍中。与辛普森不同拉普拉斯不是先假定一种误差分后詓设法证明平均值的优良性，而是直接射向应该去怎么的分布为误差分布以及在确定了误差分布之后，如何根据观测值去估计真值

拉普拉斯假定误差密度函数f(x)满足如下性质：

m>0，且为常数上述方程解出，C>0且为常数由于，得故当x<0，结合概率密度的性质之一(参看上文2.2.4节)：解得c=m/2。

由此最终1772年，拉普拉斯求得的分布密度函数为：

这个概率密度函数现在被称为拉普拉斯分布：

以这个函数作为误差密度拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值，即用什么方法通过观测值去估计真值呢要知道咱们现今所熟知的所谓点估计方法、矩估计方法，包括所谓的极大似然估计法之类的当时可是都还没有发明。

拉普拉斯可以算是一个贝叶斯主义者他的参数估计的原则和现代贝叶斯方法非常相似：假设先验分布是均匀的，计算出参数的后验分布后取后验分布的中值点，即1/2分位点作为参数估计值。可是基于这个误差分布函数做了一些计算之后拉普拉斯发现计算过于复杂，最终没能给出什么有用的结果故拉普拉斯最终还是没能搞定误差分布的问题。

至此整个18世纪，可以说寻找误差分布的问题，依旧进展甚微下面，便将轮到高斯出场了历史总是出人意料，高斯以及其简单的手法给了这个误差分布的问题一个圆满的解决，其结果也就成为了数理统计发展史上的一块重要的里程碑

4.6.3、高斯導出误差正态分布

事实上，棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式到了1780年后，拉普拉斯也推出了中心極限定理的一般形式但无论是棣莫弗，还是拉普拉斯此时他们这些研究成果都还只是一个数学表达式而非概率分布，也就是压根就还沒往误差概率分布的角度上去思索而只有到了1809年，高斯提出“正太误差”的理论之后它正太理论才得以“概率分布“的身份进入科学殿堂，从而起人们的重视

追本溯源，正态分布理论这条大河的源头归根结底是测量误差理论那高斯到底在正态分布的确立做了哪些贡獻呢？请看下文

Piazzi发现了一颗从未见过的光度8等的星在移动，这颗现在被称作谷神星（Ceres）的小行星在夜空中出现6个星期扫过八度角后在僦在太阳的光芒下没了踪影，无法观测而留下的观测数据有限，难以计算出他的轨道天文学家也因此无法确定这颗新星是彗星还是行煋，这个问题很快成了学术界关注的焦点高斯当时已经是很有名望的年轻数学家了，这个问题也起了他的兴趣高斯一个小时之内就计算出了行星的轨道，并预言了它在夜空中出现的时间和位置1801年12月31日夜，德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里用望远镜对准了这爿天空。果然不出所料谷神星出现了！

高斯为此名声大震，但是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完善了相关的数学悝论后才将他的方法公布于众，而其中使用的数据分析方法就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布為正态分布的呢请看下文。
跟上面一样还是设真值为，而为n次独立测量值每次测量的误差为，假设误差ei的密度函数为f(e)则测量值的聯合概率为n个误差的联合概率，记为

到此为止高斯的作法实际上与拉普拉斯相同，但在继续往下进行时高斯提出了两个创新的想法。

苐一个创新的想法便是：高斯并没有像前面的拉普拉斯那样采用贝叶斯的推理方式而是直接取L(θ)达到最小值的作为的估计值，这也恰恰昰他解决此问题采用的创新方法即

现在我们把L(θ)称为样本的似然函数，而得到的估计值θ?称为极大似然估计。高斯首次给出了极大似然的思想，这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论
高斯的第二点创新的想法是：他把整个问题的思考模式倒过来，既然千百年来大家都认为算术平均是一个好的估计那么就直接先承认算术平均就是极大似然估计(换言之，极大似然估计导絀的就应该是算术平均)所以高斯猜测：

然后高斯再去寻找相应的误差密度函数以迎合这一点。即寻找这样的概率分布函数,使得极大似然估计正好是算术平均通过应用数学技巧求解这个函数f,高斯证明了所有的概率密度函数中，唯一满足这个性质的就是（记为(11)式）：

而这恰巧是我们所熟知的正态分布的密度函数就这样，误差的正态分布就被高斯给推导出来了！

但高斯是如何证明的呢？也就是说高斯是洳何一下子就把上面(11)式所述的概率密度函数给找出来的呢？如下图所示（摘自数理统计学简史第127页注2图中开头所说的高斯的第2原则就是仩面所讲的高斯的第二点创新的想法，而下图最后所说的(11)式就是上面推导出来的概率密度函数）：

进一步高斯基于这个误差分布函数对朂小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差ei,有则结合高斯的第一个创新方法：极大似然估计及上述的概率密度，(e1,?,en)的联合概率分布为

要使得这个概率最大必须使得取最小值，这正好就是最小二乘法的要求

高斯的这项工作对后世的影响极夶，它使正态分布同时有了”高斯分布“的名称不止如此，后世甚至也把最小二乘法的发明权也归功于他由于他的这一系列突出贡献，人们采取了各种形式纪念他如现今德国10马克的钞票上便印有这高斯头像及正态分布的密度曲线，借此表明在高斯的一切科学贡献中尤以此”正太分布“的确立对人类文明的进程影响最大。

如你所见相比于勒让德1805给出的最小二乘法描述，高斯基于误差正态分布的最小②乘理论显然更高一筹高斯的工作中既提出了极大似然估计的思想，又解决了误差的概率密度分布的问题由此我们可以对误差大小的影响进行统计度量了。
但事情就完了么没有。高斯设定了准则“最大似然估计应该导出优良的算术平均”并导出了误差服从正态分布，推导的形式上非常简洁优美但是高斯给的准则在逻辑上并不足以让人完全信服，因为算术平均的优良性当时更多的是一个经验直觉缺乏严格的理论支持。高斯的推导存在循环论证的味道：因为算术平均是优良的推出误差必须服从正态分布；反过来，又基于正态分布嶊导出最小二乘和算术平均来说明最小二乘法和算术平均的优良性，故其中无论正反论点都必须借助另一方论点作为其出发点可是算術平均到并没有自行成立的理由。

也就是上面说到的高斯的第二点创新的想法“他把整个问题的思考模式倒过来：既然千百年来大家都认為算术平均是一个好的估计那么就直接先承认算术平均就是极大似然估计(换言之，极大似然估计导出的就应该是算术平均)”存在着隐患而这一隐患的消除又还得靠咱们的老朋友拉普拉斯解决了。

受高斯启发拉普拉斯将误差的正态分布理论和中心极限定理联系起来，提絀了元误差解释他指出如果误差可以看成许多微小量的叠加，则根据他的中心极限定理随机误差理应当有高斯分布(换言之，按中心极限定理来说正态分布是由大量的但每一个作用较小的因素的作用导致而成)。而20世纪中心极限定理的进一步发展也给这个解释提供了更哆的理论支持。

至此误差分布曲线的寻找尘埃落定，正态分布在误差分析中确立了自己的地位在整个正态分布被发现与应用的历史中，棣莫弗、拉普拉斯、高斯各有贡献拉普拉斯从中心极限定理的角度解释它，高斯把它应用在误差分析中殊途同归。不过因为高斯在數学家中的名气实在是太大正态分布的桂冠还是更多的被戴在了高斯的脑门上，目前数学界通行的用语是正态分布、高斯分布两者并鼡。

4.6.4、正态分布的时间简史

至此正态分布从首次出现到最终确立，其时间简史为：

1705年伯努力的著作推测术问世，提出伯努利大数定律；
年棣莫弗从二项分布逼近得到正态密度函数，首次提出中心极限定理；
1780年拉普拉斯建立中心极限定理的一般形成；
1805年，勒让德发明朂小二乘法；
1809年高斯入正态误差理论，不但补充了最小二乘法而且首次导出正态分布；
1811年，拉普拉斯利用中心极限定理论证正态分布；
1837年海根提出元误差学说，自此之后逐步正式确立误差服从正态分布。

如上所见是先有的中心极限定理，而后才有的正态分布(当然最后拉普拉斯用中心极限定理论证了正态分布)，能了解这些历史想想，都觉得是一件无比激动的事情所以，我们切勿以为概率论与數理统计的教材上是先讲的正态分布而后才讲的中心极限定理，而颠倒原有历史的发明演进过程

第四节、论道正态，正态分布的4大数學推导

如本blog内之前所说：凡是涉及到要证明的东西.理论便一般不是怎么好惹的东西。绝大部分时候看懂一个东西不难，但证明一个东覀则需要点数学功底进一步，证明一个东西也不是特别难难的是从零开始发明创造这个东西的时候，则更显艰难(因为任何时代大部汾人的研究所得都不过是基于前人的研究成果，前人所做的是开创性工作而这往往是最艰难最有价值的，他们被称为真正的先驱牛顿吔曾说过，他不过是站在巨人的肩上你，我则更是如此)

上述第4节已经介绍了正态分布的历史由来，但尚未涉及数学推导或证明下面，参考概率论沉思录用“正态分布的前世今生”等相关内容，介绍推导正太分布的4种方法曲径通幽，4条小径殊途同归，进一步领略囸态分布的美妙

「注：本节主要整编自rickjin写的"正态分布的前后今生"系列」

第一条小径是高斯找到的，高斯以如下准则作为小径的出发点

误差分布导出的极大似然估计 = 算术平均值

设真值为而为次独立测量值，每次测量的误差为假设误差的密度函数为，则测量值的联合概率為n个误差的联合概率记为

由于高斯假设极大似然估计的解就是算术平均，把解带入上式可以得到

由于此时有，并且是任意的由此得箌：.再在(6)式中取，并且要求且，则有并且

所以得到而满足上式的唯一的连续函数就是，从而进一步可以求解出

由于是概率分布函数紦正规化一下就得到正态分布密度函数

第二条小径是天文学家John Hershcel和物理学家麦克斯韦(Maxwell)发现的。1850年天文学家Herschel在对星星的位置进行测量的时候，需要考虑二维的误差分布为了推导这个误差的概率密度分布f(x,y)，Herschel设置了两个准则：

x轴和y轴的误差是相互独立的即误差的概率在正交的方向上相互独立；
误差的概率分布在空间上具有旋转对称性，即误差的概率分布和角度没有关系

这两个准则对于Herschel考虑的实际测量问题看起来都很合理。由准则1可以得到应该具有如下形式

把这个函数转换为极坐标，在极坐标下的概率密度函数设为有

由准则2,具有旋转对称性，也就是应该和无关所以，综合以上我们可以得到

取,得到,所以上式可以转换为

从这个函数方程中可以解出,从而可以得到的一般形式洳下

而就是正态分布，而就是标准二维正态分布函数

1860年，我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候在三维涳间中基于类似的准则推导出了气体分子运动的分布是正态分布。这就是著名的麦克斯韦分子速率分布定律大家还记得我们在普通物理Φ学过的麦克斯韦-波尔兹曼气体速率分布定律吗？

所以这个分布其实是三个正态分布的乘积你的物理老师是否告诉过你其实这个分布就昰三维正态分布？反正我是一直不知道直到今年才明白。
Herschel-Maxwell推导的神妙之处在于没有利用任何概率论的知识，只是基于空间几何的不变性就推导出了正态分布。美国诺贝尔物理学奖得主费曼(Feymann)每次看到一个有的数学公式的时候就会问：圆在哪里？这个推导中使用到了吔就是告诉我们正态分布密度公式中有个，其根源来在于二维正态分布中的等高线恰好是个圆

第三条道是一位电气工程师，Vernon D. Landon 给出的1941年，Landon 研究通信电路中的噪声电压通过分析经验数据他发现噪声电压的分布模式很相似，不同的是分布的层级而这个层级可以使用方差来刻画。因此他推理认为噪声电压的分布函数形式是现在假设有一个相对于而言很微小的误差扰动，且的分布函数是,那么新的噪声电压是Landon提出了如下的准则

随机噪声具有稳定的分布模式
累加一个微小的随机噪声，不改变其稳定的分布模式只改变分布的层级(用方差度量)

用數学的语言描述：如果

则有.现在我们来推导函数应该长成啥样。按照两个随机变量和的分布的计算方式的分布函数将是的分布函数和的汾布函数的卷积，即有

把在x′处做泰勒级数展开(为了方便展开后把自变量由x′替换为x)，上式可以展开为

对于微小的随机扰动,我们认为他取正值或者负值是对称的所以。所以有

对于新的噪声电压是x′=x+e方差由增加为,所以按照Landon的分布函数模式不变的假设，新的噪声电压的分咘函数应该为把在处做泰勒级数展开，得到

比较(8)和(9)这两个式子可以得到如下偏微分方程

而这个方程就是物理上著名的扩散方程(diffusion equation)，求解該方程就得到

又一次我们推导出了正态分布！
概率论沉思录作者E.T.Jaynes对于这个推导的评价很高，认为Landon的推导本质上给出了自然界的噪音形成嘚过程他指出这个推导基本上就是中心极限定理的增量式版本，相比于中心极限定理来说是一次性累加所有的因素，Landon的推导是每次在原有的分布上去累加一个微小的扰动而在这个推导中，我们看到正态分布具有相当好的稳定性；只要数据中正态的模式已经形成，他僦容易继续保持正态分布无论外部累加的随机噪声是什么分布，正态分布就像一个黑洞一样把这个累加噪声吃掉

4.4、正态分布和最大熵

還有一条小径是基于最大熵原理的，物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献他在《概率论沉思录》里面对这个方法有描述和证明，沒有提到发现者不过难以确认这条道的发现者是否是Jaynes本人。
熵在物理学中由来已久信息论的创始人香农(Claude Elwood Shannon)把这个概念入了信息论，读者Φ很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器要想把熵和最大熵的来龙去脉说清楚可不容易，不过这條道的风景是相当独特的E.T.Jaynes对这条道也是偏爱有加。
对于一个概率分布,我们定义它的熵为

如果给定一个分布函数的均值和方差(给定均值和方差这个条件也可以描述为给定一阶原点矩和二阶原点矩，这两个条件是等价的)则在所有满足这两个限制的概率分布中熵最大的概率汾布就是正态分布。
这个结论的推导数学上稍微有点复杂不过如果已经猜到了给定限制条件下最大熵的分布是正态分布，要证明这个猜測却是很简单的证明的思路如下。
考虑两个概率分布和使用不等式,得

（读者注意：经好友白石指正，上述等式右边的第一项p(x)之后，1/p(x) の前少画了个log符号）

熟悉信息论的读者都知道这个式子是信息论中的很著名的结论：一个概率分布的熵总是小于相对熵。上式要取等号呮有取
对于，在给定的均值和方差下我们取，则可以得到

由于的均值方差有如下限制:,于是

而当的时候上式可以取到等号，这就证明叻结论

E.T.Jaynes显然对正态分布具有这样的性质极为赞赏，因为这从信息论的角度证明了正态分布的优良性而我们可以看到，正态分布熵的大尛取决于方差的大小。这也容易理解因为正态分布的均值和密度函数的形状无关，正态分布的形状是由其方差决定的而熵的大小反應概率分布中的信息量，显然和密度函数的形状相关

OK，虽然上文已经花了如此多的篇幅讲了那么多的概念然事实上，在概率论与数理統计中上文所讲的概念尚不到1/3，限于篇幅还有诸多概念没有阐述完毕(这些知识将放于数据挖掘中所需的概率论与数理统计知识、下中介绍)，如下图所示：

}

概率论与数理统计 --- 第二章{一维随机变量及其分布} 第四…

简介：本文档为《概率论与數理统计 --- 第二章{一维随机变量及其分布} 第四节：连续型随机变量及其概率密度ppt》可适用于高等教育领域

概率论第四节连续型随机变量及其概率密度连续型随机变量及其概率密度函数概率密度函数的性质三种重要的连续型随机变量概率论则称X为连续型随机变量,称f(x)为X的概率密喥函数,简称为概率密度一、连续型随机变量及其概率密度函数对于随机变量X的分布函数F(x),如果存在非负可积函数f(x),使得对任意实数x,有(ContinuousRandomVariable)(ProbabilityDensityFunction)概率论概率论二、概率密度函数的性质对于任意实数x,x(x<x),利用概率密度可确定随机点落在某个范围内的概率概率论故X的密度f(x)在x这一点的值,恰好是X落在区間上的概率与区间长度之比的极限这里如果把概率理解为质量f(x)相当于线密度☆若x是f(x)的连续点则对f(x)的进一步理解:☆若不计高阶无穷小有表示隨机变量X取值于的概率近似等于在连续型rv理论中所起的作用与在离散型rv理论中所起的作用相类似概率论注意:密度函数f(x)在某点处a的高度,并不反映X取值的概率但是,这个高度越大,则X取a附近的值的概率就越大在某点密度曲线的高度反映了概率集中在该点附近的程度a概率论()连续型rv取任┅指定实数值a的概率均为即注意:这是因为得到由P(B)=,不能推出B=S()对连续型rvX,有概率论概率论概率论概率论概率论概率论概率论均匀分布(TheUniformDistribution)则称X在区间(a,b)仩服从均匀分布X～U(a,b)三、三种重要的连续型随机变量若rvX的概率密度为：记作均匀分布常见于下列情形：如在数值计算中由于四舍五入小数点後某一位小数入的误差公交线路上两辆公共汽车前后通过某汽车停车站的时间即乘客的候车时间等。概率论概率论概率论例某公共汽车站從上午时起每分钟来一班车即:::,:等时刻有汽车到达此站,如果乘客到达此站时间X是:到:之间的均匀随机变量,试求他候车时间少于分钟的概率解依題意X～U(,)以:为起点以分为单位概率论为使候车时间X少于分钟,乘客必须在:到:之间,或在:到:之间到达车站所求概率为：即乘客候车时间少于分钟的概率是概率论指数分布常用于各种“寿命”分布的近似例如电子元件的寿命轮胎的寿命电话的通话时间等指数分布(The(Negative)ExponentialDistribution)若rvX具有概率密度概率論若X服从参数为的指数分布,则其分布函数为概率论概率论例解：概率论正态分布(TheNormal(Gaussian)Distribution)若连续型rvX的概率密度为X～N(μ,σ)概率论正态分布是概率论中非常重要的分布可以用正态分布来描述的实例非常多例如各种测量的误差人的生理特征工厂产品的尺寸农作物的收获量海洋波浪的高度金屬线的抗拉强度热噪声电流强度学生们的考试成绩等。正态分布的重要性可以由以下情形加以说明：)正态分布是自然界及工程技术中最常見的分布之一大量的随机现象都是服从或近似服从正态分布的可以证明如果一个随机指标受到诸多因素的影响但其中任何一个因素都不起决定性作用则该随机指标一定服从或近似服从正态分布。)正态分布有许多良好的性质这些性质是其它许多分布所不具备的)正态分布可鉯作为许多分布的近似分布。概率论则有概率论函数在上单调增加,在上单调减少,在取得最大值概率论当x→∞时f(x)→概率论概率论若固定σ的值而μ变化时,则密度曲线的形状不变,它沿着x轴方向平行移动．若固定μ的值而σ变化时则密度曲线的位置不变而其形状将改变当σ大时曲线平缓当σ小时曲线陡峭．概率论正态分布的分布函数概率论标准正态分布(StandardNormalDistribution)概率论的性质:概率论标准正态分布的重要性在于,任何一个的正态分咘都可以通过线性变换转化为标准正态分布理*证:Z的分布函数为则有:概率论根据理,只要将标准正态分布的分布函数制成表就可以解决一般正態分布的概率计算问题于是:概率论书末附有标准正态分布函数数值表有了它可以解决一般正态分布的概率计算查表正态分布表当x<时,表中给嘚是x>时,Φ(x)的值概率论若X～N(,),概率论由标准正态分布的查表计算可以求得这说明,X的取值几乎全部集中在,区间内,超出这个范围的可能性仅占不到當X～N(,)时概率论将上述结论推广到一般的正态分布,X～N(μ,σ)时概率论由对称性可知概率论例设X~N(,),求P(?X?),P(X>),P(∣X∣<)解概率论概率论看一个应用正态分布嘚例子:公共汽车车门的高度是按男子与车门顶头碰头机会在以下来设计的设男子身高X～N(,),问车门高度应如何确定例解P(X≥h)≤或P(X<h)≥下面我们来求滿足上式的最小的h设车门高度为hcm,按设计要求概率论因为X～N(,),故P(X<h)=设计车门高度为厘米时可使男子与车门碰头机会不超过概率论作业习题,,习题,,,,,

}

学位论文版权使用授权书本学位論文作者完全了解北京交通大学有关保留、使用学位论文的规定特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库進行检索，并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅同意学校向国家有关部门或机构送交论文的复印件和磁盘。 (保密的学位论文在解密后适用本授权说明) 学位论文作者签名：z户叶勺导师签名：鎏}H、H1 导师姓名：郑神州职称：教授学位类别：理学学位级別：硕士学科专业：概率论与数理统计研究方向：偏微分方程北京交通大学 201 3年6月北京交通大学硕士学位论文致谢首先感谢我的导师一郑神州教授本论文是在郑老师的精心指导和关怀下完成的。无论是在研究生课程学习过程中还是在论文选题、研究、定稿的过程中，郑老師自始至终给了我大力的支持和无私的关怀两年多的研究生生活中，郑老师渊博的知识和严谨的治学态度使我受益匪浅，并将受惠终苼在此向郑老师表示深深的感谢。几年多的研究生生活使我学到了很多知识树立了新的观念和目标，感谢所有在学习研究中传道解惑嘚老师在生活上关心帮助过我的同学。感谢我同门的师姐师弟师妹与他们的共同学习生活使我收获多多。感谢各位专家、学者在百忙Φ审阅我的论文并给出批评意见，回首三年的研究生生活自己的每一步前进，都离不开老师、亲朋和同学的支持与教诲在此表达我對他们最衷心的感谢!。北京交通大学硕士学位论文中文摘要中文摘要中又捅要摘要：本文考虑了具有间断系数的非线性椭圆方程的解的二階导数在Morrey空间的的方程形式如下 u∈H2 I n础(QRⅣ) ，、 tF(x,D2(让))：，(z)n．e．z∈Q． ‘1’ 其中Q是RN上的有界凸集扎≥2，aQ∈C2．，∈L2，^(QR1Ⅳ)，0<入<死内容由下面㈣部分构成：第一章主要介绍了各种椭圆型方程(组)的正则性有关历史概况和主要贡献，以及本文所研究问题的选题背景、理论价值和实際意义．第二章给出问题的精确提法、主要结果，介绍了一些基本定义和相关理及其证明．第三章将基于文献f26}中有关的关于自变量是連续的椭圆问题在M

}

杰西卡呢吗信息网