最大似然估计法和最小二乘法怎么理解

[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?_加权最小二乘法-牛bb文章网
[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法? 加权最小二乘法
所属栏目:
[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?我觉得应该用这样的直线,它使得每个点到直线的距离之和最小下面就看看www.niubb.net小编为您搜集整理的参考答案吧。网友蒙面大侠对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:同意 @Jichun Si 不太同意 @王芊的说法。Andrew Ng的推导应该只是说明了,在Gaussian噪声的假设下,最大似然可以推导出最小二乘,仅此而已,个人认为并没有说明最小二乘的必要性。最小二乘是在欧氏距离为误差度量的情况下,由系数矩阵所张成的向量空间内对于观测向量的最佳逼近点。为什么用欧式距离作为误差度量 (即MSE),09年IEEE Signal Processing Magzine 的 《Mean squared error: Love it or leave it?》这篇文章做了很好的讨论。链接:http://www2.units.it/ramponi/teaching/DIP/materiale/mse_bovik09.pdf这篇文章在"WHY DO WE LOVE THE MSE?"中说,MSE:1. 它简单。2. 它提供了具有很好性质的相似度的度量。例如:1)它是非负的;2)唯一确定性。只有x=y的时候,d(x,y)=0;3)它是对称的,即d(x,y)=d(y,x);4)符合三角性质。即d(x,z)&=d(x,y)+d(y,z).3. 物理性质明确,在不同的表示域变换后特性不变,例如帕萨瓦尔等式。4. 便于计算。通常所推导得到的问题是凸问题,具有对称性,可导性。通常具有解析解,此外便于通过迭代的方式求解。5. 和统计和估计理论具有关联。在某些假设下,统计意义上是最优的。然而,MSE并非没有缺点。并不是所有的问题都可以套用该准则,在“IMPLICIT ASSUMPTIONS WHEN USING THE MSE”说,它基于了以下几点对于信号的假设:1. 信号的保真度和该信号的空间和时间顺序无关。即,以同样的方法,改变两个待比较的信号本身的空间或时间排列,它们之间的误差不变。例如,[1 2 3], [3 4 5]两组信号的MSE和[3 2 1],[5 4 3]的MSE一样。2. 误差信号和原信号无关。只要误差信号不变,无论原信号如何,MSE均不变。例如,对于固定误差[1 1 1],无论加在[1 2 3]产生[2 3 4]还是加在[0 0 0]产生[1 1 1],MSE的计算结果不变。3. 信号的保真度和误差的符号无关。即对于信号[0 0 0],与之相比较的两个信号[1 2 3]和[-1 -2 -3]被认为和[0 0 0]具有同样的差别。4. 信号的不同采样点对于信号的保真度具有同样的重要性。本文后面还讨论了MSE对于图像和语音这些具有空间和时间信息的信号来说,并非就是完美的,并举了不少例子。有兴趣的可以下下来论文自己看。对于本问题来说,我觉得这些讨论已经够了。网友慧航对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:谢邀。不是很同意 @王芊的说法。首先跟题主说一下,最小二乘法的“最优”也要看应用情景的。实际上最小二乘法更准确的说是一个正交投影(orthogonal projection),而这个投影的很多优良性质不需要假设正态分布。这里正交投影的意思是,在x所张成的线性空间里面找一个向量使得其与y的距离最小。即使没有正态分布的假设,OLS也是对conditional expectation的最优线性预测。也有人提到了BLUE,回想一下,证明BLUE的时候我们并没有用正态分布的假定。如果从统计推断角度来说,小样本情况下的统计推断还需要正态的假设,大样本是不需要的。最小二乘之所以是“最优”,仅仅是因为用这个方法做出来的刚好是正交投影而已。但是还有很多其他方法,比如中位数回归:最小化的就是绝对值。而且中位数回归在某些方面有比最小二乘更好的性质,比如对异常值稳健等等。当然,如果误差分布对称,中位数回归的跟最小二乘得到的结果是渐进相等的。感兴趣可以看一下这篇文章:JSTOR: Journal of Economic Literature, Vol. 29, No. 1 (Mar., 1991), pp. 34-50还是那句话, 都在做回归,但是首先你得明确自己做回归的目的才能找到那个“最优”的回归方法。=====更新。关于这个问题跟不同的人包括 @王芊@SlowMover@W Xue@马拉轰 交流了一下,其实不同专业的人都在用OLS,但是不同专业的人对OLS的理解是完全不一样的。比如在计量经济学里面,至少有四五种方法可以得到OLS的结果,包括但不限于MLE、投影、GMM、最小化距离等。看到 @王芊 的答案下面还有讨论稀疏性的,在计量经济学里面是完全不讨论的(或者是我不知道)。还有 @W Xue的答案里面提到的物理意义,我表示也不能理解。所以呢,这种问题答案很开放的,题主应该首先明确自己使用OLS的目的,是解释还是预测还是拟合曲线抑或是其他,你要的是系数还是预测值?使用目的的差异会导致同一种方法的理解和使用相去甚远。不管怎样,希望大家看一下其他几位的答案,收获会很多。很开心跟大家进行这样的交流。之前 @马拉轰 又把我之前的一次争论拿出来说事,你看我们交流的不是很好么?好的态度应该是求同存异,而不是在不了解别人的专业的情况下妄自对别人进行攻击。看一下那个帖子对我攻击的人数和对我赞同的人数比较一下,应该知道那个帖子我之所以反应剧烈,是被一小部分自以为是的人逼的。======此外回答 @王芊为什么要用欧氏距离而不是其他距离。有很多人回答了诸如简单、符合直觉、有显示解,我想最根本的还是因为“正交投影”四个字。优秀的性质并不是因为最小化了距离,而是正交。这也就是 @SlowMover提到Frisch-Waugh-Lovell定理的原因。如果说正交,必然先定义内积。有了内积,很多事情就变得方便了。其他的距离也可以用,但是不能保证正交,因为可能找不到一个导出这个距离的内积定义。网友Linglai Li对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:这个问题提得有问题:什么叫“最优”方法? 凭啥说这条直线比另一条更优?要回答这个问题,首先要给出“最优”的定义是什么:最小化误差平方和(2范数)可以,最小化你说的误差距离和(1范数)也可以,还有其他许多最优的准则:例如加入各种regulation项...所以没有统一的“最优”。这个问题是,你首先得定义一个合理的目标函数(例如提到的2范数,1范数等等),而最小化该目标函数的解就是某个意义下的最优。没有哪一个目标函数比另外的目标函数更优,每一个合理的目标函数有其适用范围并且可以在数学上证明其特性,例如 @王芊 提到的。一个核心问题是,使用误差平方和作为目标函数时,200多年前的高斯就发现可以求导得到唯一的显式解,而这个解法也因此被称作最小二乘法,人们进一步研究时发现在高斯噪声等条件下可以得到一些漂亮的结论:如最小二乘解等价于最大似然估计,最佳线性无偏估计等(说得不太严格,请参考教材和 @马拉轰 等人的回答)。而是用其他目标函数,很难显式得到最优解――而近年来凸优化的发展,使用1范数等目标函数也可以有成熟算法求得其最优解。总结:(1)首先你得定义什么叫最优,即定义一个合理(make sense)的误差目标函数去最小化;(2)然后,你得有算法求得该目标函数对应的最优解。网友赵卿元对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:谢邀 @math love@adorelemon 。很早就看到这个问题了,一直没回答主要是因为问题实在是提的不太有诚意。就是一个刚刚学最小二乘的高中生,你们又是正交投影,极大似然,统计检验,BLUE,MSE降噪,不怕把人看晕嘛。知乎小编也是,这么个问题不停地推荐答案,那我还是来回答一下吧。前面基本都在回答标题,但没什么人注意到副标题,所以回答也很少有在点子上的。题主的这个想法其实很自然,坦白讲我初学时也有想过。现在来看,最根本的原因是哲学/逻辑上的。我们做回归分析,有自变量x,有因变量y,寻找的是y和x之间的联系,更确切的说是知道x怎么求y。所以x和y是两个本质不一样的量,一个是因,一个是果。现在再来看看题目里说的“应该用这样的直线,它使得每个点到直线的距离之和最小”,这种方法其实是将因果混为一谈了,试图在(x,y)这个向量空间里找一个最好的超平面。不说错误吧,这至少是一个不自然的逻辑。最小二乘的逻辑就自然多了。比如说我有一个因变量y和两个自变量x1,x2,它们在我观测到的样本里都表现为一个个的向量。最小二乘是在做什么呢?它是在观测到的x1和x2的向量所生成的线性空间中,找一个离观测到的y向量最近的点。从几何上看,这就是正交投影。很多回答提到最小二乘不一定最好,我们也可以用别的距离。这固然不错,但最小二乘的优越性恰恰体现在它最“自然”这一点上。我们最习惯的空间是有内积的欧式空间,如果用其它任何一种距离,这种“自然”的内积就没有了, @SlowMover的答案里提到的不变性就没有了。不用这个距离,最小方差(BLUE)的性质就没有了。不用这个距离,相当于是假设噪声服从另外一种分布,我在这个回答(为什么许多变量可以用正态分布很好地描述?)里已经解释过人们为什么喜欢用正态分布假设。说的高一点,整个现代科学的方法就是”归纳“和”演绎“两条。从归纳的角度出发,实际问题中碰到什么分布的噪声就应该用那种分布;从演绎的角度出发,什么方法最”自然“,最”漂亮“,最“易于理解”就尽量去用这种方法。欧式距离是最自然最直观的距离,正态分布是最常见最容易处理的噪声分布,自然最小二乘就是最优的方法咯。网友王芊对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:最小二乘的假设是高斯噪声,最大似然估计推导出来的,你不妨推一遍,Andrew Ng的视频里也有讲过你说的距离之和其实是一范数,是拉普拉斯噪声推导出来的具体用那种,看噪声的分布假设是什么网友蒙面大侠对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:看到 @慧航的回答,貌似没有区分清楚样本和总体的概念,参数和参数估计值的概念,这里我也从计量经济学的角度答一下。首先概述一下,计量中最核心的工作就是利用样本数据估计未知参数,OLS是其中的一种估计方法,估计方法所估计出来的估计量在特定条件下有一些性质(无偏、一致等等),这些性质决定了一个估计量的好与坏(在不同情况下),因此我应该这么回答题主的问题:OLS在哪些情况下有哪些较好的性质,使得在这些情况下OLS是比较适合作为估计方法的?1、OLS的估计对象既然OLS是一种估计方法,那么估计的对象就是参数,这个参数从何而来呢?假设y是因变量,x是自变量(可以为多个,是一个向量),记住,这个时候y和x都是随机变量(或随机变量组成的向量),而和数据、样本没有任何关系,在这一部分里讨论的都是总体的概念。对于计量经济学,主要关心y和x之间的以下两种关系:情况1:y=x'b+e,其中b为参数,是一个向量,e满足E(e|x)=0(e对x的条件期望为0)这种情况下x'b被称为y的条件期望函数(conditional expectation function,即CEF),而且在这种情况下,这个条件期望函数是线性的,所以这种情况又被称为linear CEF。下面也会说到,OLS估计量的小样本性质很多依赖于linear CEF的假设。PS:对于任意的y和x来说,y对x的CEF不一定是线性的关系,因此这种情况的假设更强,较为特殊。情况2:y=x'b+e,其中b为参数,是一个向量,e满足E(xe)=0(e与x不相关)这种情况下可以将b的形式解出来,b=[E(xx')]^(-1)*E(xy)。这种形式的x'b被称为y的线性最佳预测(best linear predictor,即BLP),也被称为y对x的CEF的最佳线性近似(best linear approximation,即BLA)。以上这几个结论都可以被证明,这里略去不表。PS:当y对x的CEF是线性关系,即linear CEF时,这时linear CEF刚好是x对y的BLP(BLA),因为E(e|x)=0可以推出E(xe)=0。但反之是不成立的。因此当linear CEF成立时,b同样等于b=[E(xx')]^(-1)*E(xy)。这时候我们OLS的估计对象就出现了,在两种情况下,感兴趣的未知参数都是b=[E(xx')]^(-1)*E(xy),那么我们要想办法利用样本数据把b估计出来。2、OLS估计方法以下进入涉及样本和数据的估计方法部分。为了与第一部分的总体概念区别开来,我用大写字母来表示样本而非总体的概念。为了简便表述,假设每个观测(yi,xi)都是独立同分布。首先假设X为n*k(即n行k列)的矩阵,其中n行代表n个观测样本,k列代表每个样本有k个变量。Y为n*1(n行1列)的矩阵(向量)。我们要估计的参数为b=[E(xx')]^(-1)*E(xy),用B代表对b的OLS估计,那么B=[X'X]^(-1)*[X'Y]。这就是大家熟悉的OLS估计量。为什么要用这个估计量呢,这就涉及到在不同假设条件下,OLS估计量有什么样的性质了,如果这些性质是好的,那么就可以justify我们对OLS估计量的使用是恰当的。3、OLS估计量的性质OLS估计量的性质取决于对于总体y与x关系之间的假定,根据在第一部分中的两种假定情况,有以下的一些性质。分为小样本性质和大样本性质,这里介绍一些比较重要的。小样本性质:(1)无偏性(unbiasedness)在情况1的假设下,E(B)=b,即OLS估计量是无偏的。形象地理解,对于同一个符合情况1的总体关系,每次产生100个观测,然后算出B(记为B(1)),然后重复100次这个过程,可以有B(1)到B(100)一共100个b的估计值,那么这100个的平均值大约就是b的真值。(2)有效性(efficiency)在情况1的假定下,加上同方差的假定(即var(e|x)=常数),那么OLS估计量不仅是无偏的,而且在所有的对b的线性无偏估计中,OLS估计量的条件方差是最小的,因此被称为“有效”的。也就是说,OLS是BLUE(best linear unbiased estimator)。需要注意的是OLS是BLUE这一结论,只有在情况1+同方差的假定下,再加上某些规范性条件(如E(xx')是正定矩阵,等等)的假设下才成立,这些假设被综述为高斯-马尔科夫条件(Gauss-Markov Theorem),计量教材上都有。大样本性质:(1)一致性(consistency)在情况2的假定下,B依概率收敛到b,即B是b的一致估计量,意思是随着样本量趋近于无穷,B与b之间存在任意小差距的概率为0。一致性是计量经济学家最为关心的估计量性质,一个估计量可以有偏,但只要它是一致的,那么一般都是可以接受的。证明基本上时应用了弱大数定理,计量教材中基本上也有。(2)渐进正态(asymptotic normal)假设样本量是n,那么在情况2的假定下(加上某些规范条件,如四阶矩有穷,等等),n^(0.5)*(B-b)随着n趋于正无穷,会趋于一个正态分布。这对做估计量的假设检验等就很方便了,证明基本上用到弱大数定理和中心极限定理。(3)渐进有效(asymptotic efficiency)与前面的不同这里需要其他的假设,引入情况3。情况3:y=x'b+e,其中b为参数,是一个向量,e为独立同分布的正态变量。情况3下,由于已知误差项具体的分布,可以应用极大似然估计量(maximum likelihood estimator,即MLE),而在误差为独立同分布正态的情况下,解出来的MLE估计量B‘刚好是[X'X]^(-1)*[X'Y],即刚好与OLS估计量是相同的。在分布正确设定的情况下,MLE估计量有一个非常好的性质,即渐进有效性。意思是随着样本趋于正无穷时,MLE估计量的渐进方差是所有一致估计量中最小的。所以在误差为独立同分布正态的假设下,OLS估计量刚好是MLE估计量,因此具有渐进有效性。个人认为渐进有效性是一个估计量所能达到的最完美的性质了。此外OLS估计量在某些假设下还有所谓的半参有效性(semi-parametric efficiency)等等,可能不是太过重要,所以这里不详细说了。4、题主提到的最小距离之和题主提到的这种方法应该是有的,叫做least absolute deviation estimator(LADE)。LADE估计量的好处相对于OLS来说,是比较稳健,对异常值相对更不敏感,在比较复杂的计量技术里面也有应用(比如当应用heckman两步法时如果误差不符合正态分布,那么LADE是稳健的估计)。至于为什么一开始不用LADE而用OLS,我想应该是在优化目标函数时,平方项可以求导而绝对值无法求导吧。先写这么多,以后想到再补充,欢迎探讨!网友zero对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:因为考虑的函数是方差网友蒙面大侠对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:有了 @Jichun Si 提到的正交投影,就有了以下这个结论:最小二乘法可以让你只需要估计一次就能得到各个右手边变量对左手边变量的“纯”影响。假设你的模型是且满足最小二乘法的所有条件。如果你把里的“点”(这里一“点”指一列)分成两组,的话,那么当你要估计里的(对“纯”的影响)时,你可以有两种做法:先用最小二乘法估计,计算出残差――这一步把中可以被解释的那部分“去掉”了。然后再用最小二乘法去估计,计算出残差――这一步把中可以被解释的那部分“去掉”了。最后再用一次最小二乘法去估计,得到“纯”的对的影响。直接用一次最小二乘法去估计你的模型,得到。而其实通过这两种方法得到的,:这就是 Frisch-Waugh-Lovell 定理。它是最小二乘法之所以经久不衰的最最最根本的原因之一。而它的证明正是用到了正交投影矩阵。另外,@王芊 认为如果假设了高斯噪声,即,普通最小二乘法可以从极大似然法推导得到。然而,事实并非如此。如果我们有个数据点,个右手边变量,那么用普通最小二乘法估计得到的是无偏的,而众所周知用极大似然法估计得到的则是有偏的。网友匿名用户对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:题目应该是想问这样一个问题:在做线性回归的时候,为什么理想的直线,是离每个点的距离的平方和最小,而不能是这条直线离每个点的距离的绝对值之和最小?换言之,我是否可以用这样的直线,它使得每个点到直线的距离之和最小。我们先看如何评估线性回归的好坏:假设现在有这样的样本:现在我们需要拟合一条直线出来,理论上,用不同的方法,我们可以拟合各路的直线,假设像这样:现在我们需要拟合一条直线出来,理论上,用不同的方法,我们可以拟合各路的直线,假设像这样:假如现在我们可以拟合上面三条不同的直线,应该如何评估哪条直线最为准确?可以这样想,假如我再加一个点上去,新加的这个点离哪条直线最近的概率最大,哪条直线就是最优的。譬如我现在添上一万个点,发现有9000个点都离蓝色的那条线最近,而只有1000个点不是离它最近,那我们可以就可以说蓝色的这条线是最优的。假如现在我们可以拟合上面三条不同的直线,应该如何评估哪条直线最为准确?可以这样想,假如我再加一个点上去,新加的这个点离哪条直线最近的概率最大,哪条直线就是最优的。譬如我现在添上一万个点,发现有9000个点都离蓝色的那条线最近,而只有1000个点不是离它最近,那我们可以就可以说蓝色的这条线是最优的。基于这样的理解再来看题目的问题,能不能选一条直线,它使得每个点到直线的距离之和最小?我的理解是,采用何种方法拟合取决于样本的噪声(对直线的偏移)符合何种分布。假设噪声服从高斯分布,这时最大似然就和最小二乘法等价,原因如下:高斯分布:噪声服从高斯分布的意思就是说,样本取值的期望 u 落在我们将要拟合的直线上,但是大自然会给它一个偏差,这个偏差的多少,则服从上式分布,譬如偏差在两个标准差内的概率是95.449974%。这里的每一个样本都独立同分布,于是他们的联合概率应该满足:累乘的结果就是后面的乘项省略。。然后,这些exp相乘的话就是指数相加,指数部分就变为:下面的分母提出来,就成了:这已经就是最小二乘的样子了,上面的期望, 便是直线上的理想预测结果,x便是实际的结果。最小二乘法是要求平方和尽可能小,上式前面加上了负号,也就是上式尽可能大,上式是一个指数,指数越大,便是联合概率越大,联合概率越大,便表示,样本的落点越有可能贴近拟合的直线。这样便符合我们一开始讨论的理解。若噪声服从拉普拉斯分布呢?此时的概率分布就成了这样:可以看到这里的指数不再是平方,而是绝对值,也就符合了题目说的情况,选一条直线,它使得每个点到直线的距离之和最小。用同样的办法可以得出,若噪声服从拉普拉斯分布,那拟合出一条直线,它满足到各点距离之和最小,那对于新样本的预测就最有可能靠近这样的一条直线。所以结论就是,采用何种方法拟合取决于样本的噪声被假定为何种分布,而在自然情况下该噪声服从高斯分布,所以这时做线性回归应该用最小二乘法。个人看法而已,若有不对的地方,麻烦指正。网友改之理zcw对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:你说的应该只是一部分。高斯马尔科夫定理中,ols是blue,也就是最佳、线性、无偏,估计。所谓的最佳,就是方差最小。ols是所有线性无偏估计中方差最小的。但是高斯马尔科夫定理不成立的情况下,例如异方差,ols即使无偏估计,也不能保证方差最小。从你的问题补充上看,这条直线保证与每个点的距离之和最小,其实是假设这些点平均来说本来就该落在这条直线上,只是因为一些随机因素从这条直线上蹦出来了,因为这些随机因素是同分布的,所以蹦出来的距离和波动都应该差不多。但是如果这些点的波动越来越大呢?随着x的提高,这些点蹦出直线的波动越来越大,可以想象这些点近似一个45度的从原点出发的圆锥,这时候什么样的直线能够拟合这些点?这时候就应该对每一个x加一个权重,由于方差越大的波动越大,对这个x加一个较小的权重,这种加权最小二乘法,才能了blue。所以ols的优良性质是有前提条件的。比异方差更强的假设是服从正态分布。这种情况下,其实ols不但是最佳线性无偏估计,而且在所有非线性和线性估计中,它都是方差最小的。但是不满足这些假设的情况下,ols的最优就无从谈起。网友蒙面大侠对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:题主提到:每个点到直线的距离之和最小这个根据欧式空间下点到直线的距离定义,用数学式子表示出来就是L2-norm的minimization.所以最小二乘是这个最优化式的解析解。网友管清文对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:不同意楼上 @王芊的说法,我个人是这么认为的:对于线性回归,无论用LSE(最小二乘估计)还是MLE(极大似然估计),都是基于不同的假设而已,LSE是直接假设object function,而MLE假设的是distribution,这里在gauss noise下,他们恰好formula相同而已。anyway,他们都不一定会match ground truth。至于假设是否靠谱,我们还得通过假设实验进行验证。网友李国华对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:线性回归考虑的模型是,是误差项,就是说我们假设是没有误差的,误差都在的测定上。假如都有误差,LZ的方法是合理的,而且这个方法就是PCA的第一个主成分。举个例子,考虑不同身高的人的体重,假如你的目的是得到一个先验的根据体重估计身高的公式,就应该用线性回归,假如你的目的是研究两者的相关性,就应当用PCA。网友蒙面大侠对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:因为假设对x的测量无误差,所以最小二乘中x和y是不对称的如果加上x的测量可能有误差.........额,太麻烦了,我不想算网友岩岩对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:孩子,多读书,少下结论。楼上有人说OLS三性,贝叶斯也都有啊,数学推倒更严谨,我倒认为更可信。现在,至少在前沿金融方面,贝叶斯越来越流行啊。你之所以觉得OLS好是因为OLS好理解,贝叶斯不好理解。还有信度理论,不太了解,但是你以为那些数学家吃素的。没有OLS精准的话,这些数学家能提出来?看看这些理论是什么年代的,OLS理论是什么年代的。借用某位清华数学出身的学长的话,如果你本科不是学数学的,而是学经济类的话,你本科毕业了还没有进入19世纪。嗯,学了贝叶斯你快进入20世纪了。网友蒙面大侠对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:通常做回归拟合时,都要求最大限度的拟合数据,也就是常说的经验风险最小,这样的拟合过程中用到极大似然原则,而在假定误差符合正态分布(高斯分布)的情况下(根据中心极限定理,自然界大部分都是符合正态分布的),最小二乘等价于极大似然推荐看 陈希儒的数理统计简史,里面有详细讲到最小二乘法的来历,以及后来发现的理论解释最小二乘法比高斯分布先出现,但是最开始只是一个经验,当时的天文学家门在处理数据的过程中应用了平方误差作为优化目标,但并没有太多的理论证明也就没法从本质上解释为什么最小二乘法就是合理的,直到高斯出现,发现了正态分布,然后高斯从极大似然的角度,推导出了最小二乘法。这既解释了最小二乘法,又反过来说明了高斯分布的合理性和普遍性网友马拉轰对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:看错了 删------------------我能想到的原因有三个:一,最小二乘问题直接解矩阵就能算,用起来简便。二,假设误差iid正态分布,最小二乘给出的参数是最大似然估计。正态分布最常用,有各种好性质。三,假设误差同方差,零均值,不相关,最小二乘给出的参数是最好无偏估计,最好的定义是参数方差最小。(Gauss-Markov Th.)实际上后两条的假设一般都是不成立的,常用的真正原因是第一条。网友Earthson Lu对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:这其实主要问题在于,你拟合的是一个函数,还是仅仅是一条直线。一次函数和几何上的一条直线,虽然看起来一样,但意义却是不同的。对函数来说,偏差是|y-f(x)|,而不是点到直线的欧式距离。- - - -另外,由中心极限定理,误差往往都满足高斯分布(误差往往是很多扰动共同作用的)。这里最小二乘得到该分布的极大似然估计。网友mt Practices对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:(我之前也往往会把最小二乘法的目标函数与距离混淆)1 如果是做线性回归,那么是一类统计问题。在统计学中,高斯-马尔可夫定理解释了在统计评价指标中,为什么最小二乘法是最佳线性无偏估计。可参见维基百科http://zh.wikipedia.org/wiki/%E9%AB%98%E6%96%AF%EF%BC%8D%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E5%AE%9A%E7%90%86根据你后面的问题,有可能你对统计方面的一些知识还不太熟悉。最小二乘法是数学中会经常用到的一种方法,是通过误差的最小平方和得到拟合函数的参数。(知乎上的数学公式输入语句还不全),你可以去维基上搜索关于最小二乘法的定义。由于是误差就是预测值与观测值的差,其平方和与二维空间中的欧式距离是一样的,所以可以使用欧几里得度量去表达;2 所以在最简单的一元线性函数拟合中,最小二乘法的目标函数就简化成,每个点与直线上的估计值的距离(二维欧式距离)之和最小;******************************************3 也不是你说的点到直线的距离之和最小;我想,做线性回归分析的这些点是样本点,所以你应该考虑的是样本点与它的估计值之间的误差,而点到直线的距离,往往很多时候点到直线的垂线所交的垂足,并不是样本点的估计值,所以从统计上来看意义不大;网友比如先生对[加权最小二乘法]在进行线性回归时,为什么最小二乘法是最优方法?给出的答复:在经典假设(正态分布不是必要条件)下,OLS是Best Linear Unbiased Estimator,即无偏估计量中标准误(standard error)最小的。建议题主拿任何一本入门级计量书籍看一下,可以从伍德里奇的经典《现代计量经济学:导论》开始欢迎您转载分享:
更多精彩:}

我要回帖

更多关于 正态分布最大似然估计 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信