相关性是什么意思一致渐近是什么意思

 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
《计量经济学》第四章习题及参考答案
下载积分:20
内容提示:《计量经济学》第四章习题及参考答案
文档格式:DOC|
浏览次数:297|
上传日期: 15:31:10|
文档星级:
该用户还上传了这些文档
《计量经济学》第四章习题及参考答案.DOC
官方公共微信第六章 序列相关性(计量经济学-浙江大学 韩菁)_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
文档贡献者
评价文档:
喜欢此文档的还喜欢
第六章 序列相关性(计量经济学-浙江大学 韩菁)
把文档贴到Blog、BBS或个人站等:
普通尺寸(450*500pix)
较大尺寸(630*500pix)
大小:291.50KB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢◆ 学习目的。第七章 序列相关性。◆。序列相关性的影响。第一节。序列相关性及其..
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
计量经济学 第9章
序列相关性
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口在统计学中为什么要对变量取对数?
对数据做一些变换的目的是它能够让它符合我们所做的假设,使我们能够在已有理论上对其分析。对数变换(log transformation)是特殊的一种数据变换方式,它可以将一类我们理论上未解决的模型问题转化为已经解决的问题。我将说两类比较有代表性的模型。理论上:随着自变量的增加,因变量的方差也增大的模型。先给个很经典的例子,如分析美国每月电力生产数。左边是正常数据,可以看到随着时间推进,电力生产也变得方差越来越大,即越来越不稳定。这种情况下常有的分析假设经常就不会满足(误差服从独立同分布的正态分布,时间序列要求平稳)。这必然导致我们寻求一种方式让数据尽量满足假设,让方差恒定,即让波动相对稳定。而这种目的可以通过对数转换做到。理论上,我们将这类问题抽象成这种模型,即分布的标准差与其均值线性相关。即,其中。由定义可推:,利用log函数的性质:(当x足够小)那么.那么很容易就知道和.所以对数变换能够很好地将随着自变量的增加,因变量的方差也增大的模型转化为我们熟知的问题。经验上:研究数据的增长率分布存在一定规律的模型。再给个例子:实际研究中,某一研究对象自身性质难以研究,但其增长率是服从一定分布。例如说:,其中是每年增长率(不很大)。我们可以考虑对数变换:这样,我们又可以将研究数据的增长率分布存在一定规律的模型转化为我们熟知的问题。在对数转换后,人们又思考了很多其他的转换方式(如Cox-Box转换)。但总而言之,每一种转换方式都是为了让数据符合我们的假设,来对其进行分析。我所说的对数变换原因只是冰山一角,如有不正确的地方还请各位多多指正。
我来补充一下,经济学家怎么看这个问题。首先,最高票 的答案从异方差的角度来回答这个问题,是从数据出发来解释为什么取对数。但是这里有两点需要注意:做OLS回归的时候,异方差对系数估计的一致性没有影响,但是对假设检验有影响。计量经济学看中DGP,也就是数据生产过程。而取不取对数取决与研究人员对DGP的belief是怎样的,而这种belief是从理论或者直觉上来的的答案从数据分布上来讲,但是更有意思的问题是,为什么很多数据是这样的分布。取对数的原因很简单,经济学理论大多可以得到取对数的函数形式,或者直觉告诉我们,不取对数与现实不符。举几个例子:人口这个应该是最容易理解的,如果不考虑自然条件的限制,生物的种群总是指数增长的:,其中为人口,为人口的自然增长率。现在我们假设有两个国家,两个国家的人口一般说来是增长率的差异,比如差,所以模型可以写成:,整理一下就可以写成。如果你写成是什么意思呢?每年国家1比国家2多个人,这样显然不现实。GDP这个可以从生产函数导出。这个生产函数形式是经济学最常用的。也许你会说,这个生产函数是个假设,我也可以假设的形式啊。但是如果你这样假设,会跟现实差距很大,比如用C-D的假设可以得出GDP的增长率跟劳动和资本的增长率大约是同阶的,但是用线性的就得不到。还有很多其他的观察,比如规模报酬、要素的替代等等。一个假设肯定是以为其对现实拟合的很好才会被保留下来的(这里的拟合不仅仅是直接的拟合,还包括理论的其他推论的拟合)。国际贸易也就是我们说的引力模型了。如果你假设了消费者的适当的效用函数形式以及以上的生产函数形式,经过一系列复杂的一般均衡的推导,可以得到两个国家之间的贸易量有如下形式:其中左手边是两个国家之间的贸易量,右手边是两个国家的产出和距离。做回归的时候,自然也就得到了log的形式。Matching Function具体我就不介绍了,可以看Shouyong Shi 的文章&Pricing and Matching with Frictions&。这个函数的右手边是市场上工作的个数和工人的个数,左手边是匹配成功的个数。以下的函数形式也是在很简单的假设下推导出来的,当n m很大的时候,这个函数也是慢慢变成齐次的,用C-D来表示是个很好的近似:其他例子我就不举了。其实仔细想一下这个问题,理论都是基于假设,而理论的验证则是看理论的推测是不是满足现实。所以剩下来的没有被抛弃的理论都是前人经验没有推翻的。所以,与其说是理论告诉我们要取对数,还不如说是前人的经验告诉我们,绝大多数level的变量都要取对数。
To transform or
not to transform? That is the question!总的说来,对数变换是数据变换的一种常用方式,数据变换的目的在于使数据的呈现方式接近我们所希望的前提假设,从而更好的进行统计推断。但需要注意的是,数据是离散变量时进行对数变换要额外小心!
当然,我们可以追问的更多:(Why)为什么需要做数据变换?从直观上讲,是为了更便捷的发现数据之间的关系(可以理解为更好的数据可视化)。举个栗子,下图的左图是各国人均GDP和城市人口数量的关系,可以发现人均GDP是严重左偏的,并且可以预知在回归方程中存在明显的异方差性,但如果对GDP进行对数变换后,可以发现较明显的线性关系。为什么呢?因为我们度量相关性时使用的Pearson相关系数检验的是变量间的线性关系,只有两变量服从不相关的二元正态分布时,Pearson相关系数才会服从标准的t-分布,但如果变量间的关系是非线性的,则两个不独立的变量之间的Pearson相关系数也可以为0.所以,数据变换后可以更便捷的进行统计推断(t检验、ANOVA或者线性回归分析)。例如通常构造估计量的置信区间时是使用样本均值加减两倍标准差的方式,而这就要求样本均值的分布是渐近正态分布,如果数据呈现出明显的偏度,则此时使用上述统计推断方式就是不适用的;另外,最经典的例子就是回归分析中的异方差性,误差项的方差随着自变量的变化而变化,如果直接进行回归估计残差的方差会随着自变量的变化而变化,如果对变量进行适当变换,此时残差服从同一个正态分布。2.
(Why)为什么可以做数据变换?这个问题很难,每当做数据变换时,禁不住会想这样原始的数据信息是否经过变换后存在损失?数据变换有没有标准程序?原始数据的统计推断又该怎么进行?我也没有完全理清思路,但想通过几个例子抛砖引玉。先从理论情形下去考虑,例子1,如果一个数是连续的,并且服从对数正态分布,,可以很容易知道的概率密度函数(PDF),这样,此时可以看到已知变换后的数据的统计特征可以反过来推导出原始数据的统计特征,不存在数据信息的损失(可以看到对数转换后变量的均值可以直接由样本数据的均值得到,但不进行变化却需要由样本均值方差两方面去推断得到);例子2,如果一个数是离散的,服从负二项分布,概率质量函数(PMF)可以写成,如果对这个变量进行对数变换后,情形又会怎样呢?此时,,假设数据的生成过程服从负二项分布,并且在不同的下模拟生成数据,再用不同的方式去估计,可以设计评价指标,可以看到不同的数据变换方式下的估计精度是不同的。可以看到,如果假设数据服从负二项分布,估计的误差很小,如果假设数据对数变换后服从正态分布时会出现较大误差(由于离散分布时数据可以取0,此时对数变换需要用的形式,可以发现的取值并非随意),如果假设数据根号变换后服从正态分布时的误差要小于对数变换。所以,从一个小的随机模拟实验可以看出,数据的变换方式并非随意,并且对数变换也不一定是最好的变换,尤其是离散数据情况下(详见"Do not log-transform count data").但上述仅仅是在理论前提下数据变换的讨论,但实际应用中呢?理论前提下,即使再复杂总能找到处理的办法,但应用问题却没有标准答案。在我看来,数据变换方法的使用更是一门艺术(先验知识+经验+运气),需要结合应用领域的专门知识。例如,在宏观计量中,许多不平稳的经济数据要进行时间序列建模,就需要进行差分变换或者去除趋势,按照经济增长理论,经济数据应该存在趋势,那对数据应该进行去除趋势变换,但后来实证发现数据进行差分变换后的ACF/PACF图更符合模型的假设,这就要求建模时使用差分变换而非去除趋势变换(从理论上可以证明一个非平稳的变量如果错误进行变换仍然是非平稳的),所以这就存在困惑(貌似说的有点远……)。
至于,怎么去做数据变换(Box-Cox正态性变换还是均匀变换)?(When)什么时候需要做什么样的数据变换?(What)数据变换后的结果是什么,如何解释?当理清上述两个为什么时,我想应该基本就能回答了。当然,我的回答一定还存在问题与遗漏,不当之处还望指正^_^
我们老师说,是因为经济数据大多数都是偏态分布,比如收入GDP之类的,而且大多是右偏的。取对数可以将大于中位数的值按一定比例缩小,从而形成正态分布的数据。这对做计量模型,解决异方差问题都是很有帮助的。
一般当研究自变量和应变量的弹性关系的时候,需要取对数,得到的参数解释的是,在其他条件不变的前提下,当自变量变化1%时,因变量(若也取了对数)变化a%。另外,在作线性回归分析的时候,如果变量不满足正态分布,但取了对数以后满足或接近正态分布,则可以取对数以后作回归。
当变量程指数增长的时候,如果不取对数,就会有大量的信息被堆积在零附近。而取了对数,就可以把这些信息展开来了。
前面各位都解释的很专业,这里我想从另外一个角度来扩展一下,希望可以丰富答案多样性。
------------------------------------------------日常生活和工作中离不开自然计数法,但在一些自然科学和工程计算中,对统计量的描述往往采用对数计数法。从人的心理感知的角度来说,在这些场合用对数形式描述变量是因为它们符合人的心理感受特性。在一定的刺激范围内,当所研究的变量呈指数变化时,人们的心理感受是呈线性变化的,这就是心理学上的韦伯-费希钠定律。它揭示了人的感官对宽广范围刺激的适应性和对微弱刺激的精细分辨,好像人的感受器官是一个对数转换装置一样。生活中的例子大家可以参考一下八度音程和十二音律的概率还有分贝的应用。采用对数描述变量,一是如上面各位所说的变化率的问题。二是用对数能够描述较大的动态范围。三是符合人的心理感知特性。
取对数之后乘法就变成了加法,不确定性的分析也就变成了信息量的分析。传统的概率论和信息论的桥梁就是对数。
都没说到点子上, 楼主问的是统计学意义上取对数. 取对数的原因是 (1) 时间序列和面板数据, 都要做平稳的单位根检验, 取对数一般能使序列平稳(stationary), 不然就取差分进行平稳. (2) 能使模型的残差呈现随机的特性, 而不是趋势或者截距. (3) 减少共线性和异方差(heteroscedasticity)出现的概率 (4) 有经济学意义上, 比如增长率, 变化率和弹性. (5) 统计学认为变量具有内在的指数增长的趋势, 取对数可以让联合分布 (对应的F-statistics)呈现正态, level形式的数据, 特别是时间序列, 最好做Lavene检验(6) Log-linearization 取对数方便最小二乘的线性拟合, 乘积运算用对数就变成了求和.
从计量经济学实证的角度说两点:1. 将数据取对数有一定的经济含义。log(1+x)=x,这个关系在x比较小的时候接近成立。因此数据取对数之后再差分有增长率的含义,举个例子:log(GDP_year2)-log(GDP_year1)=log(GDP_year2/GDP_year1)=(GDP_year2/GDP_year1)-1,即GDP的增速。取对数之后可以比较方便地研究增长率的问题。2. 将右偏的数据形态变为正态。首先什么是“右偏”?图像上看,右偏是这种形态的分布:简而言之,分布非对称,右边的尾部偏长,表示有一些非常大的极端值,大部分样本的数据集中在偏左的部分。简而言之,分布非对称,右边的尾部偏长,表示有一些非常大的极端值,大部分样本的数据集中在偏左的部分。而在计量经济学的应用中,通常希望分布是正态的,或者至少是对称的,既不往左也不往右偏,也就是下面这种形状:大多数的经济数据都是呈右偏的形态,如收入分布,企业的资产规模,等等,取了对数之后可以一定程度地修正数据的右偏形态,使其更接近于正态。大多数的经济数据都是呈右偏的形态,如收入分布,企业的资产规模,等等,取了对数之后可以一定程度地修正数据的右偏形态,使其更接近于正态。数据的正态性对于统计量的各种小样本性质,统计量的有限样本分布,极大似然估计方法的应用都有比较重要的含义。
很多变量诸如gdp,是随着时间的推移与日俱增的。而大多数研究关注的是变量的周期成分,而不是其趋势成分,这也就是我们为什么要滤波,要去趋势。对数化我觉得感性上理解也是一种去趋势的方法,它和移动平均、滤波等一样,是为了拨开趋势的迷雾,让你能更清楚地看清变量变化的本质。
把一些非线性的东西变成线性的。,。
想到极大似然估计中的取对数,把连续乘机通过转换成求和形式。例如:取对数之后转化为拉格朗日乘数法求得极值得出极大似然估计。还有在信号处理中,通常在描绘幅频特性曲线的时候,横坐标为 Hz 的时候非常麻烦,有的元件通频带很宽达到 M 级,总不可能在一张纸中分割出1M 个小格子吧。取对数之后就方便很多了。========================楼上的公式表达有误===============================
使变量线性化
总结一下:1.研究的自变量数量级不一致时,取对数可消除这种数量级相差很大的情况。2.取对数可以消除异方差。3.取对数可以使非线性的变量关系转化为线性关系,更方便做参数估计。
简单来说,就是通过一些转换更好的解释模型。对数转换是Link Function的一种形式。比如数据中Y大量是0,1分布,如果用一般的线性回归不能很好的解释。另外,这样转换之后,模型中是没有误差项的。For more information..可以看看常用模型会更好理解。Wiki中都有很详细的信息了。Logistic Regression. Poisson Regression. General Linear Model.
Log transformation is just one way to make the skewed distribution less skewed. For parametric statistical methods, it helps to satisfy the assumption of inferential statistics. For non-parametric methods, it does not matter if the data is skewed or not. Log is not the only way to make the transformation, box-cox method could help you find the best transformation for your data. however log is indeed the most powerful one.
具体点的例子和应用:双对数坐标系:取对数就是为了使参数线性化,进而计算或者估计参数。这个坐标系在经济领域也有很多应用,见wiki
一句话,为了让数据尽量符合你心里已经有的结论
interpretation 方面可以从 semi-elasticity 或者elasticity来interpret 就是log form前面的parameter可以用百分比的形式来译 然后就想上面各位说的 log likelihood function
derivation的时候方便 还能解决clustering的问题
来知乎,参与讨论}

我要回帖

更多关于 外盘内盘是什么意思 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信