在统计学中为什么要对自变量取对数的意义

点击联系发帖人 时间：2016-03-06 04:11

变量取对数比例

在统计学中为什么要对变量取对数_百度知道
在统计学中为什么要对变量取对数
提问者采纳
//www请参见知乎上各位大牛专业的答案, level形式的数据.zhihu.zhihu, 而不是趋势或者截距.com/question/" target="_blank">http. (5) 统计学认为变量具有内在的指数增长的趋势. (2) 能使模型的残差呈现随机的特性, 乘积运算用对数就变成了求和://www, 取对数一般能使序列平稳(stationary), 变化率和弹性, 比如增长率, 都要做平稳的单位根检验.com/question/简单总结.望采纳：(1) 时间序列和面板数据, 不然就取差分进行平稳, 特别是时间序列, 最好做Lavene检验(6) Log-linearization 取对数方便最小二乘的线性拟合. (3) 减少共线性和异方差(heteroscedasticity)出现的概率 (4) 有经济学意义上, 取对数可以让联合分布 (对应的F-statistics)呈现正态：<a href="http
其他类似问题
为您推荐：
其他1条回答
保证线性相关。
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁取对数之后乘法就变成了加法，不确定性的分析也就变成了信息量的分析。传统的概率论和信息论的桥梁就是对数。
对数据做一些变换的&b&目的是它能够让它符合我们所做的假设，使我们能够在已有理论上对其分析。&/b&&br&&br&对数变换(log transformation)是特殊的一种数据变换方式，&b&它可以将一类我们理论上未解决的模型问题转化为已经解决的问题。&/b&我将说两类比较有代表性的模型。&br&&br&&ul&&li&&b&理论上：随着自变量的增加，因变量的方差也增大的模型。&/b&&br&&/li&&/ul&先给个很经典的例子，如分析美国每月电力生产数。&img src=&/060e72c57bb1e8b8b7eb_b.jpg& data-rawwidth=&814& data-rawheight=&331& class=&origin_image zh-lightbox-thumb& width=&814& data-original=&/060e72c57bb1e8b8b7eb_r.jpg&&&br&左边是正常数据，可以看到随着时间推进，电力生产也变得方差越来越大，即越来越不稳定。这种情况下常有的分析假设经常就不会满足（误差服从独立同分布的正态分布，时间序列要求平稳）。&br&这必然导致我们寻求一种方式让数据尽量满足假设，&b&让方差恒定，即让波动相对稳定&/b&。而这种目的可以通过对数转换做到。&br&&br&理论上，我们将这类问题抽象成这种模型，即&b&分布的标准差与其均值线性相关&/b&。&br&即&img src=&///equation?tex=%5Csqrt%7BVar%28Z_%7Bt%7D%29%7D+%3D%5Cmu+_%7Bt%7D%5Ctimes+%5Csigma+& alt=&\sqrt{Var(Z_{t})} =\mu _{t}\times \sigma & eeimg=&1&&,其中&img src=&///equation?tex=E%28Z_%7Bt%7D%29+%3D%5Cmu+_%7Bt%7D+& alt=&E(Z_{t}) =\mu _{t} & eeimg=&1&&。&br&由定义可推：&img src=&///equation?tex=Z_%7Bt%7D%3D%5Cmu+_%7Bt%7D%5Cleft%28+1%2B%5Cfrac%7BZ_%7Bt%7D-%5Cmu+_%7Bt%7D%7D%7B%5Cmu+_%7Bt%7D%7D++%5Cright%29+& alt=&Z_{t}=\mu _{t}\left( 1+\frac{Z_{t}-\mu _{t}}{\mu _{t}}
\right) & eeimg=&1&&,利用log函数的性质：&img src=&///equation?tex=log%281%2Bx%29%5Capprox+x& alt=&log(1+x)\approx x& eeimg=&1&&(当x足够小)&br&那么&img src=&///equation?tex=log%28Z_%7Bt%7D%29%5Capprox+log%28%5Cmu+_%7Bt%7D%29%2B%5Cfrac%7BZ_%7Bt%7D-%5Cmu+_%7Bt%7D%7D%7B%5Cmu+_%7Bt%7D%7D+& alt=&log(Z_{t})\approx log(\mu _{t})+\frac{Z_{t}-\mu _{t}}{\mu _{t}} & eeimg=&1&&.&br&那么很容易就知道&img src=&///equation?tex=E%28log%28Z_%7Bt%7D%29%29+%5Capprox+log%28+%5Cmu+_%7Bt%7D%29& alt=&E(log(Z_{t})) \approx log( \mu _{t})& eeimg=&1&&和&img src=&///equation?tex=Var%28log%28Z_%7Bt%7D%29%29+%5Capprox+%5Csigma+%5E%7B2%7D+& alt=&Var(log(Z_{t})) \approx \sigma ^{2} & eeimg=&1&&.&br&&br&所以对数变换能够很好地将&b&随着自变量的增加，因变量的方差也增大的模型&/b&转化为我们熟知的问题。&br&&br&&ul&&li&&b&经验上：研究数据的增长率分布存在一定规律的模型。&/b&&/li&&/ul&再给个例子：实际研究中，某一研究对象自身性质难以研究，但其增长率是服从一定分布。例如说：&img src=&///equation?tex=Z_%7Bt%7D%3D%281%2BX_%7Bt%7D%29+%5Ctimes+Z_%7Bt-1%7D& alt=&Z_{t}=(1+X_{t}) \times Z_{t-1}& eeimg=&1&&,其中&img src=&///equation?tex=X_%7Bt%7D& alt=&X_{t}& eeimg=&1&&是每年增长率（不很大）。&br&我们可以考虑对数变换：&img src=&///equation?tex=log%28Z_%7Bt%7D%29-log%28Z_%7Bt-1%7D%29%3Dlog%5Cleft%28++%5Cfrac%7BZ_%7Bt%7D%7D%7BZ_%7Bt-1%7D%7D++%5Cright%29%3Dlog%5Cleft%28+1%2BX_%7Bt%7D+%5Cright%29%5Capprox+X_%7Bt%7D& alt=&log(Z_{t})-log(Z_{t-1})=log\left(
\frac{Z_{t}}{Z_{t-1}}
\right)=log\left( 1+X_{t} \right)\approx X_{t}& eeimg=&1&&&br&这样，我们又可以将&b&研究数据的增长率分布存在一定规律的模型&/b&转化为我们熟知的问题。&br&&br&&br&在对数转换后，人们又思考了很多其他的转换方式（如Cox-Box转换）。但总而言之，每一种转换方式都是为了让数据符合我们的假设，来对其进行分析。我所说的对数变换原因只是冰山一角，如有不正确的地方还请各位多多指正。
对数据做一些变换的目的是它能够让它符合我们所做的假设，使我们能够在已有理论上对其分析。对数变换(log transformation)是特殊的一种数据变换方式，它可以将一类我们理论上未解决的模型问题转化为已经解决的问题。我将说两类比较有代表性的模型。理论上：…
To transform or
not to transform? That is the question!&/p&&p&总的说来，对数变换是&b&数据变换&/b&的一种常用方式，数据变换的目的在于使数据的呈现方式接近我们所希望的前提假设，从而更好的进行&b&统计推断&/b&。但需要注意的是，数据是&b&离散变量&/b&时进行对数变换要额外小心！&/p&&p&
当然，我们可以追问的更多：&/p&&ol&&li&(Why)&b&为什么需要&/b&&b&做数据变换？&/b&&/li&&/ol&&ul&&li&从直观上讲，是为了更便捷的发现数据之间的关系（可以理解为&b&更好的数据可视化&/b&）。举个栗子，下图的左图是各国人均GDP和城市人口数量的关系，可以发现人均GDP是严重左偏的，并且可以预知在回归方程中存在明显的异方差性，但如果对GDP进行对数变换后，可以发现较明显的线性关系。为什么呢？因为我们度量相关性时使用的Pearson相关系数检验的是变量间的&b&线性关系&/b&，只有两变量服从不相关的二元正态分布时，Pearson相关系数才会服从标准的t-分布，但如果变量间的关系是非线性的，则两个&b&不独立的变量&/b&之间的Pearson相关系数也可以为0.&img src=&/33b7fe3b210e67da2c077_b.jpg& data-rawwidth=&616& data-rawheight=&203& class=&origin_image zh-lightbox-thumb& width=&616& data-original=&/33b7fe3b210e67da2c077_r.jpg&&&/li&&li&所以，数据变换后可以更便捷的进行统计推断(t检验、ANOVA或者线性回归分析)。例如通常构造估计量的置信区间时是使用样本均值加减两倍标准差的方式，而这就要求样本均值的分布是渐近正态分布，如果数据呈现出明显的偏度，则此时使用上述统计推断方式就是不适用的；另外，最经典的例子就是回归分析中的异方差性，误差项的方差随着自变量的变化而变化，如果直接进行回归估计残差的方差会随着自变量的变化而变化，如果对变量进行适当变换，此时残差服从同一个正态分布。&/li&&/ul&2.
(Why)&b&为什么可以&/b&&b&做数据变换？&/b&&ul&&li&这个问题很难，每当做数据变换时，禁不住会想这样&b&原始的数据信息&/b&是否经过变换后存在损失？数据变换有没有&b&标准程序&/b&？&b&原始数据的统计推断&/b&又该怎么进行？我也没有完全理清思路，但想通过几个例子抛砖引玉。&/li&&li&先从&b&理论&/b&情形下去考虑，例子1，如果一个数是连续的，并且服从&b&对数正态分布&/b&，&img src=&///equation?tex=ln%28X%29%5Csim+N%28%5Cmu%2C%5Csigma%5E%7B2%7D%29& alt=&ln(X)\sim N(\mu,\sigma^{2})& eeimg=&1&&，可以很容易知道&img src=&///equation?tex=X& alt=&X& eeimg=&1&&的概率密度函数(PDF)&img src=&///equation?tex=f_%7BX%7D%28x%29%3D%5Cfrac%7B1%7D%7Bx%5Csqrt%7B2%5Cpi%7D%5Csigma%7D+e%5E%7B-%5Cfrac%7B%28lnx-%5Cmu%29%5E2%7D%7B2%5Csigma%5E%7B2%7D%7D+%7D+& alt=&f_{X}(x)=\frac{1}{x\sqrt{2\pi}\sigma} e^{-\frac{(lnx-\mu)^2}{2\sigma^{2}} } & eeimg=&1&&，这样&img src=&///equation?tex=E%28X%29%3De%5E%7B%5Cmu%2B%5Cfrac%7B%5Csigma%5E%7B2%7D%7D%7B2%7D%7D& alt=&E(X)=e^{\mu+\frac{\sigma^{2}}{2}}& eeimg=&1&&&img src=&///equation?tex=Var%28X%29%3D%5Cleft%28+e%5E%7B%5Csigma%7B2%7D-1%7D++%5Cright%29e%5E%7B2%5Cmu%2B%5Csigma%5E2%7D+& alt=&Var(X)=\left( e^{\sigma{2}-1}
\right)e^{2\mu+\sigma^2} & eeimg=&1&&，此时可以看到已知变换后的数据的统计特征可以反过来推导出原始数据的统计特征，不存在数据信息的损失（可以看到对数转换后变量的均值可以&b&直接由样本数据的均值&/b&得到，但不进行变化却需要由样本均值方差两方面去推断得到）；例子2，如果一个数是离散的，服从&b&负二项分布&/b&，概率质量函数(PMF)可以写成&img src=&///equation?tex=f%5Cleft%28+k%3A%5Ctheta%2Cp%5Cright%29%3DC_%7B%5Ctheta-1%7D%5E%7Bk%2B%5Ctheta-1%7D+%5Cleft%28+1-p+%5Cright%29%5E%5Ctheta+p%5Ek& alt=&f\left( k:\theta,p\right)=C_{\theta-1}^{k+\theta-1} \left( 1-p \right)^\theta p^k& eeimg=&1&&，如果对这个变量进行对数变换后，情形又会怎样呢？此时，&img src=&///equation?tex=E%5Cleft%28+k+%5Cright%29+%3D%5Cfrac%7Bp%5E%7B%5Ctheta%7D%7D%7B1-p%7D+& alt=&E\left( k \right) =\frac{p^{\theta}}{1-p} & eeimg=&1&&&img src=&///equation?tex=Var%5Cleft%28+k+%5Cright%29%3D%5Cfrac%7Bp%5E%5Ctheta%7D%7B%281-p%29%5E2%7D+& alt=&Var\left( k \right)=\frac{p^\theta}{(1-p)^2} & eeimg=&1&&，假设数据的生成过程服从负二项分布，并且在不同的&img src=&///equation?tex=%5Ctheta%3D0.5%2C1%2C2%2C5%2C10%2C100& alt=&\theta=0.5,1,2,5,10,100& eeimg=&1&&下模拟生成数据，再用不同的方式去估计&img src=&///equation?tex=%5Ctilde%7B%5Cmu%7D%3DY+& alt=&\tilde{\mu}=Y & eeimg=&1&&，可以设计评价指标&img src=&///equation?tex=B%3D%5Cfrac%7B1%7D%7BS%7D%5CSigma_%7B%5Cleft%28s%5Cright%29%7D+%5Ctilde%7B%5Cmu%7D+-%5Cmu& alt=&B=\frac{1}{S}\Sigma_{\left(s\right)} \tilde{\mu} -\mu& eeimg=&1&&，可以看到不同的数据变换方式下的估计精度是不同的。可以看到，如果假设数据服从负二项分布，估计的误差很小，如果假设数据&b&对数变换后服从正态分布&/b&时会出现较大误差（由于离散分布时数据可以取0，此时对数变换需要用&img src=&///equation?tex=ln%5Cleft%28+x%2Bk+%5Cright%29+& alt=&ln\left( x+k \right) & eeimg=&1&&的形式，可以发现&img src=&///equation?tex=k& alt=&k& eeimg=&1&&的&b&取值并非随意&/b&），如果假设数据&b&根号变换后服从正态分布&/b&时的误差要小于对数变换。所以，从一个小的随机模拟实验可以看出，数据的变换方式并非随意，并且&b&对数变换也不一定是最好的变换&/b&，尤其是离散数据情况下（详见&Do not log-transform count data&）.&img src=&/e722ac4d460a0e_b.jpg& data-rawwidth=&554& data-rawheight=&395& class=&origin_image zh-lightbox-thumb& width=&554& data-original=&/e722ac4d460a0e_r.jpg&&&/li&&br&&li&但上述仅仅是在理论前提下数据变换的讨论，但&b&实际应用&/b&中呢？理论前提下，即使再复杂总能找到处理的办法，但应用问题却没有标准答案。在我看来，数据变换方法的使用更是&b&一门艺术（先验知识+经验+运气）&/b&，需要结合应用领域的专门知识。例如，在宏观计量中，许多不平稳的经济数据要进行时间序列建模，就需要进行差分变换或者去除趋势，按照经济增长理论，经济数据应该存在趋势，那对数据应该进行去除趋势变换，但后来实证发现数据进行差分变换后的ACF/PACF图更符合模型的假设，这就要求建模时使用差分变换而非去除趋势变换（从理论上可以证明一个非平稳的变量如果错误进行变换仍然是非平稳的），所以这就存在困惑（貌似说的有点远……）。&br&&/li&&/ul&&p&
至于，&b&怎么去做&/b&数据变换（Box-Cox正态性变换还是均匀变换）？(When)&b&什么时候&/b&需要&b&做什么样的&/b&数据变换？(What)数据变换后的&b&结果是什么，如何解释&/b&？当理清上述两个为什么时，我想应该基本就能回答了。当然，我的回答一定还存在问题与遗漏，不当之处还望指正^_^&/p&
To transform or
not to transform? That is the question!总的说来，对数变换是数据变换的一种常用方式，数据变换的目的在于使数据的呈现方式接近我们所希望的前提假设，从而更好的进行统计推断。但需要注意的是，数据是离散变量时进行对数变换要额外小心…
已有帐号？
社交帐号登录
无法登录？
社交帐号登录09-0607-3108-1808-27
09-1401-1909-1811-03
也许你感兴趣
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.在统计学中为什么要对变量取对数_百度知道
在统计学中为什么要对变量取对数
提问者采纳
其前面的参数表示的就是百分比变化率(dlnx=dx/x),但是在实际中这一点很难满足,并不能彻底消除（2）模型形式的需要（1）减弱模型中数据的异方差性,利用线性回归模型的前提是解释变量和被解释变量之间的线性关系,只能是减弱,也就是弹性（5）有时候变量不符合正态分布的假定,取了对数可以渐近正态分布等等,数据更能表示变动的相关性,让模型的形式变为线性（3）取对数,再配合差分变化.（4）对取对数以后的经济数据进行线性回归,把绝对数变成相对数,这样,很多的时候需要对多个变量或者是单一变量做对数变换
来自团队：
其他类似问题
为您推荐：
对数的相关知识
其他1条回答
为了呈线性吧
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁统计学：对数似然函数中,为什么能把ln加入到L(a)似然函数中变成,lnL(a)呢?任意函数都可以加LN吗?
洋吧浇水hlJ
这是为了为方便计算极值.
请问下··为什么能这样加呢？
因为他们同时取极大
为您推荐：
其他类似问题
扫描下载二维码}

杰西卡呢吗信息网