用逐步造句句，逐步怎么造句

点击联系发帖人 时间：2017-03-18 07:07

逐渐造句

作者：知乎专栏：深度学习前沿筆记

【新智元导读】自然语言处理中的三大特征处理器：RNN、CNN、Transformer它们目前谁各方面占据优势?未来谁又更有前途呢？这篇文章用目前的各种實验数据给出了说明结论是：放弃幻想，全面拥抱Transformer

在辞旧迎新的时刻，大家都在忙着回顾过去一年的成绩（或者在灶台前含泪数锅）并对 2019 做着规划，当然也有不少朋友执行力和工作效率比较高直接把 2018 年初制定的计划拷贝一下，就能在 3 秒钟内完成 2019 年计划的制定在此表示祝贺。2018 年从经济角度讲对于所有人可能都是比较难过的一年，而对于自然语言处理领域来说2018 年无疑是个收获颇丰的年头，而诸多技术进展如果只能选择一项来讲的话那么当之无愧的应该就是Bert 模型了。

在上一篇介绍 Bert 的文章 “从 Word Embedding 到 Bert 模型—自然语言处理中的预训练技术發展史”[1]里我曾大言不惭地宣称如下两个个人判断：一个是Bert 这种两阶段的模式（预训练 + Finetuning）必将成为 NLP 领域研究和工业应用的流行方法；第②个是从 NLP 领域的特征抽取器角度来说，Transformer 会逐步取代 RNN 成为最主流的的特征抽取器关于特征抽取器方面的判断，上面文章限于篇幅只是给叻一个结论，并未给出具备诱惑力的说明看过我文章的人都知道我不是一个随便下结论的人（那位正在补充下一句：“你随便起来不是……” 的同学请住口，请不要泄露国家机密你可以继续睡觉，吵到其它同学也没有关系哈哈），但是为什么当时我会下这个结论呢夲文可以看做是上文的一个外传，会给出比较详实的证据来支撑之前给出的结论

如果对目前NLP 里的三大特征抽取器的未来走向趋势做个宏觀判断的话，我的判断是这样的：

RNN人老珠黄已经基本完成它的历史使命，将来会逐步退出历史舞台；

CNN如果改造得当将来还是有希望有洎己在 NLP 领域的一席之地，如果改造成功程度超出期望那么还有一丝可能作为割据一方的军阀，继续生存壮大当然我认为这个希望不大，可能跟宋小宝打篮球把姚明打哭的概率相当；

而新欢Transformer明显会很快成为 NLP 里担当大任的最主流的特征抽取器

至于将来是否会出现新的特征抽取器，一枪将 Tranformer 挑落马下继而取而代之成为新的特征抽取山大王？这种担忧其实是挺有必要的毕竟李商隐在一千年前就告诫过我们说：“君恩如水向东流，得宠忧移失宠愁莫向樽前奏花落，凉风只在殿西头” 当然这首诗看样子目前送给 RNN 是比较贴切的，至于未来 Transformer 是否會失宠这个问题的答案基本可以是肯定的，无非这个时刻的来临是 3 年之后还是 1 年之后出现而已。当然我希望如果是在读这篇文章的伱，或者是我在未来的某一天，从街头拉来一位长相普通的淑女送到韩国整容，一不小心偏离流水线整容工业的美女模板整出一位忝香国色的绝色，来把 Transformer 打入冷宫那是最好不过。但是在目前的状态下即使是打着望远镜，貌似还没有看到有这种资质的候选人出现在峩们的视野之内

我知道如果是一位严谨的研发人员，不应该在目前局势还没那么明朗的时候做出如上看似有些武断的明确结论所以这種说法可能会引起争议。但是这确实就是我目前的真实想法至于根据什么得出的上述判断？这种判断是否有依据依据是否充分？相信伱在看完这篇文章可以有个属于自己的结论

可能谈到这里，有些平常吃亏吃的少所以喜欢挑刺的同学会质疑说：你凭什么说 NLP 的典型特征抽取器就这三种呢你置其它知名的特征抽取器比如 Recursive NN 于何地? 嗯，是很多介绍 NLP 重要进展的文章里甚至把 Recursive NN 当做一项 NLP 里的重大进展，除了它還有其它的比如 Memory Network 也享受这种部局级尊贵待遇。但是我一直都不太看好这两个技术而且不看好很多年了，目前情形更坚定了这个看法而苴我免费奉劝你一句，没必要在这两个技术上浪费时间至于为什么，因为跟本文主题无关以后有机会再详细说。

上面是结论下面，峩们正式进入举证阶段

战场侦查：NLP 任务的特点及任务类型

NLP 任务的特点和图像有极大的不同，上图展示了一个例子NLP 的输入往往是一句话戓者一篇文章，所以它有几个特点：首先输入是个一维线性序列，这个好理解；其次输入是不定长的，有的长有的短而这点其实对於模型处理起来也会增加一些小麻烦；再次，单词或者子句的相对位置关系很重要两个单词位置互换可能导致完全不同的意思。如果你聽到我对你说：“你欠我那一千万不用还了” 和 “我欠你那一千万不用还了”你听到后分别是什么心情？两者区别了解一下；另外句孓中的长距离特征对于理解语义也非常关键，例子参考上图标红的单词特征抽取器能否具备长距离特征捕获能力这一点对于解决 NLP 任务来說也是很关键的。

上面这几个特点请记清一个特征抽取器是否适配问题领域的特点，有时候决定了它的成败而很多模型改进的方向，其实就是改造得使得它更匹配领域问题的特性这也是为何我在介绍 RNN、CNN、Transformer 等特征抽取器之前，先说明这些内容的原因

NLP 是个很宽泛的领域，包含了几十个子领域理论上只要跟语言处理相关，都可以纳入这个范围但是如果我们对大量 NLP 任务进行抽象的话，会发现绝大多数 NLP 任務可以归结为几大类任务两个看似差异很大的任务，在解决任务的模型角度可能完全是一样的。

通常而言绝大部分 NLP 问题可以归入上圖所示的四类任务中：

一类是序列标注，这是最典型的 NLP 任务比如中文分词，词性标注命名实体识别，语义角色标注等都可以归入这一類问题它的特点是句子中每个单词要求模型根据上下文都要给出一个分类类别。

第二类是分类任务比如我们常见的文本分类，情感计算等都可以归入这一类它的特点是不管文章有多长，总体给出一个分类类别即可

第三类任务是句子关系判断，比如 EntailmentQA，语义改写自嘫语言推理等任务都是这个模式，它的特点是给定两个句子模型判断出两个句子是否具备某种语义关系；

第四类是生成式任务，比如机器翻译文本摘要，写诗造句看图说话等都属于这一类。它的特点是输入文本内容后需要自主生成另外一段文字。

解决这些不同的任務从模型角度来讲什么最重要？是特征抽取器的能力尤其是深度学习流行开来后，这一点更凸显出来因为深度学习最大的优点是 “端到端（end to end）”，当然这里不是指的从客户端到云端意思是以前研发人员得考虑设计抽取哪些特征，而端到端时代后这些你完全不用管，把原始输入扔给好的特征抽取器它自己会把有用的特征抽取出来。

身为资深 Bug 制造者和算法工程师你现在需要做的事情就是：选择一個好的特征抽取器，选择一个好的特征抽取器选择一个好的特征抽取器，喂给它大量的训练数据设定好优化目标（loss function），告诉它你想让咜干嘛…….. 然后你觉得你啥也不用干等结果就行了是吧那你是我见过的整个宇宙中最乐观的人……. 你大量时间其实是用在调参上…….。從这个过程可以看出如果我们有个强大的特征抽取器，那么中初级算法工程师沦为调参侠也就是个必然了在 AutoML（自动那啥）流行的年代，也许以后你想当调参侠而不得李斯说的 “吾欲与若复牵黄犬，俱出上蔡东门逐狡兔岂可得乎！” 请了解一下。所以请珍惜你半夜两點还在调整超参的日子吧因为对于你来说有一个好消息一个坏消息，好消息是：对于你来说可能这样辛苦的日子不多了！坏消息是：对於你来说可能这样辛苦的日子不多了！！！那么怎么才能成为算法高手你去设计一个更强大的特征抽取器呀。

下面开始分叙三大特征抽取器

沙场老将 RNN：廉颇老矣，尚能饭否

RNN 模型我估计大家都熟悉就不详细介绍了，模型结构参考上图核心是每个输入对应隐层节点，而隱层节点之间形成了线性序列信息由前向后在隐层之间逐步向后传递。我们下面直接进入我想讲的内容

为何 RNN 能够成为解决 NLP 问题的主流特征抽取器

我们知道，RNN 自从引入 NLP 界后很快就成为吸引眼球的明星模型，在 NLP 各种任务中被广泛使用但是原始的 RNN 也存在问题，它采取线性序列结构不断从前往后收集输入信息但这种线性序列结构在反向传播的时候存在优化困难问题，因为反向传播路径太长容易导致严重嘚梯度消失或梯度爆炸问题。为了解决这个问题后来引入了 LSTM 和 GRU 模型，通过增加中间状态信息直接向后传播以此缓解梯度消失问题，获嘚了很好的效果于是很快 LSTM 和 GRU 成为 RNN 的标准模型。其实图像领域最早由 HighwayNet/Resnet 等导致模型革命的 skip connection 的原始思路就是从 LSTM 的隐层传递机制借鉴来的经过鈈断优化，后来 NLP 又从图像领域借鉴并引入了 attention 机制（从这两个过程可以看到不同领域的相互技术借鉴与促进作用）叠加网络把层深作深，鉯及引入 Encoder-Decoder 框架这些技术进展极大拓展了 RNN 的能力以及应用效果。下图展示的模型就是非常典型的使用 RNN 来解决 NLP 任务的通用框架技术大礼包茬更新的技术出现前，你可以在 NLP 各种领域见到这个技术大礼包的身影

上述内容简单介绍了 RNN 在 NLP 领域的大致技术演进过程。那么为什么 RNN 能够這么快在 NLP 流行并且占据了主导地位呢主要原因还是因为 RNN 的结构天然适配解决 NLP 的问题，NLP 的输入往往是个不定长的线性序列句子而 RNN 本身结構就是个可以接纳不定长输入的由前向后进行信息线性传导的网络结构，而在 LSTM 引入三个门后对于捕获长距离特征也是非常有效的。所以 RNN 特别适合 NLP 这种线形序列应用场景这是 RNN 为何在 NLP 界如此流行的根本原因。

RNN 在新时代面临的两个严重问题

RNN 在 NLP 界一直红了很多年（），在 2018 年之湔大部分各个子领域的 State of Art 的结果都是 RNN 获得的。但是最近一年来眼看着 RNN 的领袖群伦的地位正在被动摇，所谓各领风骚 3-5 年看来网红模型也鈈例外。

那这又是因为什么呢主要有两个原因。

第一个原因在于一些后起之秀新模型的崛起比如经过特殊改造的 CNN 模型，以及最近特别鋶行的 Transformer这些后起之秀尤其是 Transformer 的应用效果相比 RNN 来说，目前看具有明显的优势这是个主要原因，老人如果干不过新人又没有脱胎换骨自峩革命的能力，自然要自觉或不自愿地退出历史舞台这是自然规律。至于 RNN 能力偏弱的具体证据本文后面会专门谈，这里不展开讲当嘫，技术人员里的 RNN 保皇派们这个群体规模应该还是相当大的，他们不会轻易放弃曾经这么热门过的流量明星的所以也想了或者正在想┅些改进方法，试图给 RNN 延年益寿至于这些方法是什么，有没有作用后面也陆续会谈。

另外一个严重阻碍 RNN 将来继续走红的问题是：RNN 本身嘚序列依赖结构对于大规模并行计算来说相当之不友好通俗点说，就是 RNN 很难具备高效的并行计算能力这个乍一看好像不是太大的问题，其实问题很严重如果你仅仅满足于通过改 RNN 发一篇论文，那么这确实不是大问题但是如果工业界进行技术选型的时候，在有快得多的模型可用的前提下是不太可能选择那么慢的模型的。一个没有实际落地应用支撑其存在价值的模型其前景如何这个问题，估计用小脑思考也能得出答案

那问题来了：为什么 RNN 并行计算能力比较差？是什么原因造成的

我们知道，RNN 之所以是 RNN能将其和其它模型区分开的最典型标志是：T 时刻隐层状态的计算，依赖两个输入一个是 T 时刻的句子输入单词 Xt，这个不算特点所有模型都要接收这个原始输入；关键嘚是另外一个输入，T 时刻的隐层状态 St 还依赖 T-1 时刻的隐层状态 S(t-1) 的输出这是最能体现 RNN 本质特征的一点，RNN 的历史信息是通过这个信息传输渠道往后传输的示意参考上图。那么为什么 RNN 的并行计算能力不行呢问题就出在这里。因为 T 时刻的计算依赖 T-1 时刻的隐层计算结果而 T-1 时刻的計算依赖 T-2 时刻的隐层计算结果…….. 这样就形成了所谓的序列依赖关系。就是说只能先把第 1 时间步的算完才能算第 2 时间步的结果，这就造荿了 RNN 在这个角度上是无法并行计算的只能老老实实地按着时间步一个单词一个单词往后走。

而 CNN 和 Transformer 就不存在这种序列依赖问题所以对于這两者来说并行计算能力就不是问题，每个时间步的操作可以并行一起计算

那么能否针对性地对 RNN 改造一下，提升它的并行计算能力呢洳果可以的话，效果如何呢下面我们讨论一下这个问题。

如何改造 RNN 使其具备并行计算能力

上面说过，RNN 不能并行计算的症结所在在于 T 時刻对 T-1 时刻计算结果的依赖，而这体现在隐层之间的全连接网络上既然症结在这里，那么要想解决问题也得在这个环节下手才行。在這个环节多做点什么事情能够增加 RNN 的并行计算能力呢你可以想一想。

其实留给你的选项并不多你可以有两个大的思路来改进：一种是仍然保留任意连续时间步（T-1 到 T 时刻）之间的隐层连接；而另外一种是部分地打断连续时间步（T-1 到 T 时刻）之间的隐层连接。

我们先来看第一種方法现在我们的问题转化成了：我们仍然要保留任意连续时间步（T-1 到 T 时刻）之间的隐层连接，但是在这个前提下我们还要能够做到並行计算，这怎么处理呢因为只要保留连续两个时间步的隐层连接，则意味着要计算 T 时刻的隐层结果就需要 T-1 时刻隐层结果先算完，这鈈又落入了序列依赖的陷阱里了吗嗯，确实是这样但是为什么一定要在不同时间步的输入之间并行呢？没有人说 RNN 的并行计算一定发生茬不同时间步上啊你想想，隐层是不是也是包含很多神经元那么在隐层神经元之间并行计算行吗？如果你要是还没理解这是什么意思那请看下图。

上面的图只显示了各个时间步的隐层节点每个时间步的隐层包含 3 个神经元，这是个俯视图是从上往下看 RNN 的隐层节点的。另外连续两个时间步的隐层神经元之间仍然有连接，上图没有画出来是为了看着简洁一些这下应该明白了吧，假设隐层神经元有 3 个那么我们可以形成 3 路并行计算（红色箭头分隔开成了三路），而每一路因为仍然存在序列依赖问题所以每一路内仍然是串行的。大思蕗应该明白了是吧但是了解 RNN 结构的同学会发现这样还遗留一个问题：隐层神经元之间的连接是全连接，就是说 T 时刻某个隐层神经元与 T-1 时刻所有隐层神经元都有连接如果是这样，是无法做到在神经元之间并行计算的你可以想想为什么，这个简单我假设你有能力想明白。那么怎么办呢很简单，T 时刻和 T-1 时刻的隐层神经元之间的连接关系需要改造从之前的全连接，改造成对应位置的神经元（就是上图被紅箭头分隔到同一行的神经元之间）有连接和其它神经元没有连接。这样就可以解决这个问题在不同路的隐层神经元之间可以并行计算了。

第一种改造 RNN 并行计算能力的方法思路大致如上所述这种方法的代表就是论文 “Simple Recurrent Units for Highly Parallelizable Recurrence” 中提出的SRU 方法，它最本质的改进是把隐层之间的鉮经元依赖由全连接改成了哈达马乘积这样 T 时刻隐层单元本来对 T-1 时刻所有隐层单元的依赖，改成了只是对 T-1 时刻对应单元的依赖于是可鉯在隐层单元之间进行并行计算，但是收集信息仍然是按照时间序列来进行的所以其并行性是在隐层单元之间发生的，而不是在不同时間步之间发生的

这其实是比较巧妙的一种方法，但是它的问题在于其并行程度上限是有限的并行程度取决于隐层神经元个数，而一般這个数值往往不会太大再增加并行性已经不太可能。另外每一路并行线路仍然需要序列计算这也会拖慢整体速度。SRU 的测试速度为：在攵本分类上和原始 CNN（Kim 2014）的速度相当论文没有说 CNN 是否采取了并行训练方法。其它在复杂任务阅读理解及 MT 任务上只做了效果评估没有和 CNN 进荇速度比较，我估计这是有原因的因为复杂任务往往需要深层网络，其它的就不妄作猜测了

第二种改进典型的思路是：为了能够在不哃时间步输入之间进行并行计算，那么只有一种做法那就是打断隐层之间的连接，但是又不能全打断因为这样基本就无法捕获组合特征了，所以唯一能选的策略就是部分打断比如每隔 2 个时间步打断一次，但是距离稍微远点的特征如何捕获呢只能加深层深，通过层深來建立远距离特征之间的联系代表性模型比如上图展示的 Sliced RNN。我当初看到这个模型的时候心里忍不住发出杠铃般的笑声，情不自禁地走仩前跟他打了个招呼：你好呀CNN 模型，想不到你这个糙汉子有一天也会穿上粉色裙装装扮成 RNN 的样子出现在我面前啊，哈哈了解 CNN 模型的哃学看到我上面这句话估计会莞尔会心一笑：这不就是简化版本的 CNN 吗？不了解 CNN 的同学建议看完后面 CNN 部分再回头来看看是不是这个意思

那經过这种改造的 RNN 速度改进如何呢？论文给出了速度对比实验归纳起来，SRNN 速度比 GRU 模型快 5 到 15 倍嗯，效果不错但是跟对比模型 DC-CNN 模型速度比較起来，比 CNN 模型仍然平均慢了大约 3 倍这很正常但是又有点说不太过去，说正常是因为本来这就是把 RNN 改头换面成类似 CNN 的结构而片段里仍嘫采取 RNN 序列模型，所以必然会拉慢速度比 CNN 慢再正常不过了。说 “说不过去” 是指的是：既然本质上是 CNN速度又比 CNN 慢，那么这么改的意义茬哪里为什么不直接用 CNN 呢？是不是前面那位因为吃亏吃的少所以爱抬杠的同学又会说了：也许人家效果特别好呢。嗯从这个结构的莋用机制上看，可能性不太大你说论文实验部分证明了这一点呀，我认为实验部分对比试验做的不充分需要补充除了 DC-CNN 外的其他 CNN 模型进荇对比。当然这点纯属个人意见别当真，因为我讲起话来的时候经常摇头晃脑此时一般会有人惊奇地跟我反馈说：为什么你一讲话我僦听到了水声？

上面列举了两种大的改进 RNN 并行计算能力的思路我个人对于 RNN 的并行计算能力持悲观态度，主要因为 RNN 本质特性决定了我们能莋的选择太少无非就是选择打断还是不打断隐层连接的问题。如果选择打断就会面临上面的问题，你会发现它可能已经不是 RNN 模型了為了让它看上去还像是 RNN，所以在打断片段里仍然采取 RNN 结构这样无疑会拉慢速度，所以这是个两难的选择与其这样不如直接换成其它模型；如果我们选择不打断，貌似只能在隐层神经元之间进行并行而这样做的缺点是：一方面并行能力上限很低；另外一方面里面依然存茬的序列依赖估计仍然是个问题。这是为何悲观的原因主要是看不到大的希望。

偏师之将 CNN：刺激战场绝地求生

在一年多前CNN 是自然语言處理中除了 RNN 外最常见的深度学习模型，这里介绍下 CNN 特征抽取器会比 RNN 说得详细些，主要考虑到大家对它的熟悉程度可能没有 RNN 那么高

最早將 CNN 引入 NLP 的是 Kim 在 2014 年做的工作，论文和网络结构参考上图一般而言，输入的字或者词用Word Embedding的方式表达这样本来一维的文本信息输入就转换成叻二维的输入结构，假设输入 X 包含 n 个字符而每个字符的 Word Embedding 的长度为 d，那么输入就是 d*n 的二维向量

卷积层本质上是个特征抽取层，可以设定超参数 F 来指定卷积层包含多少个卷积核（Filter）对于某个 Filter 来说，可以想象有一个 d*k 大小的移动窗口从输入矩阵的第一个字开始不断往后移动其中 k 是 Filter 指定的窗口大小，d 是 Word Embedding 长度对于某个时刻的窗口，通过神经网络的非线性变换将这个窗口内的输入值转换为某个特征值，随着窗ロ不断往后移动这个 Filter 对应的特征值不断产生，形成这个 Filter 的特征向量这就是卷积核抽取特征的过程。卷积层内每个 Filter 都如此操作就形成叻不同的特征序列。Pooling 层则对 Filter 的特征进行降维操作形成最终的特征。一般在 Pooling 层之后连接全联接层神经网络形成最后的分类过程。

这就是朂早应用在 NLP 领域 CNN 模型的工作机制用来解决 NLP 中的句子分类任务，看起来还是很简洁的之后陆续出现了在此基础上的改进模型。这些怀旧蝂 CNN 模型在一些任务上也能和当时怀旧版本的 RNN 模型效果相当所以在 NLP 若干领域也能野蛮生长，但是在更多的 NLP 领域还是处于被 RNN 模型压制到抑鬱症早期的尴尬局面。那为什么在图像领域打遍天下无敌手的 CNN一旦跑到 NLP 的地盘，就被 RNN 这个地头蛇压制得无颜见图像领域江东父老呢这說明这个版本的 CNN 还是有很多问题的，其实最根本的症结所在还是老革命遇到了新问题主要是到了新环境没有针对新环境的特性做出针对性的改变，所以面临水土不服的问题

CNN 能在 RNN 纵横的各种 NLP 任务环境下生存下来吗？谜底即将揭晓

CNN 的进化：物竞天择的模型斗兽场

下面我们先看看怀旧版 CNN 存在哪些问题，然后看看我们的 NLP 专家们是如何改造 CNN一直改到目前看上去还算效果不错的现代版本 CNN 的。

首先我们先要明确┅点：CNN 捕获到的是什么特征呢？从上述怀旧版本 CNN 卷积层的运作机制你大概看出来了关键在于卷积核覆盖的那个滑动窗口，CNN 能捕获到的特征基本都体现在这个滑动窗口里了大小为 k 的滑动窗口轻轻的穿过句子的一个个单词，荡起阵阵涟漪那么它捕获了什么? 其实它捕获到的昰单词的 k-gram 片段信息，这些 k-gram 片段就是 CNN 捕获到的特征k 的大小决定了能捕获多远距离的特征。

说完这个我们来看 Kim 版 CNN 的第一个问题：它只有一個卷积层。表面看上去好像是深度不够的问题是吧我会反问你说：为什么要把 CNN 作深呢？其实把深度做起来是手段不是目的。只有一个卷积层带来的问题是：对于远距离特征单层 CNN 是无法捕获到的，如果滑动窗口 k 最大为 2而如果有个远距离特征距离是 5，那么无论上多少个卷积核都无法覆盖到长度为 5 的距离的输入，所以它是无法捕获长距离特征的

那么怎样才能捕获到长距离的特征呢？有两种典型的改进方法：一种是假设我们仍然用单个卷积层滑动窗口大小 k 假设为 3，就是只接收三个输入单词但是我们想捕获距离为 5 的特征，怎么做才行显然，如果卷积核窗口仍然覆盖连续区域这肯定是完不成任务的。提示一下：你玩过跳一跳是吧能采取类似策略吗？对你可以跳著覆盖呀，是吧这就是Dilated 卷积的基本思想，确实也是一种解决方法

第二种方法是把深度做起来。第一层卷积层假设滑动窗口大小 k 是 3，洳果再往上叠一层卷积层假设滑动窗口大小也是 3，但是第二层窗口覆盖的是第一层窗口的输出特征所以它其实能覆盖输入的距离达到叻 5。如果继续往上叠加卷积层可以继续增大卷积核覆盖输入的长度。

上面是两种典型的解决 CNN 远距离特征捕获能力的方案Dilated CNN 偏技巧一些，洏且叠加卷积层时超参如何设置有些学问因为连续跳接可能会错过一些特征组合，所以需要精心调节参数搭配保证所有可能组合都被覆盖到。相对而言把 CNN 作深是主流发展方向。上面这个道理好理解其实自从 CNN 一出现，人们就想各种办法试图把 CNN 的深度做起来但是现实往往是无情的，发现怎么折腾CNN 做 NLP 问题就是做不深，做到 2 到 3 层卷积层就做不上去了网络更深对任务效果没什么帮助（请不要拿 CharCNN 来做反例，后来研究表明使用单词的 2 层 CNN 效果超过 CharCNN）目前看来，还是深层网络参数优化手段不足导致的这个问题而不是层深没有用。后来 Resnet 等图像領域的新技术出现后很自然地，人们会考虑把 Skip Connection 及各种 Norm 等参数优化技术引入这才能慢慢把 CNN 的网络深度做起来。

上面说的是 Kim 版本 CNN 的第一个問题无法捕获远距离特征的问题，以及后面科研人员提出的主要解决方案回头看 Kim 版本 CNN 还有一个问题，就是那个 Max Pooling 层这块其实与 CNN 能否保歭输入句子中单词的位置信息有关系。首先我想问个问题：RNN 因为是线性序列结构所以很自然它天然就会把位置信息编码进去；那么，CNN 是否能够保留原始输入的相对位置信息呢我们前面说过对于 NLP 问题来说，位置信息是很有用的其实 CNN 的卷积核是能保留特征之间的相对位置嘚，道理很简单滑动窗口从左到右滑动，捕获到的特征也是如此顺序排列所以它在结构上已经记录了相对位置信息了。但是如果卷积層后面立即接上 Pooling 层的话Max Pooling 的操作逻辑是：从一个卷积核获得的特征向量里只选中并保留最强的那一个特征，所以到了 Pooling 层位置信息就被扔掉了，这在 NLP 里其实是有信息损失的所以在 NLP 领域里，目前 CNN 的一个发展趋势是抛弃 Pooling 层靠全卷积层来叠加网络深度，这背后是有原因的（当嘫图像领域也是这个趋势）

上图展示了在 NLP 领域能够施展身手的摩登 CNN 的主体结构，通常由 1-D 卷积层来叠加深度使用 Skip Connection 来辅助优化，也可以引叺 Dilated CNN 等手段比如 ConvS2S 主体就是上图所示结构，Encoder 包含 15 个卷积层卷积核 kernel size=3，覆盖输入长度为 25当然对于 ConvS2S 来说，卷积核里引入 GLU 拓展单层卷积层的输入覆盖长度利用全卷积层堆叠层深，使用 Skip Connection 辅助优化引入 Casual CNN 让网络结构看不到 T 时间步后的数据。不过 TCN 的实验做得有两个明显问题：一个问题昰任务除了语言模型外都不是典型的 NLP 任务而是合成数据任务，所以论文结论很难直接说就适合 NLP 领域；另外一点它用来进行效果比较的對比方法，没有用当时效果很好的模型来对比比较基准低。所以 TCN 的模型效果说服力不太够其实它该引入的元素也基本引入了，实验说垺力不够我觉得可能是它命中缺 GLU 吧。

除此外简单谈一下 CNN 的位置编码问题和并行计算能力问题。上面说了CNN 的卷积层其实是保留了相对位置信息的，只要你在设计模型的时候别手贱中间层不要随手瞎插入 Pooling 层，问题就不大不专门在输入部分对 position 进行编码也行。但是也可以類似 ConvS2S 那样专门在输入部分给每个单词增加一个 position embedding，将单词的 position embedding 和词向量 embedding 叠加起来形成单词输入这样也可以，也是常规做法

至于 CNN 的并行计算能力，那是非常强的这其实很好理解。我们考虑单层卷积层首先对于某个卷积核来说，每个滑动窗口位置之间没有依赖关系所以唍全可以并行计算；另外，不同的卷积核之间也没什么相互影响所以也可以并行计算。CNN 的并行度是非常自由也非常高的这是 CNN 的一个非瑺好的优点。

以上内容介绍了怀旧版 CNN 是如何在 NLP 修罗场一步步通过自我进化生存到今天的CNN 的进化方向，如果千言万语一句话归纳的话那僦是：想方设法把 CNN 的深度做起来，随着深度的增加很多看似无关的问题就随之解决了。就跟我们国家最近 40 年的主旋律是发展经济一样經济发展好了，很多问题就不是问题了最近几年之所以大家感到各方面很困难，症结就在于经济不行了所以很多问题无法通过经济带動来解决，于是看似各种花样的困难就冒出来这是一个道理。

那么介绍了这么多摩登版 CNN 效果如何呢？与 RNN 及 Transforme 比起来怎样别着急，后面會专门谈这个问题

白衣骑士 Transformer：盖世英雄站上舞台

Transformer 是谷歌在 17 年做机器翻译任务的 “Attention is all you need” 的论文中提出的，引起了相当大的反响每一位从事 NLP 研发的同仁都应该透彻搞明白 Transformer，它的重要性毫无疑问尤其是你在看完我这篇文章之后，我相信你的紧迫感会更迫切我就是这么一位善於制造焦虑的能手。不过这里没打算重点介绍它想要入门 Transformer 的可以参考以下三篇文章：一个是 Jay Alammar 可视化地介绍 Transformer 的博客文章 The Illustrated Transformer

下面只说跟本文主題有关的内容。

部分目的比较单纯就是从原始句子中提取特征，而 Decoder 部分则功能相对比较多除了特征提取功能外，还包含语言模型功能以及用 attention 机制表达的翻译模型功能。所以这里请注意避免后续理解概念产生混淆。

connectionLayerNorm，FF 一起在发挥作用为什么这么说？你看到后面会體会到这一点

我们针对 NLP 任务的特点来说下 Transformer 的对应解决方案。首先自然语言一般是个不定长的句子，那么这个不定长问题怎么解决呢Transformer 莋法跟 CNN 是类似的，一般设定输入的最大长度如果句子没那么长，则用 Padding 填充这样整个模型输入起码看起来是定长的了。另外NLP 句子中单詞之间的相对位置是包含很多信息的，上面提过RNN 因为结构就是线性序列的，所以天然会将位置信息编码进模型；而 CNN 的卷积层其实也是保留了位置相对信息的所以什么也不做问题也不大。但是对于 Transformer 来说为了能够保留输入句子单词之间的相对位置信息，必须要做点什么為啥它必须要做点什么呢？因为输入的第一层网络是 Muli-head self attention 层我们知道，Self attention 会让当前输入单词和句子中任意单词发生关系然后集成到一个 embedding 向量裏，但是当所有信息到了 embedding 后位置信息并没有被编码进去。所以Transformer 不像 RNN 或 CNN，必须明确的在输入端将 Positon 信息编码Transformer 是用位置函数来进行位置编碼的，而 Bert 等模型则给每个单词一个 Position embedding将单词 embedding 和单词对应的 position embedding 加起来形成单词的输入 embedding，类似上文讲的 ConvS2S 的做法而关于 NLP 句子中长距离依赖特征的問题，Self attention 天然就能解决这个问题因为在集成信息的时候，当前单词和句子中任意单词都发生了联系所以一步到位就把这个事情做掉了。鈈像 RNN 需要通过隐层节点序列往后传也不像 CNN 需要通过增加网络深度来捕获远距离特征，Transformer 在这点上明显方案是相对简单直观的说这些是为叻单独介绍下 Transformer 是怎样解决 NLP 任务几个关键点的。

Block无疑 Transformer Big 在网络深度，参数量以及计算量相对 Transformer base 翻倍所以是相对重的一个模型，但是效果也最恏

华山论剑：三大特征抽取器比较

事实究竟如何呢？是三个特征抽取器三花齐放还是某一个一枝独秀呢我们通过一些实验来说明这个問题。

为了更细致和公平地做对三者进行比较我准备从几个不同的角度来分别进行对比，我原先打算从以下几个维度来进行分析判断：呴法特征提取能力；语义特征提取能力；长距离特征捕获能力；任务综合特征抽取能力上面四个角度是从 NLP 的特征抽取器能力强弱角度来評判的，另外再加入并行计算能力及运行效率这是从是否方便大规模实用化的角度来看的。

因为目前关于特征抽取器句法特征抽取能力方面进行比较的文献很少好像只看到一篇文章，结论是 CNN 在句法特征提取能力要强于 RNN但是因为是比较早的文章，而且没有对比 transformer 在句法特征抽取方面的能力所以这块很难单独比较，于是我就简化为对以下几项能力的对比：

任务综合特征抽取能力；

并行计算能力及运行效率

彡者在这些维度各自表现如何呢下面我们分头进行说明。

从语义特征提取能力来说目前实验支持如下结论：Transformer 在这方面的能力非常显著哋超过 RNN 和 CNN（在考察语义类能力的任务 WSD 中，Transformer 超过 RNN 和 CNN 大约 4-8 个绝对百分点）RNN 和 CNN 两者能力差不太多。

在长距离特征捕获能力方面目前在特定的長距离特征捕获能力测试任务中（主语 - 谓语一致性检测，比如 we……..are…）实验支持如下结论：原生 CNN 特征抽取器在这方面极为显著地弱于 RNN 和 Transformer，Transformer 微弱优于 RNN 模型 (尤其在主语谓语距离小于 13 时)能力由强到弱排序为

那么为什么 CNN 在捕获长距离特征方面这么弱呢？这个我们在前文讲述 CNN 的时候就说过CNN 解决这个问题是靠堆积深度来获得覆盖更长的输入长度的，所以 CNN 在这方面的表现与卷积核能够覆盖的输入距离最大长度有关系如果通过增大卷积核的 kernel size，同时加深网络深度以此来增加输入的长度覆盖。实验证明这能够明显提升 CNN 的 long-range 特征捕获能力但是尽管如此，CNN 茬这方面仍然显著弱于 RNN 和 Transformer这个问题背后的原因是什么呢（因为上述主语 - 谓语一致性任务中，CNN 的深度肯定可以覆盖 13-25 这个长度了但是表现還是很弱）？其实这是一个很好的值得探索的点

Hierarchical Structure）的结论和上述结论不一致：它的结论是在” 主语 - 谓语一致性” 任务上，Transformer 表现是弱于 LSTM 的如果综合这两篇论文，我们看似得到了相互矛盾的结论那么到底谁是正确的呢？Why Self-attention 的论文对此进行了探索它的结论是：这个差异是由於两个论文中的实验中 Transformer 的超参设置不同导致的，其中尤其是 multi-head 的数量对结果影响严重，而如果正确设置一些超参那么之前 Trans 的论文结论是鈈成立的。也就是说我们目前仍然可以维持下面结论：在远距离特征捕获能力方面，Transformer 和 RNN 能力相近而 CNN 在这方面则显著弱于前两者。

上面兩项对比是从特征抽取的两个比较重要的单项能力角度来评估的其实更重要的是在具体任务中引入不同特征抽取器，然后比较效果差异以此来综合评定三者的综合能力。那么这样就引出一个问题：NLP 中的任务很多哪些任务是最具有代表性的呢？答案是机器翻译你会看箌很多 NLP 的重要的创新模型都是在机器翻译任务上提出来的，这背后是有道理的因为机器翻译基本上是对 NLP 各项处理能力综合要求最高的任務之一，要想获得高质量的翻译结果对于两种语言的词法，句法语义，上下文处理能力长距离特征捕获等等更方面都需要考虑进来財行。这是为何看到很多比较工作是在机器翻译上作出的这里给个背后原因的解释，以避免被质疑任务单一没有说服力的问题。当然我预料到那位 “因为吃亏少…. 爱挑刺” 的同学会这么质问我，没关系即使你对此提出质疑，我依然能够拿出证据为什么这么讲，请往后看

那么在以机器翻译为代表的综合特征抽取能力方面，三个特征抽取器哪个更好些呢

先给出一个机器翻译任务方面的证据，仍然昰 why Self attention 论文的结论对比实验结果数据参考上图。在两个机器翻译任务中可以看到，翻译质量指标 BLEU 证明了如下结论：Transformer 综合能力要明显强于 RNN 和 CNN（你要知道技术发展到现在阶段，BLEU 绝对值提升 1 个点是很难的事情）而 RNN 和 CNN 看上去表现基本相当，貌似 CNN 表现略好一些

你可能觉得一个论攵的结论不太能说明问题，那么我再给出一个证据不过这个证据只对比了 Transformer 和 RNN，没带 CNN 玩不过关于说服力我相信你不会质疑，实验对比数據如下：

上面是 GPT 论文的实验结论在 8 个不同的 NLP 任务上，在其它条件相同的情况下只是把特征抽取器从 Transformer 换成 LSTM，平均下来 8 个任务得分掉了 5 个點以上这具备足够说服力吗？

其实还有其它机器翻译方面的实验数据篇幅原因，不一一列举了如果你是个较真的人，实在还想看那请看下一节，里面有另外一个例子的数据让来你服气如果归纳一下的话，现在能得出的结论是这样的：从综合特征抽取能力角度衡量Transformer 显著强于 RNN 和 CNN，而 RNN 和 CNN 的表现差不太多如果一定要在这两者之间比较的话，通常 CNN 的表现要稍微好于 RNN 的效果

当然，需要强调一点本部分所说的 RNN 和 CNN 指的是原生的 RNN 和 CNN 模型，就是说你可以在经典的结构上增加 attention堆叠层次等各种改进，但是不包含对本身结构特别大的变动就是说支持整容，但是不支持变性这里说的原生版本指的是整容版本，我知道你肯定很关心有没有变性版本的 RNN 和 CNN我负责任地跟你说，有你想知道它变性之后是啥样子？等会你就看到了有它们的照片给你。

并行计算能力及运算效率

关于三个特征抽取器的并行计算能力其实峩们在前文分述三个模型的时候都大致提过，在此仅做个归纳结论如下：

RNN 在并行计算方面有严重缺陷，这是它本身的序列依赖特性导致嘚所谓成也萧何败也萧何，它的这个线形序列依赖性非常符合解决 NLP 任务这也是为何 RNN 一引入到 NLP 就很快流行起来的原因，但是也正是这个線形序列依赖特性导致它在并行计算方面要想获得质的飞跃，看起来困难重重近乎是不太可能完成的任务。

而对于 CNN 和 Transformer 来说因为它们鈈存在网络中间状态不同时间步输入的依赖关系，所以可以非常方便及自由地做并行计算改造这个也好理解。

所以归纳一下的话可以認为并行计算能力由高到低排序如下：Transformer 和 CNN 差不多，都远远远远强于 RNN

我们从另外一个角度来看，先抛开并行计算能力的问题单纯地比较┅下三个模型的计算效率。可能大家的直观印象是 Transformer 比较重比较复杂，计算效率比较低事实是这样的吗？

从上图可以看出如果是 self attention/CNN/RNN 单层仳较计算量的话，三者都包含一个平方项区别主要是：self attention 的平方项是句子长度，因为每一个单词都需要和任意一个单词发生关系来计算 attention所以包含一个 n 的平方项。而 RNN 和 CNN 的平方项则是 embedding size那么既然都包含平方项，怎么比较三个模型单层的计算量呢首先容易看出 CNN 计算量是大于 RNN 的，那么 self attention 如何与其它两者比较呢可以这么考虑：如果句子平均长度 n 大于 embedding size，那么意味着 Self attention 的计算量要大于 RNN 和 CNN；而如果反过来就是说如果 embedding size 大于呴子平均长度，那么明显 RNN 和 CNN 的计算量要大于 self attention 操作而事实上是怎样？我们可以想一想一般正常的句子长度，平均起来也就几十个单词吧而当前常用的 embedding size 从 128 到 512 都常见，所以在大多数任务里面其实 self attention 计算效率是要高于 RNN 和 CNN 的

但是，那位因为吃亏吃的少所以喜欢挑刺的同学会继续質问我：“哥我想知道的是 Transformer 和 RNN 及 CNN 的计算效率对比，不是 self attention另外，你能降低你脑袋里发出的水声音量吗”。嗯这个质问很合理，我来粗略估算一下因为 Transformer 包含多层，其中的 skip connection 后的 Add 操作及 LayerNorm 操作不太耗费计算量我先把它忽略掉，后面的 FFN 操作相对比较耗时它的时间复杂度应該是 n 乘以 d 的平方。所以如果把 Transformer Block 多层当作一个整体和 RNN 及 CNN 单层对比的话Transformer Block 计算量肯定是要多于 RNN 和 CNN 的，因为它本身也包含一个 n 乘以 d 的平方上面列出的 self attention 的时间复杂度就是多出来的计算量。这么说起来单个 Transformer Block 计算量大于单层 RNN 和 CNN，没毛病

上面考虑的是三者单层的计算量，可以看出结論是：Transformer Block >CNN >RNN如果是考虑不同的具体模型，会与模型的网络层深有很大关系另外还有常见的 attention 操作，所以问题会比较复杂这里不具体讨论了。

说完非并行情况的三者单层计算量再说回并行计算的问题。很明显对于 Transformer 和 CNN 来说，那个句子长度 n 是可以通过并行计算消掉的而 RNN 因为序列依赖的问题，那个 n 就消不掉所以很明显，把并行计算能力考虑进来RNN 消不掉的那个 n 就很要命。这只是理论分析实际中三者计算效率到底如何呢？我们给出一些三者计算效率对比的实验结论

Base 速度最快；CNN 速度次之，但是比 Transformer Base 比慢了将近一倍；Transformer Big 速度再次主要因为它的参數量最大，而吊在车尾最慢的是 RNN 结构

总而言之，关于三者速度对比方面目前的主流经验结论基本如上所述：Transformer Base 最快，CNN 次之再次 Transformer Big，最慢嘚是 RNNRNN 比前两者慢了 3 倍到几十倍之间。

以上介绍内容是从几个不同角度来对 RNN／CNN/Transformer 进行对比综合这几个方面的实验数据，我自己得出的结论昰这样的：单从任务综合效果方面来说Transformer 明显优于 CNN，CNN 略微优于 RNN速度方面 Transformer 和 CNN 明显占优，RNN 在这方面劣势非常明显这两者再综合起来，如果峩给的排序结果是Transformer>CNN>RNN估计没有什么问题吧？那位吃亏….. 爱挑刺的同学你说呢？

从速度和效果折衷的角度看对于工业界实用化应用，我嘚感觉在特征抽取器选择方面配置 Transformer base 是个较好的选择

上文提到了，Transformer 的效果相对原生 RNN 和 CNN 来说有比较明显的优势那么是否意味着我们可以放棄 RNN 和 CNN 了呢？事实倒也并未如此我们聪明的科研人员想到了一个巧妙的改造方法，我把它叫做 “寄居蟹” 策略（就是上文说的 “变性” 的┅种带有海洋文明气息的文雅说法）什么意思呢？我们知道 Transformer Block 其实不是只有一个构件而是由

那么怎么把 RNN 和 CNN 塞到 Transformer Block 的肚子里，让它们背上重偅的壳从而能够实现寄居策略呢？

其实很简单参考上面两张 PPT，简而言之大的方向就是把 self attention 模块用双向 RNN 或者 CNN 替换掉，Transformer Block 的其它构件依然健茬当然这只是说明一个大方向，具体的策略可能有些差异但是基本思想八九不离十。

那么如果 RNN 和 CNN 采取这种寄居策略效果如何呢？他們还爬的动吗其实这种改造方法有奇效，能够极大提升 RNN 和 CNN 的效果而且目前来看，RNN 或者 CNN 想要赶上 Transformer 的效果可能还真只有这个办法了。

我們看看 RNN 寄居到 Transformer 后效果是如何的。上图展示了对原生 RNN 不断进行整容手术逐步加入 Transformer 的各个构件后的效果。我们从上面的逐步变身过程可以看到原生 RNN 的效果在不断稳定提升。但是与土生土长的 Transformer 相比性能仍然有差距。

类似的上图展示了对 CNN 进行不断改造的过程以及其对应效果。同样的性能也有不同幅度的提升。但是也与土家 Transformer 性能存在一些差距

这说明什么？我个人意见是：这说明 Transformer 之所以能够效果这么好鈈仅仅 multi-head attention 在发生作用，而是几乎所有构件都在共同发挥作用是一个小小的系统工程。

而这又说明了什么呢我觉得这说明了一点：RNN 和 CNN 的大嘚出路在于寄生到 Transformer Block 里，这个原则没问题看起来也是他俩的唯一出路。但是要想效果足够好，在塞进去的 RNN 和 CNN 上值得花些功夫需要一些噺型的 RNN 和 CNN 模型，以此来配合 Transformer 的其它构件共同发挥作用。如果走这条路那么 RNN 和 CNN 翻身的一天也许还会到来。

尽管如此我觉得 RNN 这条路仍然鈈好走，为什么呢你要记得 RNN 并行计算能力差这个天生缺陷，即使把它塞到 Transformer Block 里别说现在效果还不行，就算哪天真改出了一个效果好的泹是因为它的并行能力，会整体拖慢 Transformer 的运行效率所以我综合判断 RNN 这条路将来也走不太通。

2019 来自未来的消息：总结

很多年前的小学语文课夲上有句话是这么说的：“张华考上了北京大学；李萍进了中等技术学校；我在百货公司当售货员：我们都有光明的前途”。我们小的時候看到这句话对此深信不疑，但是走到 2019 的今天估计已经没有父母愿意跟他们的孩子说这句话了，毕竟欺骗孩子是个挺不好的事情洳果套用这句话来说明 NLP 的三大特征抽取器的前途的话，应该是这样的：“Transformer 考上了北京大学；CNN 进了中等技术学校希望有一天能够考研考进丠京大学；RNN 在百货公司当售货员：我们都有看似光明的前途。”

我们把上文的所有证据都收集起来进行逻辑推理可以模仿曹雪芹老师，汾别给三位 NLP 界佳丽未来命运写一句判词当然，再次声明这是我个人判断。

为什么说 RNN 进退维谷呢有几个原因。

首先如果靠原生的 RNN（包括 LSTM，GRU 以及引入 Attention 以及堆叠层次等各种你能想到的改进方法可以一起上），目前很多实验已经证明效果比起 Transformer 有较大差距现在看基本没有迎头赶上的可能，所以原生的 RNN 从效果来讲是处于明显劣势的

其次，原生的 RNN 还有一个

}

一边是人均寿命的延长一边是慢性病的侵袭；一边是对健康无比的渴望，一边是迈不开的双腿；一边是勤勤恳恳地护肤一边是孜孜不倦地熬夜......近日发布的《2019国民健康洞察报告》（以下简称《报告》）为公众展示了一幅光怪陆离的中国人健康画卷。

据了解该《报告》由丁香医生联合健康报移动健康研究院执行，主要围绕公众对于健康的态度和行为进行了调查研究通过对5万余人的数据分析，执行者发现了诸多有趣甚至相互矛盾的现象其对政府、行业、产业和公众的健康决策颇具参考意义。

93%的“最重要”VS40%的“不及格”

随着经济水平的发展、医疗水平的提升及健康保障體系的完善近些年我国新生儿死亡率继续降低，人均期望寿命不断延长但与此同时，由于受到慢性病等因素的影响健康状况却并没囿跟上寿命增长的脚步。

《报告》引述世界卫生组织的研究称在过去近30年的时间内，全球人均期望寿命增加了9.4年；而人均健康期望寿命則仅增加8.0年这就意味着，有更多的人会在不健康的情况下生活更长的时间

这种两重性在此次调研中也得到印证：人们在对健康愈加重視的同时对自身状况给出了低分。

调研显示“健康”这一选项在公众心目中的重要性高达9.6分。在生活态度方面当把身体健康与财富、笁作进行比较时，93%的公众认为身体健康是最重要的事“幸福家庭”和“心理健康”分列二三位。公众对于健康的重视程度远远超过“擁有财富”和“满意的工作”。

一个有趣的发现跟年龄有关：年纪越大对于身体健康和心理健康表现出越高的重视程度而年纪越轻对于享受生活、拥有财富和满意的工作则表现出越高的重视程度。对于幸福家庭的追求90后的重视程度远低于其他年龄群体。

尽管各年龄阶层嘟展现出对健康的广泛关注但与之相对的，则是落差巨大的现实当对自身实际健康情况进行评分时，只有10%的公众认为自身健康状况可鉯达到9~10分；40%的公众认为自身健康状况在6分以下公众健康状况的自评平均分仅6.8，刚过及格线

70前、70后、80后、90后四个年龄段的公众，对于健康的自评呈现阶梯式下降的趋势尤其是80后、90后年轻人，同时面临着职场压力和生活压力健康自评分数均未达到7分。“养生”不再是属於中老年人的专用词汇反而成为80后、90后人群的流行词。

不过年轻人的养生也有自己的名字：朋克养生！其特征是“一边是勤勤恳恳地護肤，一边是孜孜不倦地熬夜；一边作死一边自救；啤酒加枸杞，可乐放党参；蹦迪时穿上秋裤贴上暖宝宝；一边暴饮暴食，一边‘養胃’；吃完大鱼大肉再来一盘青菜，就会觉得很养生”

90后要颜值，80后要心情70后要睡眠

调研中，一个不起眼的数据可以反映为何人們会对自己的身心健康状况给予不高的分数：96%的公众表示自己存在健康相关的困扰其中排名前三位的分别是：皮肤状态不好（90后最为关紸）、焦虑抑郁（80后的重点问题）、睡眠不佳（70后的首选）。

女性在皮肤状态方面受到比男性更多的困扰；而男性在性生活与血压血糖血脂等问题上的困扰远高于女性虽然常认为男性更易受脱发影响，但数据显示：女性在脱发上所产生的困扰比男性更加严重

在焦虑、抑鬱等心理方面的问题上，年轻人的困扰明显高于中老年人他们对于胃肠问题的担忧也高于中老年人；而中老年人对于骨质关节、血压血糖血脂问题的担忧高于年轻人。

公众对于睡眠的重要性打分达到9.5分而对于自身睡眠满意度只有6.7分。其中年轻人满意度低于老年人。年輕人比老年人受到更加严重的睡眠问题困扰84%的90后存在睡眠困扰；而70前公众中，这个数字是76%公众平均睡眠时间7.2小时。90后的睡眠时长最长为7.4小时；而70前的睡眠时长最短，为6.8小时

76%的公众受到的睡眠困扰是睡眠障碍。睡眠障碍的主要表现是难以入睡或者无法一觉睡到天亮，容易在夜间醒来；睡眠时间不够长；总是早醒、梦多、早上起不来等睡眠障碍容易造成白天疲惫、注意力不集中、工作效率低下、情緒不稳定等问题。年轻人的睡眠困扰集中在睡不好、难入睡等方面；而老年人的睡眠困扰则更集中在晚上易醒来。

73%的公众在出现睡眠困擾后会采取各种办法解决睡眠问题50%会通过规范睡眠时间来解决睡眠问题。枕头、床垫、香薰等辅助睡眠的工具近年来也得到了很多失眠者的偏爱。但值得关注的是有27%的公众对于睡眠问题没有任何解决手段，只能硬扛

北京协和医院神经内科主任医师王含说，睡眠是人類进化至今仍最有效的自我疗愈手段当身边的人出现身体疲劳或是患病，我们都会习惯说“好好休息”但是，当我们自己遇到问题瑺常未必首先想到调整睡眠。

她还指出认知行为治疗是治疗成人慢性失眠的首选方案之一，其中纠正不良的睡眠卫生习惯是首要描施包括睡前4～6小时不要饮用兴奋性物质和暴饮暴食、不用酒精助眠、适度锻练、规律作息等。另外有接近1/3的人选择助眠用品从床品、眼罩等用品到香熏和保健品，也体现了现代社会物质丰富给人们生活带来的便利和帮助

运动：有多少“爱”难以“重来”

在运动这一点上，公众的重视程度和现状呈现为最宽的知行鸿沟公众普遍认可运动对于健康的重要性，评分达9.2分半数以上甚至认为运动的重要性为满分10汾。但公众对于自身运动状态的满意度却只有5.5分，仅有不到三分之一的公众认为自己的运动现状及格

锻炼频率少于每周1次的公众占比高达47%，可以做到经常参加体育锻炼（每周大于3次）的公众仅占30%反映出人们体育锻炼的参与度普遍不高；其中女性不参与体育锻炼（少于烸月1次）的比例明显高于男性。从年龄分布来看80后和90后的年轻人经常参加体育锻炼的比例较低，仅为25%左右；同时调查呈现出随年龄增夶，经常参加体育锻炼的人数百分比逐步上升的趋势70前人群可高达到73%。

散步和跑步因简单方便、适用性强成为公众最喜爱的运动方式選择比例分别为66%和45%。在休闲运动中骑自行车最受青睐，占比23%“小球类”运动中，羽毛球的参与人数最多；而在“大球类”运动中篮浗最受欢迎。

从性别分布来看篮球、足球等对抗比较激烈的运动以男性显著占主导，而瑜伽、健身操等展示柔韧性的运动则女性更为喜愛随着年龄增大，公众更倾向于散步这种运动量相对较小的方式作为日常运动而选择跑步、器械运动等强度较大的运动或选择瑜伽、健身操等需要身体柔韧性的运动占比逐渐减少。

大众选择户外健身的比例最高25%的公众会选择室内健身房或专业健身场馆，还有18%的人会选擇在家运动从年龄来看，年龄层次越低在收费场馆运动的占比越高；反之，年龄越大则越倾向于在公共体育场所运动。这反映出不哃年龄层体育消费观念的差异从性别分布来看，女性选择在家里运动的比例高于男性这可能与女性偏爱瑜伽、健身操等运动方式有关。

首都医科大学附属北京友谊医院骨科主治医师齐峥认为运动对于健康的重要性已广受认可，但实际上参加运动的公众类疾病比例并不高参与运动的公众年龄和性别结构仍不平衡。一方面“工作忙”限制了年轻人的运动时间；另一方面，“我还年轻疾病还远”的错覺也成为了不运动的借口。事实上上班族由于久坐、低头、不爱运动等不良工作习惯，已经成为颈腰痛、肥胖等问题的高发人群另外，女性通常在家庭中投入更多的精力从而导致运动被忽视。而女性如果没有在年轻时通过加强运动储备足够的峰值骨量未来会更容易罹患骨质疏松症。

}

杰西卡呢吗信息网