又可以语音输入和语音控制的区别又可以存下语音回听的软件是什么

自然语言处理(NLP)广义上来讲包括对各种形式的自然语言的处理,即既包括文本也包括语音。不过因为对语音的处理涉及信号处理,跟文本处理的感觉不太一样所以常常把语音单独拿出来说。这样狭义的 NLP 就单指对文本的处理了。

对文本和语音的「处理」也是一个很广的概念。对文本的处理(即 NLP)包括 parsing、信息提取、情感识别、翻译、生成等等;对语音的处理包括语音识别、说话人识别、情感识别、语种识别、语音合成、语音转換、语音分离、语音增强等等

自然语言处理和语音处理中的各种任务,都要用到机器学习的方法可以认为这二者是机器学习的应用领域。一般说「研究机器学习」可以指研究机器学习的方法与理论本身,也可以指研究机器学习的应用

无论从事自然语言处理、语音处悝、机器学习中的哪一个领域,都要会编程但是醉翁之意不在酒,这些领域中的编程更多地是利用已有的算法和模块实现自己的目的洏不是从头去实现算法。所以 ACM(主要锻炼高效算法的实现)、并行结构之类的知识都不是所有人都必需的而是要看你做的具体任务。

另外这些领域都需要线性代数、微积分、概率论这几种基础数学知识。做自然语言处理和语音处理都还需要少量的语言学知识;做语音处悝还需要少量信号处理知识

}

前端处理、语音识别、说话人识別、语音合成等语音相关技术的最新进展如何人机交互未来的研究方向又是什么?

本次分享的主题是:人机交互相关的核心技术

分享嘉賓:极限元技术副总裁、中国科学院自动化研究所副研究员温正棋博士

语音作为互联网的一种入口方式正在侵入我们的生活,人机交互嘚核心——对话系统对交互的应用至关重要,人脑与机器智能的结合能够突破现有技术瓶颈吗?下面就由温正棋博士为大家介绍人机茭互相关的核心技术

从整个交互系统接入用户的输入信息开始,包括语音、人脸、多模态情感相关的信息我们在对话系统里面对输入嘚信息进行理解,通过这个对话部分以后产生输出最后用文字也可以用语音合成展现出来,这就是整个流程其中我们关注的最主要的昰语音部分以及对话系统部分,其他的多模态今天的分享不会涉及太多

国内研究语音相关的团队主要包括科研院所、语音技术公司以及互联网公司三部分:

(1)科研院所主要包括高校和科学院,比如科学院里有声学所、自动化所高校里面研究比较多的清华、北大、西工夶、科大、上海交大等,这些都是在语音圈里占有较高位置的老牌队伍

(2)语音技术公司包括我们比较熟悉的科大讯飞、云知声、思必馳、捷通华声,还有我们极限元

(3)互联网公司包括BAT、搜狗等拥有强大的语音技术团队来支撑着其本身的很多业务。

在应用对话系统时首先从语音输入和语音控制的区别开始要有一些前端处理,包括硬件和软件的前期处理;接下来是语音内容说话人识别等相关的内容進行判别,对话系统根据输入信息来进行对话逻辑的分析以及对应语言的产生,最后由语音合成系统来合成语音在这里重点介绍一下湔端处理、语音识别、说话人识别语音合成等相关技术。

前端处理技术的研究进展

前端处理包括回升消除、噪声抑制、混响抑制等技术剛开始时研究前端处理的人员并不多,近年来特别是ECHO的推出把一些远场的问题融入到语音识别等系统中,所以这部分的研究在这几年兴起比较快语音识别的研究从一些简单的数据如手机的录音扩展到远场的语音识别,这些促进了前端处理技术的发展在语音圈里做前端處理比较牛的应该是陈景东老师。

回声消除:回声消除在远场语音识别中是比较典型功能最典型的应用是在智能终端播放音乐的时候,遠场扬声器播放的音乐会回传给近端麦克风此时就需要有效的回声消除算法来抑制远端信号的干扰,这是在智能设备如音响、智能家居當中都需要考虑的问题比较复杂的回声消除系统,近端通过麦克风阵列采集信号远端是双声道扬声器输出,因此近端需要考虑如何将播出形成算法跟回声消除算法对接远端需要考虑如何对立体声信号相关。

噪声抑制:噪声抑制可以有多通道的也可以有单通道的今天主要介绍单通道噪声抑制,单通道语音增强通过DNN的方法进行增强语音信号是有一个谐波结构的,通过加入噪声这个谐波结构会被破坏掉语音增强的主要目的就是抬高波峰,降低波谷这个训练对DNN来说是比较容易的。但是也有实验研究表明基于DNN的语音增强对浊音段效果會比较好,但对轻音段效果并不是很好语音的浊音段有显著谐波结构,因此要有目的去训练这个模型

混响抑制:声音在房间传输过程Φ经过墙壁或者其他障碍物的反射后到达麦克风,从而生成混响语音混响的语音会受到房间大小、声源麦克风的位置、室内障碍物等因素的影响,大多数的房间内混响时间大概在200--1000毫秒范围内如果混响时间过短,声音会发干枯燥无味,不具备清晰感混响时间过长会使聲音含混不清,需要合适的声音才能圆润动听

前端处理涉及的内容比较多,除了前面提到的还包括多说话人分离、说话人移动过程中的聲音采集、不同的麦克风阵列结构、各种噪声和房间模型如何更好的建模等

语音识别技术的研究进展

有了前端处理以后,反馈回来的信息会加到训练语音识别模型语音识别主要是建立一个声学参数到发音单元的映射模型或者叫判别模型,现在的方法从传统的GMM-HMM模型到DNN-HMM混合模型再到最新的端到端的CTC相关的。语音信号经过特征提取得到声学特征再通过声学特征训练得到声学模型,声学模型结合语言模型以忣发音辞典构建声码器以后最终识别出文本。

GMM用来对每个状态进行建模HMM描述每个状态之间的转移概率,这样就构建了一个音素或三因孓的HMM模型建模单元GMM训练速度相对较快,而且GMM声学模型可以做得比较小可以移植到嵌入式平台上,其缺点是GMM没有利用真的上下文信息哃时GMM不能学习深层的非线性特征变换,建模能力有限

随着深度神经网络的兴起,深度神经网络也应用到了语音识别里面声学建模主要昰替换了GMM-HMM模型里的GMM模型,上端仍然是HMM模型加状态转移在GMM模型里面可能有500至1万个状态,这个状态可以通过DNN模型预测出每个的概率输出的僦是一个三因子,我们两者结合起来构建基于DNN-HMM的声学模型

DNN能利用的上下文系统在输入端进行扩帧,同时又非线性变换可以学习到但DNN不能利用历史信息捕捉当前的任务,因为扩帧是有限的不可能无限扩下去,所以他输入的历史信息还是有限的因此自然而然的有了基于RNN嘚混合声学模型,将DNN模块替换成RNN模块RNN能够有效的对历史信息进行建模,并且能够将更多的历史信息保存下来可于将来的预测。但是在RNN訓练过程中会存在梯度消失和梯度膨胀的问题梯度膨胀可以在训练过程中加一些约束来实现,当梯度超过一定值以后设定一个固定值泹是梯度消失很难去把握,因此有很多方法解决这种问题比较简单的一个方法是将里面的RNN单元变成长短时记忆模型LSTM,这样长短时记忆模型能够将记忆消失问题给很好的解决但这样会使计算量显著增加,这也是在构建声学模型中需要考虑的问题CNN用于声学模型的建模有一個比较老的方法,在DNN的前端加两层的CNN变换这样只对参数做了一定的非线性变换,变化完以后输入DNN和LSTM里面但是随着非常深的CNN在图象识别裏面成功应用,这些也被运用到了声学模型中比如说谷歌、微软、IBM均在2016年发表成果证明非常深的CNN模型已经超越其他深度神经网络的模型,其词错率是最低的

CTC本身是一个训练准则并不算声学模型,在DNN输出中每个phone他占用的帧数可能有十帧二十帧,因为它不是一个尖峰但CTC會把它变成一个尖峰,CTC可以将每一帧变成一个senones或者对应一个因数但每个因数只需几帧就可以了,在解码的时候可以把一些blank帧给去掉这樣可以显著的增加解码速度。减少解码帧有两种方法一种是通过减帧、跳帧的方法,另一种在解码过程中有一个beam特别是遇到beam的时候把並值减少,我们的实验结果跳帧会比较好

在NLP中应用较多的Attention端对端的声学模型能够从RNN历史信息中挑选出比较重要的信息对词学进行建模,目前的准确率比较低这应该是一种趋势,至少在NLP中证明了它是比较成功的

在声学模型中还有TDNN和chain模型,在声学模型中帧及运算过程中会囿一些重叠它有效的去除了信息冗余,嵌入模型也是一个训练准则采用单状态模型,融入了MMI区分信息链准则在训练过程中可以实现跳帧,这也加快了解码速度总结起来现在的语音识别模型更新特别快,最重要的核心内容就是数据如果数据量足够大的话,做出一个恏的结果还是比较容易的而且我们现在语音识别核心模块主要是在一些解码模块上调优上,这相当于是一种艺术

语音合成技术的研究進展

语音合成是建立文本参数到声学参数的影射模型,目前的方法有拼接合成、参数合成还有端对端的语音合成

基于HMM统计参数的语音合荿是在训练过程中建立文本参数,如韵律参数、普参数和基频参数的映射模型通过决策数聚类的方法对每一个上下文相关的文本特征构建GMM模型,训练其GMM模型在合成时对输入文本预测出它的GMM以后,通过参数生成算法生成语音参数然后再输出语音。在这个过程中有三个哋方会产生语音音质的下降,第一是决策树的聚类第二是声码器,第三是参数生成算法针对这三个问题,我们接下来看看各位研究者提出的解决方法

针对决策树聚类的问题,我们可以将里面的HMM决策树据类变成一个DNN模型文本参数到语音参数的一个映射可以很容易通过DNN來实现,而且在实验效果会比决策树好一点但是并没有达到我们理想中的那种很惊艳的一些结果。

除了DNNRNN也用到了统计参数语音合成中,而且RNN里面单元采用LSTM模型我们可以把参数生成算法这个模块从统计参数语音合成中去掉,这样在基于LSTM-RNN中直接预测出语音参数通过声码器就可以合成语音,跟RNN-LSTM预测出一阶二阶统计量以后采用参数生成算法,生成语音参数合成语音的话效果差不多所以RNN-LSTM可以把里面的参数苼成算法给去掉。

最近几年大家在这方面声码器问题上做了很多工作比如WaveNet其实也属于声码器的模型,建立一个现今预测的模型通过前媔采样点预测出后面的采样点,但是存在几个问题:比如刚开始速度比较慢这个问题后期被很多公司都解决了,而且它并不是一个传统嘚vocoder需要文本参数作为它的输入。它有好处是在输入过程中可以很容易的在后端控制说话人的特征,比如不同说话人情感特征这些属于外部特征我们都可以进行很好的加入

还有一个比较成功的是百度的Deep Voice,它将里面的很多模块用深度神经网络去实现而且做到了极致,这樣我们在最后通过类似WaveNet的合成器来合成效果也是比较理想的。

下面两个端对端的语音合成第一个是Char2Wav,这个模型是直接对输入的文本他進行编码采用的模型。对输入的直接对输入的叫字母进行编码然后生成中间的一个编码信息放到解码器里进行最后的合成,合成采用SimpleRNN嘚合成器来合成语音效果也是比较理想的,而且是纯粹的End-To-End的一个语音合成模型

再一个是谷歌提出的端对端的语音合成系统,它跟Char2Wav比较類似输入的也是Embeddings,合成更加直接比RNN更好

语音合成前期工作主要放在前端文本分析上,因为我们在听感上可能更关注但是如果有一些佷好的End-to-End的模型出来以后,文本分析的工作并不是很重要我们也可以在后端中加入一些文本分析的结果进行预测,这即是一种尝试也是┅种很好的办法。现有的合成器的音质不再首先考虑我们采用哪种声码器我们采用直接生成的方法在实域上直接进行合成。语音合成更偅要的是一些音库我们不能忽略音库在语音合成中所占据的位置,以及它的重要性目前,极限元智能科技语音合成定制化支持录音人選型、录音采集、语料标注还能实现模型迭代训练、合成引擎优化,支持在线、离线模式适用多种平台。

说话人识别技术的研究进展

說话人识别也就是声纹识别简单介绍一下现有的I-vector的系统以及如何将DNN应用到对应的I-vector系统,同时我们也跟踪了最近end to end的一种方法基于Ivector的系统,通过UBM模型来训练数据然后训练得到混合高斯模型,通过统计量的提取比如零阶一阶二阶我们来训练它的差异空间T,从而提取出它的Ivector最后考虑到不同的补偿方式进行信道补偿,使性能更加完善同时我们在合成端、最后识别端也可以考虑不同系统的融合提高最终的准確率。

将DNN用到说话人识别主要是针对Ivector的系统,UBM训练是一个无监督的训练方式不考虑音速相关的信息,因此就不考虑每个人说话音速在聲学空间上法人不同我们可以将这部分信息运用到说话人识别中,将前面提到的Ivector需要提到的临界统计量通过DNN模型的输出把临界统计量來进行替换,在训练Ivector的过程中考虑了每个人音速,发音音速相关的不同特征这样会更好的对说话人进行识别。

DNN还有一种应用形式采鼡bottleneck特征替换掉原来的MFCC,PLP相关的特征这也是从音速区分性,每个人发音音速不一样来考虑的

百度前段时间提到的一个Deep Speaker,这部分最主要的優点是采用了Triple Loss这种方法能很好的用于训练中。原来如果要训练一个说话人可能是输出是一个one-hot但是speaker的训练语并不是很多,所以训练效果並不是很好如果我们采用这种训练误差的,可以构建很多对训练参数来进行训练这样模型会更加棒。

以一个简单的智能客服平台技术原理说明它采用了基于状态转移图的结构来控制对话的进行在这个状态转移图中,表示了所有对话片断与用户意图之间的关系系统根據用户的意图和当前知识库中的对话片断转到下一个对话片断,并根据每个状态的定义对用户做出应答整个对话的过程是在状态转移中實现的。

智能客服平台训练阶段主要针对本身已有的系统进行简单的数包括两个虚拟人,在运行过程中对虚拟人的提问通过关键词抽取对关键词进行匹配,然后找到对应的它的状态相关的信息得到最优问题解答再进行返回。

POMDP是一个六元组包括状态集合、观察集合、荇动集合、回报函数、转移函数和观测函数,根据用户输入语句来得到意图分类然后根据意图分类得到观测值,再通过对立面POMDP里面的训練分布进行更新训练分布与POMDP结合得到动作,分析各个子动作得到反馈后再接收新的数据比如我要去上海,它会问你从哪里出发用什麼交通工具,对应一些信息比如说查天气,因为查天气的时候你需要反馈到是上海的天气还是北京的天气这些都会根据上面的语句进荇提问。

人机交互未来的研究方向

除了前面提到语音作为主要接口的一种对话形式我们也会考虑一些多模态相关的信息,比如对于用户囷机器人当中有一个人机交换属于人机协同,但是需要处理的信息会比较多比如机器人会根据用户输出个性化声音,同时融合多元情感融合的处理机器人会根据你输入的信息进行自主学习以及智能生长,这些都是将来人机交互这块需要考虑的问题

基于交互学习的知識问答和智能生长,目前最主要基于短时工作记忆未来主要工作可能转换到长时记忆的转换,同时我们也能对新知识进行快速的学习和哽新

我们考虑的信息除了听觉信息还有视觉信息,通过多模态融合的方法我们也会研究在脑部这些脑区功能的一些主要关注点,这些嘟会成为将来的研究点对话平台有了前面的多模态的信息输入,我们希望把这些都融合起来做成一个多模态融合的一个对话系统

语音莋为互联网的重要入口,功能得到了大家越来越多的重视当然语音产业也需要更多的人才去发展,目前对话系统的功能在体验上有些不悝想这也是行业从业者需要考虑的问题,同时我们在将来会研究采用多模态智能生长等相关交互技术促进人机交互的发展。

作者介绍:温正棋极限元技术副总裁、中国科学院自动化研究所副研究员,中科院—极限元“智能交互联合实验室”主任毕业于中国科学院自動化研究所,先后在日本和歌山大学和美国佐治亚理工学院进行交流学习在国际会议和期刊上发表论文十余篇,获得多项关于语音及音頻领域的专利其“具有个性化自适应能力的高性能语音处理技术及应用”获得北京科学技术奖。在语音的合成、识别、说话人识别等领域都有着多年深入研究经验并结合深度学习技术开发了多款语音应用产品。

极限元智能科技是由一批来自高科技企业的精英人才联合创竝并与中科院、清华等科研院所高校有着紧密合作。公司致力于发展人工智能技术与中国科学院自动化研究所联合挂牌成立“智能交互联合实验室”,是国内少数可以提供人工智能全套技术解决方案拥有自主产权的智能语音、机器视觉、大数据分析等人工智能技术的公司之一;极限元在北京、杭州设立公司,其客户有网信办、腾讯、奇虎360、搜狗、公安部门等

}

我要回帖

更多关于 语音输入和语音控制的区别 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信