如何正确的检测自己的乐基音响是多少?

基音周期_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
很​好​很​强​大​@​!
阅读已结束,如果下载本文需要使用
想免费下载本文?
把文档贴到Blog、BBS或个人站等:
普通尺寸(450*500pix)
较大尺寸(630*500pix)
你可能喜欢两种基音周期检测方法_中华文本库
第1页/共5页
文本预览:
基音周期中两种算法 常用的基音周期检测方法-自相关函数法、倒谱法、平均幅度差函数法都属 于非基于事件基音检测方法,都先将语音信号分为长度一定的语音帧,然后对每 一帧语音求平均基音周期,它们的优点是比较简单,主要应用于只需要平均基音 周期作为参数的语音编解码,语音识别等。 自相关函数具有很好的抗噪性,但易受半频、倍频错误影响。平均幅度差函 数只需加法、减法和取绝对值等计算,算法简单;它们在无背景噪声情况下可以 精确地提取的语音基音周期,但在语音环境较恶劣、信噪比较低时,检测的结果 很差,难以让人满意。
2.1 基于短时自相关函数的方法
能量有限的语音信号 {s (n)} 的短时自相关函数 [10][11] 定义为:
Rn (τ ) =
N -1-τ m=0
∑ [s(n + m)w(m)][s(n + m + τ ) w(m + τ )]
其中, τ 为移位距离, w(m) 是偶对称的窗函数。 短时自相关函数有以下重要性质: ①如果 {s (n)} 是周期信号,周期是 P ,则 R (τ ) 也是周期信号,且周期相同, 即 R (τ ) = R ( P + τ ) 。 ②当τ=0 时,自相关函数具有最大值;当 τ = 0, + P, +2 P, +3P …处周期信号 的自相关函数达到极大值。 ③自相关函数是偶函数,即 R (τ ) = R (-τ ) 。 短时自相关函数法基音检测的主要原理是利用短时自相关函数的第二条性 质,通过比较原始信号和它移位后的信号之间的类似性来确定基音周期,如果移 位距离等于基音周期,那么,两个信号具有最大类似性。 在实际采用短时自相关函数法进行基音检测时,使用一个窗函数,窗不动, 语音信号移动,这是经典的短时自相关函数法。窗口长度 N 的选择至少要大于 基音周期的两倍, N 越大,短时自相关函数波形的细节就越清楚,更有利于基 音检测,但计算量较大,近年来由于高速数字信号处理器(DSP)的使用,从而使 得这一算法简单有效, 而不再采用结构复杂的快速傅里叶变换法、 递归计算法等;
第1页/共5页
寻找更多 ""上,给出 了两种准确性和鲁棒性都相对较高的基音检测算法,并将基音频率作 为特征参量应用于方言辨识系统。论文的研究工作和成果有如下几个 方面: (1)对目前国内外几种典型的基音检测算法进行了阐述与分析, 并通过仿真实验,对不同算法进行了比较和评价。 (2)提出一种清浊音分类与多带激励(MBE)自相关法相结合的 基音检测算法。该方法采用多参数高斯混合模型对语音信号的清浊音 进行判决,对浊音信号采用多带激励自相关法进行基音检测。实验证 明,该方法与传统自相关法相比,提高了清、浊音判决率,特别是在 清、浊音过渡音段,有效改善了语音的基音轨迹。 (3)提出了一种将预测神经元模型与LP.CEP相结合的基音检测 算法。实验结果表明:该算法无论对纯净语音,还是对低信噪比情况 下的含噪语音,其基音检测效果都明显优于传统倒谱基音检测算法。 (4)建立了基于SOM神经网络和支持向量机(SVM)的汉语方 言辨识系统。该系统以湖南方言作为研究对象,借助SOM神经网络 对不同方言的基音频率进行聚类,并用SvM作为最终的决策辨识器。 实验结果表明:该系统实时性和辨识率较好,可适用于信噪比低的情 况。关键词:语音信号,基音检测,SOM,SVM,方言辨识Ⅱ ABSTRACTAsoneofthe important parameters of speech signal, of pitch frequency istheforaccurateextractioncrucialhigh―quality voice synthesis and analysis,coding, speech recognitionasspeech compressionwellasspeaker verification.Ontwothe basis of the further study of traditional algorithm,kinds ofpitchdetectionarealgorith咀withrelativelyhighaccuracy toand robustnessproposed in thi s paper.Wi th regardsystempitch frequency, it is appl ied in dialect recognitionthe characteristic parameters.paper areasasThe research and results ofthef0110ws: of several(1) With the elaboration and analysispitch detectiontypical andalgorithmsintheworld,comparisonevaluation of different algorithmsexperiments:aremade through simulation(2)A pitch detection algorithm withclassificationofacombination of theandun―voiced/voicedis presented.speechtheusesMBE theself―correlation methodThe methodmulti―parameter Gaussian to realize the voicing decision,andofthe pitch period of voiced speech is extracted by theMBEmeansautocorrelation pitch detection method.newTheresults ofsimulation show that themethod has better performance thanⅡI that ofconventional Autocorrelat ion algorithms,espec ial 1y inparts betweenthe transit ionalgetmorethe surd and thesonant.It mayaccuratevoice/unvoiced decisions,and improve thepi tch 10cus.(3)Apitchdetection algorithm withacombinationofprediction neural model and LP―CEP is presented.The simulatedpitch detection results show that the pitch extractionerrorof the proposed algorithm is significantly lower than that ofthe conventionalcepstrumbased algorithm both for clean speechand in low SNR of noisy speech.(4)AaChinese dialect identification system which basedonmixed SOM neural network and SVM i s proposed in thi saspaper.Hunan dialects have been selectedthe researchobject.SoMis applied to cluster for the MFCC of various dialects,and SVM is usedasthe final implement of decision and identification.The results show thatthissystem has atreal一t imeapropertyandidentificationratio.rate,especiallylowsignal―to―noiseKey words:Speech Signal,Pitch Detection,SOM,SVM,DialectIdentificationⅣ 湖南师范大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:一冶爹交易扩。夕年/月≥日?湖南师范大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定, 研究生在校攻读学位期间论文工作的知识产权单位属湖南师范大学。同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南师范大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于 l、保密口,在 2、不保密留。年解密后适用本授权书。(请在以上相应方框内打“√”)苷耄灾 导师签名:售《7缪峻作者签名:日期:三哆年占日期:月2日沙7年多月二日 基音检测算法研究及其在方言辨识中的应用第一章绪论1.1课题背景及意义1.1.1语音信号处理 语音信号处理是研究用数字信号处理技术对语音信号进行处理 的一门学科,是许多信息领域应用的核心技术之一。语音信号处理是目前极为活跃和热门的研究领域,其研究涉及一系列的前沿科技课题,且处于迅速发展之中;其研究成果具有重要的学术及应用价值。 它主要包括语音编码、语音合成、语音识别、说话人识别及语音增 强‘1]【2】。 1.1.2基音及其检测技术 人类的发音过程是由于肺部的收缩,压迫气流由支气管经过声门 和声道引起音频振荡而产生的。其中声道起始于声门而终止于嘴唇, 包括咽喉、口腔、鼻道则是从小舌开始到鼻孔为止。发音过程中声道 各处的截面积取决于舌、唇等的位置。人类发音过程有三类不同的激 励方式,因而能产生三类声音:浊音、清音和爆破音。当声道中某处 截面积很小,气流高速冲过此处时产生湍流,气流速度与截面积之比 大于某个门限时便产生清音。如果声道某处完全闭合,然后突然释放 这样产生的声音就是爆破音。而当气流通过声门时,声带的张力刚好 使声带发生较低频率的张弛振荡,形成准周期性的空气脉冲,这些空 气脉冲激励声道,便会产生浊音。在发浊音时,声带振动的基频称为 硕+学位论文基音频率,其周期称为基音周期‘3】【4】。 基音周期作为语音信号的一个重要参数,反映了语音激励源的一 个重要特征。它的检测和估计是语音信号处理中的一个非常重要的问 题,一项重要技术之一,与许多语音信号处理技术相关。语音信号的 基因周期提取问题的实质上也就是准周期的周期估计问题。一个好的 基音声调的提取算法对于高质量的语音数据合成、语音数据编码及机 器识别等方面都具有十分重要的意义‘11。 1.1.3方言辨识 语种识别,是指计算机通过分析未知说话人所讲的一段语音来辨 认所讲的是何种语言的一项技术,本质上可以认为是语音识别的一个 方面。最早的语种识别问题起源于在智能设备中的应用。智能设备只 有听懂人的语言了解人的意愿才能更好地为人服务。要听懂人的语言 首先要让机器辨别出所说语言的语种,语种识别问题也因此应运而 生。这项研究首先在人员交往最频繁的欧美各国展开,得到欧美各国 的高度重视,各项新技术不断涌现,国内对语种识别的研究还不多见【5】【6】。当说话者地方口音较重时,机器还必须辨识出其所属的方言地区 才能更好的为其服务。方言辨识是在已知一段发音所属语种的前提下根据讲话者的发音判断其所属方言区域的一项技术,作为语种识别的一个新兴领域,它越来越受到更多研究者的关注。 中国作为一个多方言多民族语言的大国,完全有必要开展方言辨 识的研究。此项技术的研究有利于提高方言语音识别系统的识别效 基音检测算法研究及其在方言辨识中的应用率,对提高咨询和声讯服务质量,协助刑事侦查和军事监控等方面也 具有潜在的应用价值【51。1.2相关领域的研究现状1.2.1基音检测技术的研究现状 从国内外研究现状来看,基音检测技术的研究热点和难点已经集中于处理低信噪比语音。着眼于基音的检测方法,主要有以下三个方面的研究:(1)稳定并提取准周期性信号的周期性方法;(2)因周期 混乱,采取基音提取误差补偿的方法;(3)消除声道噪声影响的方法。 人们从语音信号的时域特性、频域和时一频混合特性三个方面出 发,已经开发了许多基音检测方法,这些方法中的一些方案已经得到 了应用。基音检测方法大致上可以分为三类:(1)时域估计法,直接 由波形来估计基音周期,常见的有:自相关(ACF)法吲、平均幅度 差法【81等;(2)频域估计法,利用同态分析方法将声道的影响消除, 得到属于激励部分的信息,然后求取基音周期,常见的有:谐波积谱 (HPS)法,简化逆滤波(SIFT)法【91,倒谱(c印s仃um)法【101等;(3) 混合法,基于以上方法的衍生组合算法,如:自相关法和平均幅度差 法相结合。这些方法在实验室特定条件下都取得了不错的效果。 表卜1列出了几种典型的基音检测方法及特征‘1】 硕士学位论文表卜1几种典型的基音检测方法及特征分类 基音提取法 并行处理法 波形估计法 数据减少法 过零数法 自相关法 特征 由多种简单的波形峰值检测器决定提取的多数基因周 期。 根据各种理论操作,从波形去掉修正基音脉冲以外的数 据 关于波形的过零数,着眼于重复图形 语音波形的自相关函数,根据中心削波,平坦处理频谱, 采用峰值削波可以简化运算。 语音信号波形降低取样后,进行LPC分析,用逆滤波 相关处理法 SIFr法 器平坦处理频谱,通过预测误差的自相关函数,恢复时 间精度 AMDF法 采用平均幅度差函数检测周期性,根据预测误差信号的 AMDF也可以进行提取 根据对数功率谱的傅里叶逆变换,分离频谱包络和细微 结构 在频谱上,求出基频高次谐波成分的直方图,根据高次 谐波的公约数决定基音倒谱法 变换法 循环直方图法目前,基音检测主要存在以下困剌11】:(1)语音信号变化十分复杂,声门激励的波形并不是一个完全的 周期序列。在语音的头尾部并不具有声带振动那样的周期性,对有些 清浊音的过渡帧很难判定它属于周期性还是非周期性,从而对估计基 音周期带来一定的影响。(2)从语音信号中去除声道的影响,直接取出仅与声带振动有关的声源信息并非易事。如声道共振峰可能强烈改变声门波形的结构, 从而严重影响激励信号的谐波结构,会给基音检测造成困难。 (3)语音信号是准周期的,且共振峰结构和噪声有时会影响波峰 和过零率,很难准确定位基音周期的开始和结束。 (4)区分清音语音和低电平语音是导致基音检测困难的另一个重 基音检测算法研究及其在方言辨识中的应用要因素。在许多情况下,清音语音与低电平浊音段之间的过度段是非 常细微的,确认它是极其困难的。 (5)在实际应用中,背景噪声强烈影响基音检测的性能。 (6)基音频域变化范围大,从老年男性的80Hz到儿童女性的500Hz,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,尽管基音提取的方法很多,但迄今尚未找到一 个完善的方法可以对各类人群包括男人、女人、老人、小孩及不同语 种和各种环境条件情况下都能获得满意的检测结果。 1.2.2方言辨识的研究现状 方言辨识作为语种识别中的一个新兴领域,近年来,欧美发达国 家和一些跨国公司对此研究非常重视,即使是方言资源相对贫乏的中 国台湾、新加坡也已有相当的研究f12’”】。2002年台湾学者蔡伟和利用 高斯混合模型对三种汉语方言进行了辨识,取得了不错的效果‘141。 目前国内方言辨识的研究尚处于起步阶段,这方面的报道相对较 少。广西大学陈海伦2000年从语言学角度对用机器进行方言辨识进 行了初步的探讨,但实际上还不是真正意义上的方言自动辨识‘141; 2007年徐州师范大学的顾明亮博士分别采用语音配序、支持向量机、 高斯混合模型建立方言辨识系统,辨识率达到了84.1 7%【15。7】。 就国内外研究情况来看,区分方言的主要方法是采用高斯混合模 型(GMM)、隐马尔科夫模型(HMM)、人工神经网络(ANN)以 及支持向量机(SVM)等进行分类区分。图卜l给出了一种典型的方 言辨识系统。 硕士学位论文方言一的模墅看音信号 前端处理方言_二的模墅 结果判定方言N的模塑图卜1典型方言辨识系统1.3本论文的主要内容和组织安排本论文主要致力于以下三个方面的内容:第一部分,介绍目前常 用的几种基音提取算法,通过仿真实验分析比较各自优缺点;第二部 分,给出了两种新的基音检测算法,即基于预测神经元模型的LP.CEP 算法、基于多参数GMM混合模型的MBE自相关基音检测算法;第三 部分,将改进的基音提取算法应用于方言辨识系统的特征参数提取模 块,采用SOM神经网络和支持向量机作为决策分类器构造方言辨识系 统。在MATLAB 7.O软件平台上,本文对所给出的算法进行了仿真实 验,并通过与其它已提出的相关算法进行比较,验证了本文所给出算 法的优越性。 本文的结构安排如下: 第一章,阐述了基音检测、方言辨识的概念及研究的意义,综述 了其发展状况,并简要介绍了本论文的主要研究内容及各章节的安 排。 第二章,介绍目前国内外的几种主流基音提取算法,通过实验仿 基音检测算法研究及其在方言辨识中的应用真分析比较各种方法的优缺点。 第三章,采用多参数高斯混合模型对语音信号的清浊音进行判决, 提取出浊音信号,运用多带激励(MBE)自相关法对其进行基音检测。 在不同信噪比下,对该算法进行仿真实验,对其准确性和鲁棒性做出 评价。 第四章,为了提高在低信噪比下基音检测的正确率,给出一种改 进的基于神经元模型的LP.CEP基音检测算法,采用MATLAB对该算 法进行仿真实验,对实验结果进行分析和讨论,论证了给出算法的优 越性。 第五章,利用改进的基音提取算法进行语音特征参量提取,SOM 神经网络和支持向量机作为决策器,建立一套方言辨识系统,并给出 处理后系统的性能指标。 第六章,对全文进行总结和展望。 硕士学位论文第二章基音检测的常用算法2.1引言尽管基音检测有许多困难,但因为它的重要性,基音的检测提取 一直是一个研究的重要课题,为此从语音波形中准确地提取基音的工 作,使全世界的科学家忙了几十年,从20世纪60年代以来出现了很 多种基音周期检测方法,特别是在有噪环境下的语音信号的基音周期 检测方面更是提出了许多有效的方法。进行基音检测方面早期研究工 作的国家主要有美国等欧美国家,之后,我国在基音检测方面,尤其 是对汉语的基音检测工作也取得了很大进展。为了提高基音检测的准 确性,降低计算复杂度,人们已经从语音信号的时域、频域出发,开 发了许多基音检测算法【18】。2.2时域算法2.2.1自相关基音检测算法 自相关基音检测算法(ACF)是一种基于语音时域分析理论的较 好的检测算法,自相关函数法的原理是周期信号的自相关函数将在时 延等于函数周期的地方产生一个极大值。因此,通过计算语音信号的 自相关函数可以估计信号的基音。对于离散的数字语音信号序列,自相关函数定义如下【19】:R(足)=∑x(m)x(m+后)(2一1) 基音检测算法研究及其在方言辨识中的应用式中,七为信号的延迟点数。对于随机性信号序列或周期性信号序列, 自相关函数定义为R(七)=熙熹萎工(m)x(m+七)关也是同周期的周期函数。即:(2-2)自相关函数具有以下的性质:如果序列工(刀)具有周期以,则其白相z(,z)=x(刀+Ⅳp)则:(2―3)R(七)=尺(七+以)(2―4)清音信号没有周期性,它的自相关函数没有周期,也没有明显的峰值出现,尺(七)会随着七的增大迅速的衰减;浊音信号具有准周期性, 它的自相关函数尺(后)具有与后相同的周期,自相关函数在基音周期的整数倍位置上出现峰值。根据这个性质可以判断一个语音信号是清音 还是浊音,还可以判断浊音的基音周期。自相关法基音检测正是利用尺(尼)的这一性质对语音信号进行基音检测的。仿真实验所用的原始语音是男声普通话“湖南师范大学”,采样频率为8舭,单声道录音,精度为8bit(注:本章仿真均采用该语音材料)。在这里我们采用汉明窗,帧长取240个采样点,对第30帧加 窗处理。原始语音信号波形如图2.1,检测结果如图2.2所示。 硕士学位论文己斟 坚图2一l语音信号的时域波形恺 罂 葚1皿采样点数,个 阳)输入语音帻蓄20枨盖。 基音检测算法研究及其在方言辨识中的应用第一个峰值的位置来估算。因此该语音信号对应的基音频率为:Z/(6l一1)=Z/60=8000/60=133.33日Z。而位于第21、4l等样本处的峰值与相应于基频时的峰值相差不大,可能将其误认为基音,我们可以 采用对语音信号进行预处理以去除声道响应的影响及其它带来扰乱 的特征。 语音信号的低幅度部分包含大量的共振峰信息,高幅度部分包含 大量的基音信息。因此,任何削减或者抑制语音低幅度部分的非线性 处理都会是自相关函数的性能得到改善【¨。中心削波法是一种使用中 心削波函数进行非线性处理的方法,用以削除语音信号的低幅度部 分,中心削波函数如公式(2.5)所示:f sG)一£当sG)>qyG)=cG)={o其图形如图(2.3)所示:当pG)I≤ci当s(起)<一q(2-5)【sG)+三J Lc【nJCL/所示。CL/~S(n)图2.3中心削波函数根据以上理论对原始语音信号进行削波处理,实验仿真结果如图2.4 硕七学位论文1恻 罂皋 l 重0.50旬.5≤A东歹:礁众歹蚕天三如一0 50 100 150 200 250采样点数,个 (a)原始语音帧型馨S 1 皿采样点数,个(b)中心削波后的语音帧图2.4原始语音信号的削波处理0.2lI0.15籁暴o.,罂皿0.05I0 0、L 50 100,150_八200250采样点数,个图2.5削波语音信号的自相关函数由图2-4可知:原始语音信号在经过中心削波后只保留了超过削 波电平的部分,其结果是削去了许多和声道响应有关的波动。图2.512 基音检测算法研究及其在方言辨识中的应用为削波语音信号的自相关函数。由图可知:经过中心削波的语音通过 自相关运算后,在基音周期的位置呈现大而尖的峰值,而其余的次要 峰值幅度都很小甚至没有。错判为倍频或分频的情况就可以大大减 少,因此可以获得更理想的性能。 2.2.2平均幅度差函数法语音信号{s(刀))的短时平均幅度差函数(AMDF)定义为‘81:1^,一IE(后)=去∑Is(靠+朋)w(历)一J(刀+研+后)w2(朋+后)I工~一七0(2-6)其中,w(m)是窗函数,尺是信号的平均值,因为语音信号的浊音段具 有周期性,假设基音周期为p,则在浊音段,E(七)在后=p,2p,3p…将出现谷点,谷点间的距离即为基音周期。 与短时自相关函数一样,对周期性的浊音语音,E(七)也呈现与浊音语音周期相一致的周期特性,不过不同的是C(七)在周期的各个 整数倍点上具有谷值特性而不是峰值特性,因而通过E(七)的计算同 样可以确定基音周期。而对于清音信号,E(后)却没有这种周期特性。 利用E(后)的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。由于计算函数只需要加、减和取绝对值运算, 运算量较之短时自相关函数大大下降。同时,函数在基音周期点的谷 值比自相关函数的峰值更加尖锐,因此错判率相对较小,稳健性更高。 但是当语音信号的幅度快速变化时,函数的谷值深度会减小,从而影 响基音估计的精度。 采用平均幅度差函数法进行基音检测,实验仿真结果如图2.6所 示。 硕士学位论文蜊 粤 基1贝采样点数,个 (a)输入语音帧辍圆 删巡 罂 嚣睁采样点数,个(b)输入语音帧的平均幅度差函数图2.6平均幅度差函数法检测基音由图2.6可知:平均幅度差函数在基音周期处表现为谷值,这些谷值之间的间隔的平均值就是所要求得的基音周期。输入语音帧的平均幅度差函数的最小值发生在第l点,其值为O,我们可以设置一定 的门限,得到低于此门限的局部最低点(不包含第1点)。从图中, 我们可以得到谷点的样本值分别为6l、122、183,其间隔平均值为6l。因此对应的基音频率为:Z/(6l一1)=Z/60=8000/60=133.33忽,这和采用自相关法的检测结果完全相同。 2.2.3自相关法与平均幅度法相结合 文献[21】中提出了采用自相关法与平均幅度法相结合进行基音检 测。该方法将平均幅度差函数的倒数作用于自相关函数,利用自相关 函数和平均幅度差函数的统计特性,结合自相关法的鲁棒性好和平均 基音检测算法研究及其在方言辨识中的应用幅度差法计算量小易实现的优点,使基音周期处的峰值突出,更加精 确的提取基音。 利用文献所提出算法,采用MATLAB进行编程实现,实验仿真结 果如图2.7所示:采样点数,个 (a)语音帧的自相关函数籁 闭 椭 世 馨 露 }采样点数,个 (b)语音帧的平均幅度差函数籁 瞬4Ⅱ螵采样点数,个 (c)两者结合图2―7自相关函数法与平均幅度差函数法结合检测基音由图2.7可知:自相关函数法和平均幅度差函数法的基音检测结 果都为133.33HZ,文中所提出方法的基音检测结果为131.15HZ;相 对于采用单一的自相关法或平均幅度法的基音检测的结果,将短时平 均幅度差函数的倒数与自相关函数相结合,在一定的程度上抑制自相 关函数所产生的不必要峰值,加重了基音周期处的峰值,减少了自相 关函数可能导致的半倍和双倍基音提取误差,从而提高了基音检测的 硕士学位论文精度。2.3频域算法2.3.1简化逆滤波跟踪算法 我们在用白相关函数法进行基音检测时,有时候会将语音信号先 经过逆滤波器,企图找到原先声带的原始信号,这个原始信号没有经 过口腔和鼻腔的作用,理论上会比较干净,检测效果会比较好,这种 基音检测方法就是所谓的简化逆滤波跟踪算法。 简化逆滤波跟踪算法是相关处理法进行基音提取的一种现代化 的版本,是检测基音周期的一种有效的方法。这种方法先对语音波形 降低取样率,进行LPC分析,抽取声道模型参数,然后利用这些参数 用线性预测逆滤波器对原信号进行逆滤波,从预测误差中得到音源序 列,再用自相关法求得基音周期。之所以用逆滤波,是因为它是将频 谱包络逐渐平坦下去的过程。得到的线性预测误差信号只包含有激励 信息,而去除了声道的影响,所以它提供了一个简化的频谱平滑器[¨。 简化逆滤波的原理框图如图2.8所示:图2.8简化逆滤波法基音检测流程框图 基音检测算法研究及其在方言辨识中的应用将原始的语音信号瓯表示成为聊个信号的线性组合sG)=口。sG―1)+口:J0―2)+…+口。JG―m)+PG)(2―7)并利用最小平方法找出最佳的{q,口2,...’口。}使得∑%)2为最小。其中:PG):JG)一圭口芦G―f):G“G)f_I(2.8)也就是说,激励信号正比于预测误差信号,其比例常数等于增益常数 G。当线性预测模型与产生实际语音信号的系统十分接近时,我们可以认为此PG)就是所谓的excitation signal(原始激励信号),再用 此PG)来进行ACF,得到语音信号的基音周期。采用简化逆滤波跟踪算法对语音信号进行基音检测,实验结果如 图2.8所示。瑙1 埋io士.,采样点数,个 (a)原始语音信号与线性预测信号型 馨基 1皿采样点数,个(b)线性预测误差信号 籁1累。盖.,采样点数,个(c)原始语音信号与线性预测误差信号的自相关函数图2.9简化逆滤波跟踪算法检测基音 硕士学位论文由图2.9可知:由于语音波形中包含有声道响应即共振峰的作用,而PG)信号代表了声门激励,去除了共振峰的影响,因此,预测误差信号的自相关函数比语音波形的自相关函数好,峰值更加明显,检测结果更加精准。基音检测结果为:Z/(63―1)=Z/62=8000/62=129.03忽2.3.2倒谱法 倒谱法是利用语音信号的倒频谱特征,检测出表征声门激励周期 的基音信息【11】。浊音语音的复倒谱中存在峰值,其出现时间等于基音 周期;而清音语音段的复倒谱则不会出现这种峰值。利用这一性质可 以进行清/浊音判断并估计浊音的基音周期。 这种方法的要点是计算出复倒谱后,进行解卷,提取出声门激励 信息,在预期的基音周期附近寻找峰值,如果峰值超过了预先设定的 门限,则语音段定为浊音,而峰的位置就是基音周期的估值。如果不 存在超出门限的峰值,则语音段定为清音。如果计算的是依赖于时间 的复倒谱,则可估计出激励源模型及基音周期随时间的变化。 对于语音信号s(刀),设其频谱s杪):【,G抄声b加)则s(以)的复倒谱为(2.9)§o):厂一妇洲:厂‘1Inu刎+厂一6n日∽)1(2-lo)倒谱和复倒谱表现出相同的性质,而我们的目的是估计基音周期,因 而没有必要对语音信号的波形进行完全解卷,所以用倒谱cG):厂一1In卜沙]】就完全可以解决。浊音信号的周期性激励反映在倒谱上是同样周期的冲激,因此,可从倒谱波形中估计出基音周期。一 基音检测算法研究及其在方言辨识中的应用般把倒谱波形中第二个冲激,认为即是对应激励源的基频点,相邻两 峰值之间的间隔即基音周期。 倒谱法进行基音检测的工作原理如图2.10所示:r多J(刀)晰h卜(P刊Ⅱ孵峰 值有]E_审检蔫判决嚣▲过零测量工(一)- 无声检潮嚣图2.10倒谱法基音检测流程图采用倒谱法对语音信号进行基音检测,实验仿真结果如图2.1l 所示。图2.11输入语音帧的倒谱由图2.11可知:倒谱在基音周期处出现峰值,相邻相隔峰值之 间的间隔可以确定为基音周期;两峰值之间的间隔大概为60点左右, 基音周期为60/8000=7.50ms,即基音频率为133.33HZ。 硕七学位论文2.4其它算法以上介绍的都是基音检测算法中比较常用的一些方法。近些年 来,国内外很多专家学者在此基础上又提出了一系列新的基音检测方 法,如McGonegal C A等综合利用时域波形信息、自相关法和倒谱法 来进行基音检测,Tetsuya S等提出的加权ACF基音检测算法,冯康 等提出的基于平均能量和幅度差函数的基音检测算法,刘建等提出的 幅度差平方和函数基音检测算法等等【22‘27】。这些算法在一定程度上提 高了检测的精确性和鲁棒性,但很难的任意情况下都保持良好的性 能。2.5本章小结本章从时域、频域出发分别对现有的几种典型基音检测算法进行 了分类、归纳和总结。 通过对选取的语音材料进行实验仿真,我们发现:在实验室条件下,这些方法都能较精确的检测出纯净语音的基音周期。但在实际应用中,由于语音信号的多变性和不规则性以及噪声的影响等等,这些算法很难在各种条件下都保持良好的性能。因此, 我们有必要进一步改进和完善基音检测的算法,以期获得更好的鲁棒 性和精确度。 基音检测算法研究及其在方言辨识中的应用第三章基于预测神经元模型的LP.CEP基音检测算法3.1引言第二章介绍了几种典型的基音检测算法,并对其进行了实验分 析。实验结果表明,在实验室条件下,这些基音检测算法都取得了不 错的效果,但是在实际的应用中,这些算法的准确性和鲁棒性将大打 折扣。 线性预测误差信号由于仅仅保留声门激励信号,避免了声道特性 和噪声的影响,检测基音更为可靠。近年来,国内很多学者,如:王 翠兰、钱博、曾毓敏等等,采用预测误差信号与倒谱法相结合,提出 了一系列改进的倒谱基音检测算法。本章节将在既有研究的基础上, 给出一种将预测神经元模型与线性预测误差倒谱(LP.CEP)相结合 的基音检测算法,并进行仿真实验分析。3.2线性预测模型线性预测分析的思想是将一个语音抽样值用过去若干个抽样和 激励信号的线性组合来描述【11。^,s(刀)=∑qs(,z―f)其中s0)为预测信号,口f为预测系数,则线性预测误差为:^ J口(3.1)e(甩)=s(,z)一s(刀)=s(,z)一∑qs(刀一f)=仇(,z)(3.2)也就是说,激励信号“仍)正比于预测误差信号P(以),其比例常数等于增 硕士学位论文益常数G。由该式可知,e(以)是输入为s(刀)时具有如下形式传递函数的 滤波器的输出:彳(z)=l―F(z)=1一∑口jz一‘(3.3)预测误差信号P(刀)的频谱较平,代表了声门激励,去除了共振峰的作 用,即不存在共振峰的影响,因此用P(以)来检测基音更为可靠‘281。 由公式(3.2)我们可以知道,如果线性预测模型与产生实际语 音信号的系统越接近,线性预测的准确度越高,则线性预测误差信号 就越接近于激励信号,那么用P(以)进行基音检测的效果就会更加理想, 线性预测的准确度取决于预测系数。本文将采用不同的线性预测方 法,寻求最佳线性预测系数。3.3线性预测系数计算3.3.1自相关法 在最佳线性预测中,短时预测均方误差为E:∑Pzo):∑bG)一;o汗:∑I so)一圭qso―f)12n n n(3.4)lj-ll若用下式定义的时间平均最小均方准则代替(3.4)式的集合平均最小 均方准则,即令s=亩丕矿(,z)=血n事实上就是短时自相关函数,因而(3―5)R(f一后)=≯(f,后)式中(3.6)R(后)=E[s(疗),s(行一七)]根据平稳随机信号的自相关性质,可得(3―7)矽(f,后)=R(1f一七1),f=l,2…p;Ji}=o,l…p(3.8) 基音检测算法研究及其在方言辨识中的应用由(6)式可变为:p‰n=尺(o)一∑吼R(七)七=l(3.9)综上所述,可以得到如下矩阵形式:R(o) R(1);R(1) 月(o)‘.…足(P―1) …只(P一2);fR(1) R(2) =I R(3)IR(尸一1)R(P一2)R(o)l;【R(p)(3.10)值得注意的是,自相关法在计算预测误差时,数据段{s(o),s(1),…s(刀一1)}的两端都需要加p个零取样值,因而可造成谱估计失真。特别是在短数据段的情况下,这一现实更为严重。另外,当预测 系数量化时,有可能造成实际系统的不稳定。 3.3.2协方差法 协方差法与自相关法的不同之处在于这种方法无需对语音信号加窗,即不规定信号s(甩)的长度范卧11。定义: ,.(/)=∑s(,z)J(刀一_,) ^卸s(刀)的长度范围为:一p≤刀≤Ⅳ一lo≤/≤,(3―11)(3-12)J(疗)的协方差定义为:.Ⅳ一lc(f,j『)=,.(/一f)=∑J(拧一f)s(刀一jf)n=0(3-13)协方差法的最大优点在于不需加窗,不存在自相关法中两端出现 很大预测误差的情况,在N和P相差不大时,其参数估值比自相关法 要精确的多。 硕七学位论文3.3.3Bu略算法Bu玛算法是一种基于格型结构的新的线性预测算法,它能较好 的解决稳定性和精确度之间的矛盾【11。设格型滤波器中反射系数为岛, 出现的第i阶的正向预测误差为e∽(刀),反向预测误差为∥(刀),根据 格型滤波器的结构形式,定义两个均方误差: 正向均方误差:Em(一)=研(P∽(n))2】 反向均方误差:B∽(刀)=研(扩(刀))2】(3.14) (3.15)Bu玛法的逼近准则是:使格型滤波器的第i阶的口∽(咒)和扩(,z)为最小。令:堕竺訾=。,仁万砺河葡2q 岛=而‰=q由此得到:¨_叫 (3.16)啦莎萧莎而如型兰竺竺!!BJ7) @㈩根据cauchy-schwarz不等式可以证明:…<1,所以此结果能保上海交通大学的张江安博士在2001年提出采用预测神经元模型 对语音信号进行线性预测分析‘291。该模型采用单一预测神经元来实现。它包括输入层、隐层和输出层。输入层有1个单元,为沿时间轴的N个顺序的语音信号采样点、隐层仅有1个单元,用于对各输入单元 进行加权求和处理;输出层也仅有1个单元,输出值为根据上述各采 基音检测算法研究及其在方言辨识中的应用样值所预测的下1个采样值.预测神经元的连接权值为川,w2……比。在上述神经元中,设隐层单元的阈值为O,变换函数为f(s)=s,则 该神经元的输入输出变换关系为:N Ns=∑wi如一f)一秒=∑Ⅵ石G―f)fzI i=l(3.18)Ⅳ如)=儿)=J=∑wfxG―f)(3.19)预测神经元的输入输出函数为语音线性模型的一种实现形式。采 用预测神经元模型,可以将线性预测系数的求解过程转化为神经元的训练过程。由于厂’(x)=l,根据BP算法,可得线性预测系数的递推公式:Ⅵ@+f)=嵋@)+弛@+1)=q,五>U,l=l,2,…,Ⅳ.(3-20)4@+1)=∑吒工0一破p―B+M吒=如)一二0),^Ⅳ如)=∑吩@b0一歹>,=l式中:k为循环变量;名为学习率。任意给定一组初始值心(0),可按上述递推公式对线性预测系数进行计算,直至满足收敛条件。3.4倒谱分析倒谱定义为信号短时振幅谱的对数傅里叶反变换,具有可近似地 分离并能提取出频谱包络信息和细微结构信息的特点【30,311。 倒谱基音检测流程如图3.1所示:A为短时信号;B为最佳预测 系数q;C为预测误差信号;D为短时频谱;E为对数频谱;F为倒 硕士学位论文谱系数;G为对数频谱包络;H为基音周期。时间窗倒谱窗旦周甚 I.。...J―~《LPF}囝'三国旦圊一涸 一忸~t型~呻掣图3-1基音检测流程图3.5实验结果与分析通过对基音检测原理的分析,考虑到检测准确度和速率等方面的 因素,提出了算法实现方案,并对算法进行了MATLAB编程实现。 其基本思想是:首先利用前置低通滤波器滤掉语音信号的噪声干扰和 高频信息,再分帧加窗,对分帧信号采用预测神经元模型进行线性预 测分析,获取最佳线性预测系数,然后利用最佳预测系数构造逆滤波 器,将分帧语音通过逆滤波器,得到线性预测误差信号,最后对其进 行倒谱分析,在恰当的范围里寻求最大峰值,找出一对超过一定门限 的样值,则它们之间的间隔可以确定为基音周期。 为了验证本文所提出算法的有效性,仿真实验所用的原始语音是 男声普通话“湖南师范大学”,采样频率为8KHz,精度为8bit。在这 里我们采用汉明窗,帧长取256个采样点,对第30帧进行加窗处理, LPC分析为l 5阶。图3.2为原始语音,图3.3为加入均匀白噪声后 使其信噪比为SⅫR_3dB的语音波形。 基音检测算法研究及其在方言辨识中的应Ⅲ1O 5己 剖 馨萎粤-L。 m 5IJ‘L。▲.『l’下1盯_rr■., O 2 4B8采样点数,个x1一图3.2原始语音的时域波形图3―3 sNRl3dB下的语音波形加噪语音预测和预测误差波形如图3.4所示。图3.5为加噪语音 和加噪语音预测结果的语谱图。通过观察可发现,预测语音和加噪语 音的频率非常地接近,也就是说我们通过预测神经元模型获得了比较 好的预测效果。O 4 O 2O 2茎om 2弛采样点数,个01 0f"一…一刨 馨_01.o 2 -o 3采样点数,个(a)加噪语音预测波形(b)加噪语音预测误差波形;i艘 ;i豳(a)加噪语音语谱图 (b)加噪语音预测结果的语谱图 同3.5加噪语音和预测语音的语潜图图3_4加噪语音预测和预测误差渡形我们将由此获得的最佳预测系数n,构成逆滤波器,将分帧加噪语 硕士学位论文音输入,输出预测语音误差信号,通过倒谱分析得到倒谱波形如图 3.6所示。刨 罂 熟 匿采样点数,个 图3.6线性预测误差信号的倒谱0 5堪 罂 躲 霹0Ir帅p~ 闳:Il一州J’_h日J、^”’叶叶?一一一一一1If旬 5I一一一l一一一一一’一广10 5 0 50 100 150 200 250 300采样点数,个 图3.7原始语音信号的倒谱2II0,一,-‘^“^^_^‘’p^¨_-州I1、,、,■’J.J■’^。…‘■ .蜊.21c丑 {}塞一4击.8 0 50 100 150 200 250 300采样点数,个 图3.8加噪语音信号的倒谱 基音检测算法研究及其在方言辨识中的应用图3.7、图3.8分别为原始语音和加噪语音的倒谱。由以上三图 比较可知,本文所提出的算法所得倒谱的基音峰点清晰明了,而原始 语音信号尤其是加入噪声后的语音信号的倒谱中几乎不能找到基音 峰点。由此可以表明本文所提出算法在抗噪性等方面明显优于传统的 倒谱法。 为了进一步评价本文所提出的基于神经元模型的LP.CEP基音检 测的精度,实验中同时采用了基于自相关法的LP。CEP基音检测方法、 基于协方差法的LP―CEP基音检测方法和基于Bu玛算法的基音检测 方法对含噪语音进行基音提取,比较它们的检测误差。以自相关函数 基音检测方法的手动检测结果作为准确值,将三种方法的检测结果与 之比较,计算出他们的相对误差。通过仿真实验,比较结果如表3.1 所示。表3.1不同信噪比下几种基音检测方法误差率比较通过比较我们可知:基于自相关的LP.CEP基音检测误差率最高, 基于神经元模型的LP.CEP基音检测误差率最低;随着信噪比的降低, 基于协方差的LP.CEP基音检测稳定性下降,四种基音检测方法的误 差率均有所升高;基于Bu玛算法的LP-CEP与基于神经元模型的 LP.CEP基音检测误差率相差不大,且稳定性都较高,其中后者更为 理想。 硕七学位论文3.6本章小结本文给出了一种改进的倒谱基音检测算法。算法的核心思想在于 采用预测神经元模型与LP.CEP基音检测方法相结合,利用精确的线 性预测系数建造逆滤波器,对预测误差信号进行基音提取。实验结果 表明,该方法线性预测效果良好,有效的去除了共振峰的影响,较之 传统方法能更加精确提取基音周期,鲁棒性好,可适用于噪声环境中 的基音检测。 基音检测算法研究及其在方言辨识中的应用第四章基于高斯混合模型的ⅧE自相关基音检测算法4.1引言经典的时域自相关函数基音检测法是目前最实用、可靠和广泛 使用的基音检测方法,但研究发现,ACF算法在无噪声环境下,清 音段信号会对准确的基音周期提取产生较大的影响,有时会发生基音 倍频和半频错误。在噪声环境下,错误的发生率显著增加。本文采用 多参数高斯混合模型对语音信号的清浊音进行判决,提取出浊音信 号,运用多带激励(MBE)自相关法对其进行基音检测。4.2高斯混合模型(GMM)高斯混合模型是只有一个状态的模型,在这个状态里具有多个高斯分布函剡321。,pG/名)=∑p,岛G)f.1(4.1)其中,是高斯混合模型的参数;x是一个R维的特征矢量;只为混合权值;岛G)是一个高斯分布函数,包(.x):――――*e一乒耳一∥一’r%’‘J一Ⅳ“’(2万)虿I尺硝Ji(4.2)其中心是状态平均矢量,如是状态协方差矩阵,尺是特征矢量的维数。(x一心),表示矢量x一心的转置,I心l和《-分别表示矩阵如的行列式和逆矩阵。平均矢量心是特征矢量x的元素的期望值,而协方 差矩阵疋代表特征矢量元素的互相关和方差。 硕士学位论文不同高斯分布之间的加权系数w满足条件:,∑力=li=t(4.3)整个高斯混合模型可以由各均值矢量、协方差矩阵及混合分量的权值 来描述。因此,将一个模型五表示为三元式名={忍,心,如),f=l,2,...,肘(4.4)设训练特征矢量系列为x=k,f=1,2,..丁),它对于模型允的似然度表示为P伍/五):卉Pb/兄),训练的目的就是为了找一组模型参数A,y皇I该参数能确保凇/五)达到最大值,最大参数估计可以利用EM算法,通过迭代得到。 在训练时首先利用矢量量化(VQ)抽样清/浊音中有效主元矢量 集的码本,并对每个码字求出相应的方差,这样每个码字和相应的方 差就可以组成一个高斯分布函数。在对语音信号中清浊无声音进行判 别时,对于某种声音主元特征矢量y求相对于每个声音类别的概率 值,概率最大的为判别结果。4.3清浊音判决参数的选取4.3.1短时过零率信号按段分割就称为短时,段可是帧大小。过零就是信号的幅度值从正值到负值、负值到正值要经过零点,统计信号在一秒钟内有几 次过零就是过零率。s(n)的短时过零率表示一段语音信号中语音信号波形与横轴相交的次数。可以用式(4―5)计算:Zo=吉{∑Is印b。O)】一s印b。O一1)】} z。=三{薹Is印b。(以)】一s印b。(聆一?)】)厶l甩=O J(4-5) 基音检测算法研究及其在方言辨识中的应用s萨(咒)为符号函数。清音的过零率较高,浊音的过零率较低。4.3.2短时能量计算语音信号s(以)能量岛的公式如下:Ⅳ一l岛=∑s:G)"=o(4.6)其中瓯G)是语音信号sG)的加窗信号。4.3.3短时自相关函数对于确定的语音信号序列sG),自相关函数定义为:尺G)=∑工bb如+七)(4―7)浊音语音的自相关函数,具有一定的周期性,在相隔一定的取样 后,自相关函数达到最大值。清音信号缺乏周期性,自相关函数没有 很强的峰值。 4.3.4谱倾斜度 谱倾斜度定义为‘23】‘f=∑b(f必(f―1)】/∑s2(f)f鲁l f=l(4―8)4.4清浊音判决系统的建立精确的提取浊音信号是该算法的重要环节。对每帧语音提取四个特征参数,%、晶、尺@)、t组成特征矢量集合x={zo,岛.尺@)’f}。设清浊音两种信号对应的GMM模型分别为丑、五,属于浊音信号的概率为p亿/石),不属于浊音信号的概率为p(A/x),利用贝叶斯准则,似然概率比为: 硕十学位论文p(A/z)p(x/五)p(五)/p(x) 户(x/丑)尸(丑)/尸(x)(4―9)其中p似)表示特征矢量流x的概率。即对数似然比为:人(x)=log[p(z/五)]一l。g[p(x/^)](4-10)我们将对数似然比同阈值伊(本文口取O.7)进行比较来决定接受还是拒绝,判断此信号是否为浊音信号,即,人伍)≥良接受 人似)<a拒绝当系统判断出信号是浊音段信号,则进入到基音检测阶段。4.5基音提取本文采用多带激励自相关法对语音信号浊音段进行基音周期的 估计,采用的归一化无偏估计误差表达式为‘24】:‰≈F_竺等――『产L] I 1一P∑缈40)0∑国20必20)IL冉;一Ⅳ∑s2缈20)一尸∑矽归)JLn一一Ⅳ(4-11)J式中:P为待估计的基音周期;sG)为分析的语音信号;窗函数m)的宽度为(2Ⅳ+1),其中三为窗长范围内基音周期P的个数,矽旧)为矿0pG)的自相关函数,基音周期P值的范围为20~122,在此范围 内,最小的‰所对应的尸值即为基音周期。将提取的浊音段采用多带激励的白相关法进行基音检测,基本流 程如图4.1所示。 基音检测算法研究及其在方言辨识中的应用图4_l基音检测流程图4.6实验结果与分析4.6.1清浊音判决实验 语音信号在实验室条件下录制,采样频率为1 6KHZ,发音人为 两男两女,取的样本集由1200帧语音组成,其中953帧为浊音,247 帧为清音。将其中1000个作为训练样本,200个作为测试样本。 对测试样本集中的200帧语音进行清浊音判决实验,采用 MATLAB编程实现。实验结果显示,判决准确率达到94%。 4.6.2基音检测实验 为了验证文中所提出算法的有效性和准确性,采用MATLAB对 该算法编程实现。实验所采用的语音样本是实验室条件下录制的一句女性发音,内容为声母“z11\c扒sh试c\s"口采样频率为16kHz,单声道录音,精度为16bit,帧长取30ms。波形如图4.2所示: 硕士学位论文0 3O 201己0Ⅱ 1【J|I|.J I― l『魁 馨。01‘0 2用 ‘1 『r1|I■恂(m¨哪图4-3传统自相关函数法提取的基音轨迹轮廓 基音检测算法研究及其在方言辨识中的应用lIme【msecS)图4.4本文给出算法提取的基音轨迹轮廓比较图4.3和图44,可看出本文所给出的基音检测算法所提取 的基音轨迹比传统自相关法要更加连续、完整和平滑;在清浊音之间 的过渡音段,如:“ch"与“sh”之间,“c”与“s”之间,传统自相 关法判决结果发生了错误,本文所给出的基音检测算法能准确的判断 出浊音段的起始和结束,有效的解决了非浊音段出现错误基音检测的 问题。 为进一步验证本文所给出算法的鲁棒性,在语音样本中加入高斯 白噪声,分别对信噪比为5dB、10dB、15dB的语音信号采用白相关 函数基音检测方法和本文方法进行对比实验。实验结果分别如图4.5 和图4.6所示。 硕士学位论文(a)卧『B=15dB时(厂=2l蛇3勉)(a)sM≯15db时(厂=为1.891舷)㈣sNB=10dB时(厂=21姗)(b)sNB=10dB时(厂=毖配瑟)(c)sNB=5dB时(厂=21275恐) 图4.5自相关方法检测的基音轨迹(c)sNB=5dB时(厂=227.19勉)图4.6本文方法检测的基音轨迹由图4.5和图4.6可知,随着信噪比的不断降低,传统自相关法 提取的基音轨迹出现了严重的不连续现象,而本文所给出的检测算法 与无噪声条件下的检测结果大体保持一致,仍能保持较为连续平滑的 基音检测算法研究及其在方言辨识中的应用基音周期轨迹;以对纯净语音采用平均幅度差函数法结合人工校正得 到的基音检测结果为参考标准,在SNB=5dB时,传统自相关法的基 音检测结果误差率达到了12.22%,而本文给出算法的基音检测结果 误差率仅为5.9%。4.7本章小结本章针对复杂语音环境中的基音检测问题,给出了一种采用多参 数高斯混合模型对语音信号的清浊音进行判定,再对其浊音段进行MBE自相关基音检测的算法。实验结果表明:在不同信噪比下,该算法都有效地抑制了清浊误判现象的发生,得到了较为准确的基音周 期。 硕十学位论文第五章基于SOM神经网络和支持向量机的方言辨识研究5.1引言在这一章中我们将在第四章对语音信号进行基音频率特征提取的基础上给出一种新的方言辨识系统:基于SOM神经网络和支持向量机的方言辨识系统。该系统以湖南方言作为研究对象,基音频率、 MFCC参数为特征参量,借助SOM神经网络对不同方言的特征参量 进行聚类,并用SVM作为最终的决策辨识器。下面将详细阐述算法理论和方法原理,并在此基础上采用MATU心平台对所建立的方言辨识系统进行实验仿真。5.2基本理论5.2.1SOM神经网络Feature自组织特征映射(SOM,即Self O唱anizationMapping)神经网络是一种很重要的无导师学习网络,主要用于模式识别、语音 识别分类等应用场合【35'361。这种网络是由Kohonen提出来的,也称为 Kohonen神经网络【371。 该网络由输入层和竞争层组成【11。两层之间的神经元通过权值相 互联结在一起,对每个特征矢量序列,通过竞争层的竞争算法,在竞 争层的某个神经元便会兴奋起来输出结果。输入层神经元数为n,竞 争层由m个神经元组成的一维或者二维平面阵列,网络是全连接的, 即每个输入结点都同所有的输出结点相连接。其网络结构如图5.1所 基音检测算法研究及其在方言辨识中的应用不。层图5一l SoM神经网络结构对SOM网络训练无需规定所要求的输出(及导师),因此它是无 导师学习(即自组织)网络,它对输入模式进行自动分类,即通过对 输入模式的反复学习,抽取各个输入模式中所含的特征,并对其进行 自组织,在输出层将分类结果表现出来。SOM网络将输入直接映射 到输出平面上的一个点;对于相似的输入,网络的输出神经元在输出 平面上也是相近的。 SOM网络的自组织能力表现在,各个连接权反映了输入模式的 统计特性。即通过网络学习,输出层各神经元的连接权向量的空间分 布能够正确反映输入模式的空间概率分布。因而如果预先知道了输入 模式的概率分布函数,则通过对输入模式的学习,网络竞争层的各神 经元连接权向量的空间分布密度将与输入模式的概率分布趋于一致。SOM神经网络具体学习与工作规则如下【4】:(1)网络初始化:输入层和竞争层之间的权值初始值,用较小的 随机数设定。 (2)输入向量的输入:首先,将各语音特征参量X爿x1,x2,x3,…xn】T 输入给输入层。41 硕十学位论文(3)在输出层计算各神经元的权值向量和各输入向量的距离。输 出层第j个神经元和输入向量的距离,由下式给出:小再i(4)d,为最小,则将其称为胜出神经元,记为厂。 (5)权值的学习:正确神经元成为胜出神经元时,即(5.1)式中,w席为输入层的f神经元和竞争层的j神经元之间的权值。△w∥={二姜三:二::;;主霎耋翥筹式中,玎>o为学习系数。 (6)重复第2步到第5步,进行权值学习。 5.2.2支持向量机c 5.2,支持向量机(SVM)是Vapnik博士和他的研究组根据统计学习理 论提出的一种学习方法H卜451,作为近来倍受关注的模式分类手段,已 经在模式识别、回归分析和特征提取等方面得到了很多应用。应用结 果表明,SvM方法显示出较传统方法包括神经网络方法更好的适应和 推广能力H6。501。 SVM是从线性可分隋况下的最优分类面发展而来的,基本思想可用图5.2的两维情况说呀511。 基音检测算法研究及其在方言辨识中的应用M+图5.2最优分类面图5.2中,圆点和十字点分别代表两类样本,H为分类线,Hl、 H2分别为过各类中离分类。其核心是“升维",即将样本映射到高维 甚至无穷维空间,在高维空间采用处理线性问题的方法。支持向量机 的计算量由支撑矢量决定,与样本维数几乎无关,从而可以避免“维 数灾’’。 假定训练样本数据(再,咒),五∈R“,咒∈{一l,+1)可以被一个超平面 (w.工)+6=o分开,如果距离超平面最近的向量与超平面之间的距离是 最大的,则判定这个向量被最优超平面分开,即』(w‘薯)+6≥1, 乡咒21(5.3)【(w‘‘)+6≤一l,矿咒=一1其中位于(w?坼)+6=1和(w.玉)+6=一1上的向量被称为支持向量。这 样,SVM问题可用下式带约束条件的优化问题来描述:j in(扣II+C∑¨m(5-4)【J,f【w?xf+6】一l+孝j≥o 硕士学位论文相应的决策函数为:厂(功=∑(q一勺)K(薯,_)+6(5-5)其中K(葺,_)为核函数,它对应某一变换空间的内积。采用适当的核 函数就可以实现某一非线性变换后的线性分类。目前常用的核函数有 以下三种‘52】: (1)阶次为d的多项式核函数K仁,毛)=殴.-)+zr(2)径向基核函数(5.6)电)=叫一掣丁(3)两层神经网络核函数,其中口和f为函数。@7,后k,_)=tallll【口b._)+冲(5.8)本文采用分类性能较好的高斯径向基核函数,惩罚系数C取100, 训练误差为O.001。 通过以上理论分析我们知道:最优决策面仅由支撑向量决定,这 样既降低了计算复杂度,又使分类器具有良好的鲁棒性。支持向量机 能充分利用训练样本的分布特性,根据部分训练样本构建判别函数, 不需要更多的先验信息,因此SVM具有较高的识别率和抗噪特性。5.3方言辨识参数的选取5.3.1基音频率 汉语是音节.声调语言。声母、韵母和声调是汉语音节的三个要 素。汉语声调有重要的辨义作用。汉语语音具有前声后韵的音节结构, 基音检测算法研究及其在方言辨识中的应用其中声母大都为清音(m、n、l除外),韵母为浊音。不同方言之间最大 的区别就是声调,具有强烈的排他性,而汉语声调信息,载于其基音 周期上,并主要在韵母段上。因此,在该系统中采用基音频率作为方 言辨识中的特征参数之一。基音频率提取采用本文第四章给出的算 法。5.3.2MFCC参数基于入耳听觉特性的美尔倒谱系数(MFCC)作为特征参数在方言 辨识中可以得到了较高的辨识率,适用性较好。MFCC参数提取流程如 图5.3所示:图5?3 MFCC参数提取流程图5.4方言辨识系统的设计标准用来评价方言辨识系统性能的指标必须有明确的规定。系统最重 要的性能指标就是系统对所测试的方言发音进行可靠种类识别的能 力。方言种类正确辨识率是指经过系统识别后在候选语言中的首选语 言是正确语种的一部分样本在整个测试样本中所占的百分比。即(5_9)正确辨识率=萌苇孽星骂器×?。。%本系统主要从系统正确辨识率、语言环境的复杂性以及识别实时 性等方面考虑来进行设计。 硕士学位论文5.5方言辨识系统的构成实验采用的辨识系统如图5-4所示。它由四个部分构成:语音预 处理、特征提取、SOM神经网络、支持向量机。预 处理特 征 提 取摹音频率 MFCC神经网 络SOM支 持 向旦 里机参数图5-4方言辨识实验系统5.6实验结果与分析本文语音数据采用出生于湖南长沙、株洲、常德、衡阳的不同男 女的发音,每人对表5.1中的40个单字用当地方言发音3遍,为便 于对比另请普通话标准的男女试验者每人对表5.1中的各单字发音3遍,共选取1200个样本。语音样本采用WW格式,采样频率为11 025Hz,A/D转换精度为l 6Bit,采用Hamming窗进行加窗,窗长为32ms,帧移为16ms。取前两遍发音共800个样本的基音频率作为训练 集,第三遍发音共400个样本的基音频率作为测试集。表5.1实验所用单字表mapoketi如xUyoubaizIlaochuang阴平 阳平 上声 去声妈 麻 马 骂坡 婆 叵 破科 咳 可 客踢 提 体 替夫 服 抚 负须 徐 许 序优 油 有 又掰 白 百 败朝窗 床 闯 创着找 照采用MATLAB进行仿真,对四种湖南方言和标准普通话发音各 80个样本,采用该方言辨识系统进行测试,辨识结果如表5.2所示。 基音检测算法研究及其在方言辨识中的应用通过分析我们得到:长沙方言与株洲方言的相似度较高;四种湖南方言中常德方言与普通话最为接近;采用同一辨识系统,针对不同的湖 南方言,系统的辨识率各不相同,其中常德话的辨识率最高为88.8%, 长沙话的辨识率最低为80.O%;与湖南方言相较,标准普通话更容易 辨识,辨识率达到了93.8%;系统的平均辨识率为86.3%。表5.2方言辨识结果统计方言类别 长沙 株洲 常德 衡阳 普通话 识别结果 K沙 “7 O 4株洲ll 67 l 4 0常德l2 71 3 4衡阳33 l普通话1 l 7 l 75识别率80% 83.8% 88.8% 85.0% 93.8%68lO为进一步验证本文所提出方案的实时性和抗噪性,在训练样本中 加入均匀的白噪声,测试样本仍然保持不变,重新进行上面的实验。 另外分别采用BP神经网络、支持向量机(SVM)进行两组对比实验。 将采用不同辨识系统得到的四种湖南方言和标准普通话的平均辨识 率、辨识时间进行比较,结果如表5.3所示。表5.3三种不同辨识系统性能比较由上表可知:随着信噪比的下降,三种方言辨识系统的辨识率都 有所降低,辨识时间也都有不同程度的延长,其中以BP神经网络的变化最为明显,即在信噪比较低的复杂语音环境下,BP神经网络辨47 硕十学位论文识能力并不理想;相对而言支持向量机(SVM)的辨识能力较强,但随着语言信号信噪比的不断降低,其学习时间增加明显,从而直接导致系统的辨识时间延长,即实时性不佳;本文所提出的采用SOM与SVM相结合的方言辨识系统,在信噪比变化的情况下,性能比较稳定,辨识率和实时性都有较好的改善。由此可见,基于SOM神经网 络与支持向量机(SVM)相结合的方言辨识系统是解决方言辨识问题 的一条有效途径,尤其在信噪比低、实时性要求高的情况下,其优势 更为明显。5.7结论本次实验主要是应用本文给出的基于SOM神经网络和SVM的 方言辨识系统对湖南方言进行辨识,并将本文所给出的系统与其它识 别系统的识别结果进行比较,分析实验效果。从上面的实验过程和实 验结果,我们可以得出下面几点结论: l神经网络与支持向量机方法在方言识别的应用为语音识别新 方法的研究提供了一条有效的实现途径。本文给出的基于SOM神经 网络和SVM的方言辨识系统取得了比较好的辨识效果,并具有较强 的鲁棒性和实时性。 2采用同一辨识系统,针对不同的湖南方言,系统的辨识率各不 相同。与普通话的发音越相近的方言,辨识正确率相对越高。 3采用单一神经网络或者支持向量机进行方言辨识,在抗噪性尤 其是实时性方面效果不是很理想。采用SOM神经网络和支持向量机 (SVM)相结合的方法能有效的改善这些方面的问题。 基音检测算法研究及其在方言辨识中的应用5.8本章小结本章主要研究了基于SOM神经网络和支持向量机(SVM)的湖 南方言辨识,通过实验对湖南方言的特点做了简要的分析,并与BP 神经网络、支持向量机(SVM)的辨识结果进行了对比。结果表明:在 复杂的语音环境下,此系统在方言辨识的辨识率和实时性上具有较为 明显的优势,鲁棒性好。后续工作将收集更多的方言样本,将其扩展 到其它方言辨识中,使之具有可推广性。 硕+学位论文第六章总结与展望基音周期是语音信号的重要参数之一,准确而快速的基音周期提取对语音信号的合成、编码、识别都具有重要意义。方言辨识作为语 音识别领域的新兴课题,具有十分广泛的应用前景。 本文通过对以往研究成果的分析和总结,结合自己的研究工作, 提出基于多参数高斯混合模型的MBE自相关基音检测算法和基于预 测神经元模型的LP.CEP基音检测算法,并建立了基于SOM神经网 络和支持向量机的方言辨识系统。通过仿真实验,取得了令人满意的 效果。 本论文的几个特点: (1)本论文的仿真实验均采用MATLAB 7.O编程实现。 (2)本论文的语音材料均在实验室条件下,采用cooledit软件进 行录制。 (3)本论文的侧重点放在基音检测算法研究上,并将其应用于方 言辨识系统中。 本论文主要做了以下几个方面的工作: (1)对目前国内外几种经典的基音检测算法进行了阐述与分析, 并通过仿真实验,对不同算法进行了比较和评价。 (2)采用多参数高斯混合模型对语音信号的清浊音进行判决,提 取出浊音信号,运用多带激励(MBE)自相关法对其进行基音检测;将预测神经元模型与LP.CEP结合用于基音检测。实验表明,此两种 基音检测算法研究及其在方言辨识中的应用算法都能够更准确地提取基音,在准确性和鲁棒性方面都有较大提 升。 (3)建立了一种新的方言辨识系统,该系统以湖南方言作为研究 对象,基音频率为特征参量,借助SOM神经网络对不同方言的基音 频率特征参量进行聚类,并用SVM作为最终的决策辨识器。通过仿 真实验,对系统的实时性、鲁棒性和准确性进行评价。 以下问题尚需进一步完善和探索: (1)采用基于多参数高斯混合模型的MBE自相关法进行基音检 测时,实验中发现,有时会有些随机错误点以及少量的倍频半频错误, 检测实时性有待加强。因此,后续工作可以采用线性平滑或线性插值 等后处理工作,使其检测效果更好。 (2)采用基于神经元模型的LP.CEP算法进行基音检测时,线性 预测分析阶数的选取以及门限的设定都根据经验确定,自适应性不 强。实验中发现,这两个参数会对实验结果造成一定的影响。因此, 如何寻求一种精确的参数确定方法是一个有待深入研究的课题。 (3)在进行方言辨识时,语音数据库均为实验室自行录制,语音 样本数有限,具有一定的局限性。因此,后续工作还需要建立一个完 整的方言语音数据库,使研究对象更加广泛,更具一般性。 下一阶段研究的重点主要体现在:在基于基音检测先验知识的基 础上,对本文所提出的基音检测算法进行完善;在VC编程的基础上, 将基音检测技术、方言辨识技术、DSP三个关键技术有机结合,最终 实现实时性、鲁棒性、适应性良好的方言识别系统。 参考文献[1]胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2000:116.126.【2】韩纪庆,张磊,郑铁然.语音信号处理[M】.北京:清华大学出版社,2004:lO.39.[3】杨行峻,迟惠生等.语音信号数字处理[M】.北京:电子工业出版社,1 995?61.77.[4]赵力.语音信号处理[M】一匕京:机械工业出版社,2003:24.40. [5]钱盛友,许慧燕.基于动态时间规整和神经网络的方言辨识研究 【J】.计算机工程与应用,2008,44(10):2ll一213. [6】许慧燕.湖南方言语音信号特征提取及辨识[D】.长沙:湖南师范大 学,2007. 【7]L.R.Rabiner.011 the use ofautoco盯elation删ysis for pitch det硎onA,et a1.A、,erage magnitude difrerence TIranson[J].IEEE Tralls.on Acoustics SpeeCh a11d Si印a1 Proc,1 977,26(1):24-33. [8]Ross M J,Shaier H L,Cohen向nction pitchextractor[J】.IEEEAcoustics Speech SignalProcessing,l 974,22(5):353?362.[9】MarkelJ D.The SIFT algorimm for如ndamental仔equency estimationon[J].IEEE 1rransAudio a11d Elect,1 972,20(5):367―377.pitch[1 O]A.M.Noll.C印strumdetemination[J].J.Acoust.Soc.Amer.52 1967,41(2):293―309.【11]陈小利.含噪语音基音周期检测算法研究[D].解放军信息工程大 学,2007. [1 2】Zissman M A.Comp嘶son of four approachesidelltification of tel印honetoautomatic languageSpeechspeech【J】.IEEE Tra【nsactions onand Audio Processing.1996.(1):3 1―44.[13】陈海伦.方言机器识别技术研究[J】.公安大学学报(自然科学版), 2000,1(1):33―38. [1 4】Wuei-He Tsai,Wen-meiChallg.Discmination tmining of guassiaIlmix仙陀bi黟am modds、7l,im applic撕on to ChiIlese dialect idellt街c撕on[J】.Speech Communication,2002,36(1):3 17-326. [15]顾明亮,夏玉果,张长水.基于支撑向量机的汉语方言辨识[J].计 算机工程与应用,2007,43(29):2 1 O.2 1 3. 【16]顾明亮,沈兆勇.基于语音配列的汉语方言自动辨识[J】.中文信息 学报,2006,20(5):77-82. [17]顾明亮,马勇.基于高斯混合模型的汉语方言辨识系统[J].计算机 工程与应用,2007,43(3):204.206. [18]胡瑛.f氐信噪比下基音检测算法研究[D].长沙:中南大学,2007. [19】马梦轩,赵振东.语音信号基音周期的提取方法研究[J】.中国电力 教育,2006综述专刊:23 1.234.[20】Ⅶ一MiIl Zellg.盈en一‰g Wru.Hai-BiIl Liu.LiIl Wrou.Modi丘ed AMDFpitch detectionalgodthm[C】.PI.oceedingsof the SecondIntemational53 Con诧renceonMachine Leaming andCybemetics.2003,l 1:2―5.[21]赵建伟,楼红伟,徐大为,刘重庆.噪声环境下的基音检测方法[J】. 红外与激光工程,2002,31(1):5.8. [22】Mc Gonegal C A,Ihbiner L R,Rosenbe玛.A semiautomatic pitch妣r叨.IEEEof noisyTransonAcoustics,Sp。ecll,觚dSi酬Processing,1 975,23(6):570一574.[23]Tetsuya S,H旬ime K.Wreighted autoco玎c:1ation for pitch extraction speech[J】.IEEETransonSpeech Audio Processing,200 1,9(7):727-730.[24]SalinaA S,Aini H,Low K F.Pitch detection of speech signals usingthe cross―co玎elationtecllllique[C】.IEEE Region1 O ConferenceonComputer,Communication, Contr01 and Power Engineering,2000,1:283?286.[25]杨志华,齐东旭,杨力华.一种基于Hilbert―Huang变换的基音周 期检测新方法[J】.计算机学报,2006,26(1):106.115. [26】冯康,时慧棍.一种参考短时平均能量和平均幅度差函数的基音检 测方法[J】.淮南师范学院学报,2003,5(5):9.1 1. [27】刘建,郑方,吴文虎.基于幅度差平方和函数的基音周期提取算法 【J】.清华大学学报,2006,46(1):74.77. [28】冯成林,吴淑珍.一种噪声环境下的语音识别方法(线性预测误 差法)的研究[J】.北京大学学报,2000,36(5):665.67 1. 【29]张江安,林良明,颜国正,杨洪柏.基于预测神经元模型的语音线 性预测系数求解新方法叨.上海交通大学学报,2001,35(5):717―720. 【30]曾毓敏,吴镇扬.基于倒谱修正模型的语音基音检测算法[J].南 京理工大学学报,2007,3 1(4):503―508. [3 1]胡光锐.基于倒谱特征的带噪语音端点检测[J】.电子学报,2000, 28(10):95?97. 【32】夸特尔瑞,赵胜辉,离散时间语音信号处理【M】北京:电子工业 出版社,2004. [33】党晓妍,魏旋,崔慧娟,唐昆.声码器清浊音算法优化[J】.清华大 学学报,2008,48(7):1l 19?1122. [34】杜立昌,朱仁峰,周辉.改善基音估计准确度的有效途径【J】.装备 指挥学院学报,2005,16(2):108―111. [3 5]T.We巧ters andJ.nole.Speech咖esis丽m枷ficial嗽砌n融networks and speech[C].Proc.Int.Con£on卜h唿l NcItwc}rks,sall Fmllcisco,1 993:l 764―1 769. [36】D.P:Lippman and C.L.Scofield.Neuralprocessing[M】.Ⅺuwer Academic Publishers,1 99 1. [3 7】Mo玛an N.Neural ne附orks for statisticalrecognition of continuousspeech[C】.Proceedings of IEEE 1 995,83(5):742-770. 【3 8]Iso Ken―ichi,Watallabe T.Speake卜ind印endent word recognitionusinganeural predictionmodel[A】.ProcICA SSP l990[C】.NewMexico,USA:IEEE Signal Processing Society,1 990:44l-444。【39】Kondoz A M.Digital SpeeCh Coding for Low Systems[M].Chichester,U K:Wiley,2004.Bit№Co砌u11ic撕on55 【40]Kohonen T.Self-o略anized fomation of top0109ically correct m印s[J】.Biological Cybemetics,1982,43(1):59-69. [4 1]Cortes C,V印nik V.Supponl 995,20(4):273―297.Vectorfeaturene帆orks[J】.Machine Le锄ing,[42]VapnikV N.The namre of statisticalle锄ingtheo巧[M】.NY:Springer-Verlag,l 995.[43】Cortes C,V印nik V.Supportl 995,20:273―297.Vectorne铆orks[J】.Machine Leaming,[44]Scholkopf B,Sung K,Burges C,etal.Comparingsupport vectormachines with gaussian kemels to radial basis如nction classifiers[J].A.I.Memo 1 559,MIT,1 996.【45]№es CJ C.A tutoIialonsu删Vectoronmach协es forp乏蜘r。co鲥tion[J】.Data Mining and Knowledge DiscoVe巧,1 998,2(2):955―974. [46]Bu唱es CJ C.A tutorial support Vector machines for pattem Datarecognition[J】.Knowledge DiscoVe拶and50.58.Mining,1 998,2(2):[47]Chapelle O,Haf.fner P,Vapnik V.Supporthistogram―based imageVectormachines forclassification[J].IEEE Trans.on NeuralNet、)lrorks,1999,10(5):1055-1064. [48】B Scholkop£Csupport B u玛es,A Smola.AdVances in kemel methods-Vecto“eaming【M】.USA:MITPress,1999:4l一56.VY King.Automatic accent classification of【49]Karsten Kump£Robin foreigIl accented Amstralian English1 996,3(1):3―6.speech[J].Proceedingsof 1CSLP'[50】张学工.关于统计学习理论与支持向量机[J】.自动化学报,2000,26 (5):32-42. [5 1】肖晨静,李艾华.基于SVM的柴油机故障诊断方法研究[J】.微计算 机信息,2007,24(5):227.228. [52]范伊红,李敏,张元.相关向量机在车型识别中的应用研究[J】.计 算机工程与设计,2008,29(6):15lO.1515. 攻读硕士学位期间发表的论文【1】朱颖,钱盛友.一种改进的倒谱基音提取算法[J】,计算机工程与应【2】朱颖,钱盛友.基于SOM神经网络和支持向量机的方言辨识研究【J】, 计算机工程与应用,2009.7. 致谢本论文是在导师钱盛友教授精心指导和悉心关怀下完成的。从论 文的选题、定题,论文研究内容的探讨,到论文大纲、确定稿的形成, 期间每一个阶段都渗透着老师的心血。导师严谨的治学态度、踏实的 工作作风、锐意进取的开拓精神、追求科学前沿的求实学风、乐观自 信的风度、高尚朴实的人格,在三年的时间里一直潜移默化地影响着 我,也将指引我未来工作和生活前进的道路。在此,怀着深深的敬意, 谨向导师致以最真挚的谢意! 感谢物理与信息科学学院的王玲教授、彭良玉教授、以及同窗室 友邹孝、陈雄、张博、匡旺秋等同学。与他们的交流使我得到许多启 示,也是我论文灵感产生、内容成形以及原型实现不可或缺的坚实基 础。 特别感谢我的父母,感谢他们和风细雨般的教诲,感谢他们百般 呵护、无微不至的关怀。多年来的含辛茹苦,他们为了我的成长倾注 了太多的心血和无私的关爱。不平坦的求学路上,父母用他们温暖宽 厚的双手搀扶着我一路走来,不管遇到多大的雨雪风霜,只要有父母 在身边,一切都会迎刃而解,他们永远都是我坚强的后盾和避风的港 湾。亲情似海,恩重如山! 感谢为审阅本文而付出辛勤劳动的所有专家和学者们。 最后,衷心感谢所有关心和帮助我的人,祝福他们健康、幸福、 平安1 2009年3月29日 基音检测算法研究及其在方言辨识中的应用作者: 学位授予单位: 朱颖 湖南师范大学本文链接:http://d..cn/Thesis_Y1471823.aspx
基音检测算法研究及其在方言辨识中的应用―汇集和整理大量word文档,专业文献,应用文书,考试资料,教学教材,办公文档,教程攻略,文档搜索下载下载,拥有海量中文文档库,关注高价值的实用信息,我们一直在努力,争取提供更多下载资源。}

我要回帖

更多关于 如何正确认识自己 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信