第l4卷第6期 2013年12月 信息工程大学学报 Journal of Information Engineering University Vo1.14 NO.6 Dec.2013 DOI:10.3969/j.issn.1671-0673.2013.06.009 基于区分性特征的音素识别 李立永,张连海 (信息工程大学,河南郑州,450001) 摘要:针对当前主流的基于统计模型的语音识别系统没有使用语音产生知识的问题,通过模拟 人类的语音感知理解过程提出了一种“自下而上”的基于区分性特征的音素识别方法。该方 法首先根据不同音素的发音特点检测得到音素的边界信息;然后利用分类器完成语音的区分 性特征检测,并根据区分性特征与音素的对应关系建立映射表;最后利用音素的边界信息得到 语音段的特征序列,通过对语音段的特征序列模糊搜索匹配实现音素识别。实验结果表明,相 比于传统的基于隐马尔科夫模型的音素识别方法,该方法在识别速度、鲁棒性及可扩展性等方 面具有明显优势。 关键词:语音产生知识;音素边界检测;区分性特征;音素识别;模糊匹配 中图分类号:TP391 文献标识码:A 文章编号:1671—0673(2013)06 ̄692-08 Phoneme Recognition Based on Distinctive Features LI Li—yong.ZHANG Lian—hai (Information Engineering University,Zhengzhou 450001,China) Abstract:To address the problem that current popular speech recognition systems based on statisti— cal models do not use Speech production knowledge,a“bottom-up”phone recognition method is proposed based on the distinctive features by simulating the process of human speech recognition. Firstly,the phone boundaries are detected according to the characters of different phonemes;Sec— ondly,the distinctive features are extracted by classifiers,and the mapping table of feature-to—pho- neme is built depending on the distinctive features;Finally,the feature sequences of segments are obtained using phoneme boundaries,and by fuzzy searching and matching through segment features, phoneme recognition is completed.Experimental results show that,compared to the phoneme recog— nition methods based on Hidden Markov Model,this method has prominent advantages in terms of recognition speed,robustness,expansibility etc. Key words:speech production knowledge;phone boundaries detection;distinctive feature;pho- neme recognition;fuzzy matching 0 引言 当前主流的基于统计知识的语音识别系统发展进入瓶颈期,系统性能提升缓慢且代价昂贵,因此,语 收稿日期:2013_04.23:修回日期:2013-05-28 基金项目:国家自然科学基金资助项目(61175017) 作者简介:李立永(1987一),男,硕士生,主要研究方向为语音信号处理; 张连海(1971一),男,副教授,主要研究方向为语音信号处理。 第6期 李立永等:基于区分性特征的音素识别 693 言学家通过分析机器识别与人类语音感知(human speech recognition,HSR)的差异,提出了将语音发声时 的一些底层特征如发音方式特征、发音位置特征及韵律特征等加入到现有语音识别系统中,即将语音发音 知识与语音统计知识相结合 ,从而弥补现有语音识别系统的缺点,提高语音识别系统的性能。在此情 况下,如何有效地检测语音发音知识以及如何将这些知识与统计模型相结合成为目前研究的热点 与难点。 文献[2.3]提出了一种基于Landmark和区分性特征的语音识别体系(1exical access from features, LAFF),该体系中Landmark用于描述语音事件在时序上的变化信息。LAFF认为语音信号可以通过一系 列具有区分性的二值区分性特征表示(distinctive features),这些区分性特征可以在Landmark附近区域检 测得到,并将这些区分性特征与词典搜索匹配从而实现语音识别。2005年,文献[4]提出基于事件检测 (detection.based)的自动语音属性转录系统(automatic speech attribute transcription,ASAT),该系统首先在 前端进行语音事件检测,提取出语音学相关的事件、特征序列,然后以各种特征为基础并辅以必要的相关 知识并完成判决,在判决识别时常用的统计模型有隐马尔科夫模型(hidden Markov model,HMM) 、人工 神经网络(artiifcial neural network,ANN) 、条件随机场(conditional random fields,CRF) 等。 在上述思想的指导下,本文提出了一种基于区分性特征的音素识别方法(phoneme access from lea・ tures,PAFF),不同于传统统计模型自上而下(top.down)的结构,本文方法采用自下而上的“种子模型”结 构(bottom—up) ,首先完成描述语音产生知识(speech production knowledge)的底层特征检测,并以底层特 征为基础,逐步实现上层特征识别。具体过程为,首先利用不同音素发音时在频谱区域所具有的不同结构 实现音素边界的检测;然后以多层感知器(multiple layer perception,MLP)为统计分类模型,完成区分性特 征检测,并根据区分性特征建立特征与音素的映射表;最后根据得到的区分性特征与边界信息,按映射表 搜索匹配实现音素的识别。 1音素边界检测 不同音素的发音特征所对应的语音事件在信号的频谱上具有不同的结构。鼻音的频谱成分主要为低 频谐振,清摩擦音有着“类噪声”频谱,而浊摩擦音既有噪声结构又有谐波结构,爆破音则是一段静默区域 后气流的突然爆破,然后为送气噪声 。因此可以根据不同音素的频谱区域结构特性,将语音信号分为 若干频带,对比各个频带信号之间的差异性,实现音素边界的检测。为描述这种频谱区域结构的差异性, 本文将语音信号的语谱能量作为输入特征,分析比较相邻帧语谱能量向量之间的差异性,并通过判定准则 和二次筛选,检测并确定音素的边界,其检测流程图如图1所示。 /, 能量 区域1 OHz~4oOHz 、 区域2 1.3Hz~5.5kH 区域3 6.()Hz~8.0kH 图1 晋素边界检测流程图 假定给定信号的频谱区域1的连续两帧语音的语谱能量向量为G 和G +。,G =( ¨, , , ¨), 定义这两个向量的欧氏距离为 厂 ————————————一 肋(G ,G川)=4/∑.( 一 …. ) 的判定阈值。根据下式进行事件向量Th (k)判决: (1) 其中, 对应区域1的第k帧语音的第n个频带的语谱能量。设P 为区域1的语谱能量向量欧氏距离 Tha㈩= 三 (2) 694 信息工程大学学报 其中, (k)=1时,表示区域1在第 帧时有语谱能量突变事件发生,即该时间点判定为第m个候选音 素边界向量BD (m)。在区域1的事件检测过程中,如果相邻事件的时间间隔小于7ms,则判定该信号的 时间范围只存在一个候选边界,并取其中欧氏距离最大的语音帧为候选边界的位置。区域2和区域3的 边界检测方法和区域1相同。 在进行区域边界检测时,为了得到较高的检测率,本文将判定阈值设置的偏低,因此插入错误也将大 大增加,影响了后续处理的效果,本文为了剔除候选中的错误边界,对边界检测的结果进行二次筛选,主要 通过判别候选边界所划分的语音段之间的差异性来剔除插入错误,并采用语音段之间语谱能量均值向量 的欧氏距离作为判别的主要依据。 2区分性特征检测 Stevens提出的LAFF理论认为语音信号的最小单位是一系列可以相互区分的特征集,并且可以利用 这些特征集表征不同的语音信号。Stevens将这些区分性特征分为两类:发音器官无关特征和发音器官相 关特征,其中,前一类用来描述发音方式特征,后一类用来描述发音位置特征。本文则使用两种不同的区 分性特征集合表征音素,分别为英语发音方式(sound pattern of English,SPE)和支配音韵特征(government phonology,GP) lo]。SPE着重从发声的角度描述音素的产生,包括发音位置特征和发音方式特征;GP则 是通过声学频谱分析而提取的音素中的11种互补分量,通过这些分量的组合描述所有的音素。 本文采用基于时间延迟(time delayed neural network,TDNN)神经网络… 进行SPE、GP特征集的检 测,输入特征为l2维的梅尔频率倒谱系数(Me1. ̄equency cepstral coefficients,MFCC)、1维的能量特征及 它们的一阶与二阶差分共39维特征,输出结果为特征集的后验概率。图2为TDNN的结构框图,其中, 为输入节点, 为隐含层权重。TDNN的最大特点是在MLP的隐含层引入时间延迟因子D ,当前时刻的 输人经过若干时刻的延迟后,对后续的判决产生影响,从而将更长时段的信息加入到系统中。 图2 TDNN系统的结构 在基于TDNN的音素识别中,TDNN的每个输出为对应音素的后验概率。考虑到音素与区分性特征 的对应关系,即任一个音素向量口可由区分性特征集中Ⅳ个并行的特征表示,即:口=(e。,e ,…,e ),其 中, 为二值的区分性特征,N为区分性特征的个数,若将TDNN的输出设定为区分性特征,即每个输出对 应一个区分性特征的后验概率,从而完成区分性特征的检测。 3 音素识别 音素边界信息与区分性特征检测完成后,即可通过特征与音素的映射表实现解码,完成音素识别。具 体实现过程:首先根据音素边界信息,将语音数据帧的特征序列通过加权处理转换为语音段的特征序列; 然后根据得到的语音段特征序列对语音段进行确认(是否包含多个音素);最后根据建立的映射表完成对 语音段特征序列的搜索匹配,实现音素识别。 3.1 语音段特征序列 在音素的过渡区域,相邻音素不同的发音特征会发生明显的变化,因此,在这些区域检测出来的某些 第6期 李立永等:基于区分性特征的音素识别 695 区分性特征的后验概率会在0到1之间浮动,包含的语音信息模糊,如果利用这些区域的信息进行音素识 别会造成系统性能的急剧下降,因此本文提出了一种计算语音段特征序列的语音帧加权算法,根据语音帧 与音素边界的距离设置不同的权重,距离边界越近,则权重越小,越靠近音素中心位置,则权重越大,并将 所有加权后的语音帧的特征序列求和得到语音段的特征序列。 假设某音素的持续时间为n帧,则该语音段的第i帧的权重设为 ,该帧的区分性特征序列向量为 (a ,。 ,…,a ),则该语音段的特征序列向量可以表示为 s(e。,e2,…,e )=∑ (a1,a2,…,a ) (3) 其中, 满足条件W >0且∑Wi=I,当n为偶数时,设后=n/2,W 可以表示为 fif i∈(1,k],W =A‘ (1一A)/2(1一A ) ,.、 I else W =W…+l 当n为奇数时,设k=(n+1)/2, 可以表示为 『if i∈(1,k],W =A 一。(1一A)/(1+A一2A ) , 、 I else W :W 一 +l 在(4)式、(5)式中A为权重系数,通过实验验证,权重系数为0.8时效果最好。 3.2语音段确认 由于在音素边界的检测过程中存在漏检情况,因此,如果某个语音段存在两个或两个以上的音素,使 用语音帧加权算法计算得到语音段的特征序列后,再利用这些特征序列进行搜索匹配时很可能会造成音 素的识别错误,为了防止这种情况的发生,本文对持续时间大于40ms的语音段进行特征序列确认,如果 该语音段包含多个音素的语音帧,则将该语音段根据音素的起始位置再次分段,如图3所示。 假设某语音段的加权后特征序列向量为s(e ,e:,…,e ),并假设加权后的特征序列中第k个特征与 语音段第i帧的第k个特征的距离向量设为 L (k)=l e 一0 l (6) 如果在该语音段存在连续两帧的某个特征的距离L(k)大于给定的距离阈值THS,则对该语音段再次 分段。语音段确认完成后再对每段语音进行加权处理,得到每段语音的特征序列。如图3所示,其中, BD(m一1)、BD(m+1)为语音段原有边界,且满足条件 2一kl≥2,BD(m)为修正后加入的边界。本文将 距离阈值THS设为0.4。 3.3 特征与音素的映射表 不同的音素具有不同的发音特征序列,因此可以根据 BD(m 1) BD(m) BIXm+1) 语音段的发音特征序列与音素的对应关系建立特征与音素 ● ● ● L,(k)>THS- ;的映射表,并根据映射表将特征序列解码为音素。其中本 也一 1≥2 文用的SPE特征集有l4个,依次为Anterior、Back、Conso— 0,~ , u u ,… …t, 回 回音素边界回 nantal Continuant Coronal High Low Nasal Round Silence Strident、Tense、Vocalic、Voice。本文用到的GP特征集为11 图3语音段确认示意图 个,依次为a、A、E、h、H、i、I、N、S、U、U。根据不同音素与 SPE、GP特征的对应关系建立特征与音素的映射表,在映射表的特征序列中,“0”表示音素不具有该发音 特征,“1”表示音素具有该发音特征,如表1所示。 表1 SPE、GP特征与部分音素的映射表 696 信息工程大学学报 2013钲 3.4 搜索匹配 由于本文采用TDNN系统检测语音帧的SPE和GP特征(检测过程见3.1),得到的SPE、GP特征序列 为0到1的后验概率序列,因此在进行音素识别前需要对特征序列进行0/1判决,然后才能根据特征与音 素的映射表搜索匹配完成识别,具体过程如图4所示。 园圈;圈回 /, 映射表 、 /ed:O001 ̄l1 l l/ae/:O0010010000l11 J 特概 + . 日;国 l/aa/:OlOlO0100001 1 1 J I/sh/:O0111100001000 f \ // 例4晋素识别过程 在得到的特征后验概率序列中,征率箍 一 某些特征的后验概率很大(接近于1),这种特征在进行0/1判决时, 不会存在模糊或歧义,但是也存在一些特征的后验概率接近给定阈值且小于给定阈值,如果直接通过阈值 、 、、 一 进行0/1判决,很容易造成误判从而降低系统的识别性能,为了更全面地利用得到的特征后验概率知识,日;田田 本文采用了一种循环搜索的特征匹配方法,在搜索匹配中不断调整判决阈值,从而得到最为合理的识别 1●●●●● ,●J 结果。 特 搜 假设特征后验概率的判决阈值为掰P,初次匹配时将THP设置为较高的阈值 列 配 P ,并在下一轮匹配 时将阈值降低,每次降低的阈值步长设为 同时规定明P的最小值为删P 。因此,根据(7)式计算 搜索匹配的次数n,本文通过实验验证,将删P 设置为0.6,册P 为0.2,阳P 为0.05时识别性能最好, 根据下式可知本文的搜索匹配次数为21次: n=( 日Ph—THPf)/THP +l (7) 通过阈值判决得到特征的0/1序列后,根据特征与音素的映射表,对语音段识别解码。假设某语音段 的特征序列向量为S(e ,e ,…,e ),经过阈值判决后的特征序列向量为 ( , :,…, ),映射表中某个 音素对应的目标特征序列向量为 音褰序列 一 (P。,P ,…,P ),则输入特征序列与目标特征序列的距离: ::I z (P ,P2,…,P )一 ( , 2,…, )l= Ip 一 l (8) 为了描述识别结果的可靠程度,本文将特征序列S(e ,e ,…,e )中最小且超过判决阈值的特征后验 概率作为该次识别结果的置信度: cD =ei/(L:+1),e,=min(el,e2,…,e )且ej> P (9) 最后选取候选识别结果中置信度最大的且距离最小的音素作为该语音段的识别结果。 在识别过程中,本文将SPE特征序列作为首要的识别依据,并以GP特征序列作为辅助识别信息,主 要分为两种情况: ①由于某些音素发音特征具有相似性,因此某些不同的音素可能会具有相同的特征序列,如果仅用 SPE特征解码会造成识别结果的歧义,因此需要应用GP特征对识别结果加以确认。这些具有相同SPE 特征序列音素组合如表2所示。 表2 SPE歧 音素 ②利用SPE特征完成音素识别后,为了提高识别的准确性,可以利用GP特征再次识别。将SPE、GP 识别的结果按照置信度排序,分别取置信度最大的两个识别结果作为候选。如果候选序列中存在相同识 别结果,则将该识别结果作为该语音段的输出,如果各不相同,则将所有候选结果及对应的置信度输出。 第6期 李立永等:基于区分性特征的音素识别 697 4实验配置及结果 4.1 实验配置 实验采用TIMIT语料库,该语料库包含了来自美国8个不同地区的共630个人的朗读语音文件,每人 朗读10句,总共有6300个语句,其中分为TRAIN和TEST两个集合。 4.1.1 音素边界检测实验配置 本文衡量检测方法的性能指标有容错误差、检测率、插入错误率、删除错误率。其中,若容错范围为 tms,即若检测边界与标注边界间相距在tms内,则认为检测正确;若该误差范围内检测出n个边界,则认 为其中n一1个为插入错误;若距标注边界tms内没有检测任何边界,则视为删除错误。 4.1.2 区分性特征检测实验配置 根据CMU/MIT的建议,对TIMIT中声学特征相近的音素进行合并,将61个音素映射为48个音素,如 表3所示。 表3 TIMIT中音素映射关系 在进行区分性特征检测时,采用的是3层的TDNN,即输入层、隐 TIMIT 本文实验 含层和输出层。其中,声学特征选用12维MFCC、1维能量特征以及它 /uw//ux/ /er//axr/ 们的一阶与二阶差分共39维特征,考虑长时性特征的影响,本文 /m//era/ TDNN的输入端为连续9帧数据,TDNN的隐含层含有300个神经元, /n//nx/ 输出端个数与区分性特征的个数相同。 /nS//eng/ /hh//hv/ 4.1.3 音素识别实验配置 /pcl//tcl//kcl//qcl/ 在本文的音素识别过程中,将发音近似的音素不加以区分,它们为 /bcl//dcl//gel/ {/el/、/vcl/、/sil/},{/el/,/1/},{/en/,/n/}。 /h#//#h//pau/ 在音素识别的对比实验中,将基于HMM的音素识别系统作为基线系统,HMM基线系统采用单音子 模型进行建模,每个模型采用3个隐含状态,每个状态的概率分布函数采用32个高斯混元的GMM。 音素识别系统性能的评定参数为正确率及准确率,假设日为正确识别的音素个数,J7\,为标注文件的 个数,A为识别的音素个数,则正确率为 %Correct= 1/At 1×100% (10) V 准确率为 /At %Accuracy= ^ ×1O0% (11) 4.2 实验结果 4.2.1 音素边界检测结果 音素边界检测容错误差分别设置为10ms、20ms和30ms,对应的边界检测结果如表4所示。 在相关的边界检测实验中,通常选择容错范围为20ms,此处将本文和文献[12]的检测结果进行比较, 如表5所示。文献[12]利用音位属性进行音素边界检测,作为一种基于统计模型的检测方法,其计算量 庞大,耗时长,且当输入信号变化时,模型调整代价巨大。而本文采用的是基于信号语谱能量特征的检测 方法,计算量小,速度快,且可以方便地将根据输入信号特点调节参数。 表4音素边界检测结果 4.2.2 区分性特征检测结果 为了衡量区分性特征的检测效果,将检测的特征后验概率以0.5为阈值进行0、1离散化,并与从测试 698 信息工程大学学报 集语料库转化而来的结果进行对比,其识别结果如表6所示。 表5 本文和其它文献的检测结果 4.2.3 音素识别结果 在搜索匹配过程中,当SPE、GP特征序列解码结果不同即存在歧义时,PAFF会输出多个识别结果及 对应的置信度,因此,在识别结果的对比时,将PAFF的识别结果分为两组,第1组将歧义区域中置信度最 大的选为识别结果进行对比;第2组则将歧义区域的识别结果包含正确的识别结果视为识别正确。将本 文的识别结果与HMM基线系统的识别结果对比如表7所示,PAFF一1为第1组的识别结果,PAFF.2为第2 组识别结果。 表6 SPE特征的检测结果 在语音识别算法实现过程中,算法的复杂度或运行时间对于语音识别系统的实时性意义重大,本文提 出的PAFF算法计算复杂度低,搜索效率快,相比与传统的基于统计模型的音素识别方法,识别速率大大 提高。本文将HMM基线系统与PAFF运行速度进行实验对比,实验电脑型号为戴尔OptiPlex 390(配置为 i5双核处理器、2G内存)。实验语料为TIMIT语料库TRAIN中DR1、DR2、DR3数据集,共1479句,时长 为3603秒。结果如表8所示。 表7音素识别结果 表8 音素识别系统识别完成耗时 识别系统(特征解码) 耗时 HMM基线系统 48分 PAFF 3.5分 4.3实验结果分析 4.3.I 音素边界检测结果分析 从表4的音素边界检测结果可以看出,随着容错误差的增大,音素边界的检测率在提高,但是由于检 测出的边界数目不会变化,因此插入错误略有下降,但仍然较大。由于音素边界检测是PAFF识别系统的 最前端,其检测性能会直接影响后续处理的效果,因此有效地提高检测率同时降低插入错误与删除错误是 研究的重点。同时,由于插入错误可以在PAFF算法实现过程中有效剔除,而删除错误则会严重影响音素 识别的效果,因此,本文的音素边界检测算法将检测阈值设置得较低,从而降低删除错误,但因此也使得插 入错误较高。 4.3.2 区分性特征检测结果分析 从表6可以看出SPE特征与GP特征的检测结果在纯净语音环境下的平均检测正确率可以达到 90%,另外,从文献[12]中可以知道SPE、GP特征白噪声及粉噪声的环境下都有较好的抗噪性能。 4.3.3 音素识别结果分析 从音素识别对比的结果可以看出,本文音素识别算法的准确率、正确率已十分接近HMM基线系统。 并且,相比于传统的数据驱动的音素识别方法,本文方法在识别速度等方面具有较为明显的优势。另外, 本文共使用l4个SPE特征和11个GP特征来完成音素识别,理论上这25个特征已足够完成音素识别, 但是如果在特征搜索匹配时增加发音特征的类型或者加入由其他分类器检测的特征集,同时调整特征与 第6期 李立永等:基于区分性特征的音素识别 699 音素的映射表,则系统的音素识别错误概率将会下降,系统对环境噪声的鲁棒性也将会进一步提高。 PAFF对于发音方式变化明显的音素具有较好的检测效果,因此,还可以将PAFF识别的结果与其它数据 驱动的音素识别结果融合,进一步提高现有音素识别系统性能。 5 结束语 本文提出了一种基于语音产生知识的音素识别方法,相比于传统的基于数据驱动的“自上而下”的语 音识别方法,该方法通过模拟人耳听觉感知过程,采用“自下而上”的结构体系,以检测得到的发音底层特 征为基础,逐步实现高层特征的检测,并通过特征的搜索匹配完成识别。相比于基于数据驱动的识别方 法,本文方法在识别速度、系统鲁棒性及可扩展性等方面具有较大优势。 另外,本文主要采用区分性特征完成音素的匹配识别,还可以在匹配过程中进一步加入其它发音特 征,如Landmark等音素类别信息,这些信息既可以作为系统输入来限制搜索的范围,又可以作为先验知 识,对识别结果进行筛选确认,从而进一步提高识别的性能。 参考文献: [1] Dusan S,Rabiner L R.On Integrating Insights from Human Speech Perception into Automatic Speech Recognition[c]//proc .of Conference on the International Speech Communication Association(InterSpeech).2005:1233—1236. [2] Stevens K N.Toward a model of lexical access based on acoustic landmarks and distinctive features『J1.The Journal of the A. coustical Society of America,2002,111(4):1372—1891. [3] Janet Slifka.Acoustic cues,landmarks and distinctiveFeatures:a model of human speech processing[J].ECTI transactions on computer and information technology,2006,1 1:9 1—96. [4] Lee Chin—Hui,Mark A Clements,Sorin Dusan.An overview on automatic speech attribute transcription(ASAT)[C]//Proc. of InterSpeech Antwerp.2007:1825—1828. [5] Metze F,Waibel A.A lfexible stream architechture for ASR using articulatory features[C]//Proc.Of InterSpeech Conference on Spoken Language Processing.2002:2 1 33—2 1 36. [6] Kirchhoff K,Fink G,Sagerer G.Combing acoustic and articulatory feature information for robust speech recognition[J]. Speech Communication,2002,37(3-4):303—319. [7] Morris J,Fosler—Lussier E.Combining phonetic attributes using conditional random ifelds[C]//Proc.of.Ninth International Conference on Spoken Language Processing(ISCSLP).2006:597—600. [8]Siniscalchi S M,Torbjorn Svendsen,Lee Chin—Hui.Towards Bottom—Up Continuous Phone Recognition[C]//Proc.of Auto・ marie Speech Recognition&Understanding(ASRU).2007:566—569. [9]Thomas F Quatieri.Discrete—Time Speech Signal Processing:Principles and Practice[M].Beijing:Publishing House of Elec- tronics Industry.2004:43-55. [10]King S,Taylor P.Detection of phonological features in continuous speech using neural networks[J].Computer,Speech and Language,2000,14(4):333—345. [11]Strom N.The NICO Artiifcial Neural Network Toolkit[EB/OL].[2010 ̄9・23].http://nico nikkostrom.con. [12]许友亮,张连海,牛铜.基于音位属性和边界信息的音素识别[J].数据采集与处理,2012,28(4):79-87.