语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类进行思维的一种依托。语音业务的传输始终是通信系统中最重要、最基本的核心功能之一,即便是在倡导多媒体业务的第三代甚至第四代数字移动通信系统中,语音业务也仍然是其主导业务。
语音编码是语音信号处理的一个重要方面,它和通信领域联系最为密切。而语音识别、语音合成、语音增强等方面在理论和方法上与语音编码有很多相通之处。因此,系统、全面地了解当今语音信号压缩编码的原理和方法,对语音通信领域工作的开展具有重要意义。
语音编码技术大致可以分为三种方式:波形编码、参数编码和混合编码。
1、波形编码
波形编码一般分为时域波形编码和变换域波形编码。
1) 时域波形编码
时域波形编码不基于声学模型,只针对语音波形进行编码。这种方法在降低量化每个语音样本比特数的同时又保持了相对良好的语音质量,波形编码主要有脉冲编码调制(PCM)、增量调制 (DM)、自适应增量调制(ADM)、自适应差分脉码调制 (ADPCM)、自适应预测编码(APC)等。线性PCM是用同等的量化级进行量化,没有利用声音的性质,所以信息没有得到压缩,对数PCM利用了语音信号幅度的统计特性,对幅度按对数变换压缩,将压缩的结果作线性编码,在接收端解码时,按指数进行扩展,这种方法在数字电话通信中得到了广泛的应用,现有的PCM采用编码速率为64kbps的A律、μ律对数压扩方法。由于对数PCM广泛应用于通信系统中,而线性PCM可以直接进行二进制运算,所以一般速率低于64Kbps的语音编码系统多是先进行对数PCM-线性PCM变换后,再进行语音信号数字处理。PCM最大缺点是数码率高,在传输时所占频带较宽。差分脉码调制(DPCM)是根据相邻采样值的差值信号进行编码,ADPCM是在DPCM的基础上发展起来的,其量化器与预测器的参数能根据输入信号的统计特性自适应于最佳或接近于最佳参数状态。ADPCM是语音编码中复杂程度较低的一种方法。增量调制是根据信号的增量进行编码,用一位二进制码序列对模拟信号进行编码。这种方法简单,实现容易,但由于量阶固定,所以当信号下降时,信噪比(SNR)下降。为了改进这种方法的动态范围,引进了自适应技术,让量阶的大小随输入信号的统计特性变化而变,这种方法称为自适应增量调制(ADM)。连续可变斜率增量调制(CVSD)是让量阶的大小随音节时间间隔(5~20ms)中信号的平均斜率变化,信号的斜率是通过输出连“0”或连“1”来检测的。ADM编码器简易、同步简单、成本低、是数字移动通信中较好的一种语音编码方法。APC是根据语音的统计特性,由过去的采样值预测出当前样值的一种编码方法,它是通过自适应预测器来提高预测精度的,预测得越精确,编码速率越低,这种方法可以做到低速率(10kbps以下),并且音质与电话音质相似。
2) 变换域波形编码
变换域编码方式也是不基于声学模型的编码方法,主要有子带编码(SBC) [4]和自适应变换编码(ATC),SBC利用带通滤波器将语音频带分成若干子带,并且分别进行采样、编码,
编码方式可以用ADPCM或ADM,SBC速率可以达到9.6kbps。可变SBC可使子带的设计不固定,而是随共振峰变化,使编码效率进一步提高,这种方式在码率为4.8kbps时可具有相当于7.2kbps的固定SBC的语音质量。ATC是先将语音信号在时间上分段,每一段信号一般有64~512个采样,再将每段时域语音数据经正交变换转换到频域,得到相应的各组频域系数,然后分别对每一组系数的每个分量单独量化、编码和传输,在接收端解码得到的每组系数再进行频域至时域的反变换,恢复时段信号,最后将各时段连接成语音信号,ATC编码在速率为12~16kbps可得到优质语音。
2、参数编码
参数编码是基于模型的编码方法,它分析并提取语音信号的特征参数,且只传送能够合成语音信息的参数,通过参数还原语音,典型的声码器有谱带式、共振峰式和按线性预测 (LP) 分析所组成的声码器等。谱带式声码器发送语音信号的三种信息,其中一种信息是使语音信号通过10~20个并联带通滤波器,通过检波得到信号的包络值,再用50Hz或30Hz的帧频传送,另一种信息是声带音调,通过音调控制器从语音中分析出基音频率,并送出相应的电压信号,第三种是清/浊音判决信息,将上述信息通过采样、量化、编码,合成发送出去,在接收端设置蜂音,噪声发生器,产生周期脉冲,其频率与基音相等,发生器的输出由浊音、清音检测控制开关的交替通断,再被发送端送来的相应信息调制,就得到合成的语音,其速率可压缩到2.4kbps。共振峰声码器是利用语音频带中的共振峰信息进行编码,它的速率可压缩到1.2kbps,这种方法存在的问题是要准确地提取共振峰的频率比较困难。LP声码器是一种比较有实用价值的声码器,典型的方法如美国国家安全局于1975年及1986年选定的LPC-10及改进型LP-10e,码率为2.4kbps用10阶线性预测的方法提取声道参数,采用区分浊音和清音的二元激励,清音用白噪声而浊音用周期为基音周期的脉冲序列激励LPC合成滤波器合成语音,用这种方法还原出来的语音的清晰度、可懂度仍很高。
3、混合编码
混合编码结合上述几种编码方式的优点,在保留参数模型技术精华的基础上,应用波形编码准则去优化激励信号,从而在4.8~9.6kbps的码率上获得了较高质量的合成语音。其代表是合成分析(ABS-Analysis-by-Synthesis)线性预测编码。它采用感觉加权技术,在闭环的基础上寻找主观意义上失真最小的激励矢量。由于采用的激励信号模型不同,这类方法派生出多种新的编码方法,都能在9.6kbps码率上获得较高的话音质量。典型的方法有规则脉冲激励线性预测(RPE_LP),多脉冲激励线性预测(MPE_LP),码激励线性预测(CELP)等。MPE_LP采用数目有限,非均匀间隔的冲激序列作为激励,在RPE_LP中信号同样为冲激序列,但其间隔为常数,所以RPE_LP除需指明序列的起始位置外,无需对每一个脉冲位置进行描述。CELP采用矢量量化技术,传送给解码器的是码本索引而不是样值矢量,CELP能高效地压缩数码率,但是建立码本搜索码字的运算量也比较大。
因篇幅问题不能全部显示,请点此查看更多更全内容