噪声环境下说话人识别的组合特征提取方法
2023-11-26
来源:爱问旅游网
维普资讯 http://www.cqvip.com 第22卷第5期 信号处理 Vo1.22. No.5 2006年10月 SIGNAL PROCESSING 0ct.2oo6 噪声环境下说话人识别的组合特征提取方法 芮贤义 俞一彪 (上海交通大学电子系,上海200240; 苏州大学电子信息学院,苏州215021) 摘要:针对在干净语音环境下识别率很高的说话人识别系统,在噪声环境下识别率显著降低的缺点,本文结合具有 多分辨率分析特点的小波变换技术,提出一种基于小波变换的组合特征提取算法,以提高说话人识别系统在噪声环境下的 识别性能。对40个说话人的语音库SUDA2002一D2,在噪声环境下进行的识别实验结果表明,本文提出的组合特征提取算 法可以在噪声环境下有效地提高说话人识别系统的识别性能。 关键词: 说话人识别;小波变换;矢量量化;组合特征 A Combined Feature Extraction Method for Speaker Identification under Noisy Conditions Rui Xianyi Yu Yibiao (School of Electronics&Information Engineering,Soochow University,Suzhou 215021) Abstract: A speaker recognition system with high performance in relatively clean environment will become deficient with unac— ceptable recognition performance in noisy environment.Wavelet transform holds multi—resolution analysis abilities.In this paper,a new combined--feature--extraction algorithm based on wavelet transform is proposed to improve the recognition rate of speaker identiifcation in noisy conditions.Experiments on SUDA2002一D2 Chinese speech corpus show that the proposed algorithm is quite efifcient for speaker i- dentification in noisy conditions. Key words: Speaker identiifcation;Wavelet transform;Vector quantization;Combined feature 1 引言 实际说话人识别系统中,当应用环境中存在噪声时,由于训 练环境与识别环境的不匹配,说话人识别系统的识别性能下 说话人识别是指通过对说话人语音信号的个性特征进 降十分严重。要使说话人识别技术能真正在实际环境中应 行分析,从而达到对说话人身份进行识别的目的,在公安司 用,噪声下的说话人识别的研究有着十分重要的意义。无论 法领域、军事领域、电子银行、信息服务等领域具有广泛的应 是说话人识别系统还是语音识别系统,提高系统环境抗噪声 用价值。从说话人识别系统的应用职能上看,可分为说话人 能力的方法通常有三种:(1)基于模型补偿的方法,即在说话 辨认(Speaker Identiifcation)和说话人确认(Speaker Verifiea— 人模型中引入噪声模型,如并行模型合并PMC[3];(2)在前 tion),但采用的识别技术是相同的。不管是辨认还是确认, 端处理中利用降噪技术减少输入语音中的噪声,如将语音增 从识别基于的对象来看,都可分为基于文本(Text—Dependent) 强技术用于语音预处理[4];(3)寻找具有鲁棒性的特征参 和文本无关(Text-Independent)的两大类。基于文本的方式 数,如一些模仿听觉特性的感知语音特征[5]。 要求说话人按规定的文本发音或按提示发音,文本无关则无 小波变换是一种具有分辨率可变、实现简单和无平稳性 此要求。 要求等优点的时频局部分析方法,利用它能有效地从信号中 矢量量化(VQ:Vector Quantization)[1]方法和高斯混合 提取信息。本文提出了基于小波变换的组合特征提取算法, 模型GMM[2]是目前说话人识别的两大方法。其中,VQ方 并应用于40个说话人的文本无关的辨认系统,分别在不同信 法对每个说话人建立一个特征矢量码本,用语音短时特征矢 噪比环境下进行说话人识别实验,并与传统的特征提取方法 量的聚类中心集合(码本)表示说话人模型,在识别时依据测 的识别结果进行了比较和分析,结果证明本文提出的组合特 试语音对各说话人码本的似然度来判别说话人的身份。在 征提取算法有效地提高了说话人识别系统在噪声环境下的 收稿日期:2005年3月10日;修回日期:2005年4月30日 维普资讯 http://www.cqvip.com 674 信号处理 第22卷 识别性能。 Daubechies小波[6]。然后对每个尺度上得到的小波 系数依次进行下面步骤(2)、(3)、(4); 2基于小波变换的组合特征提取算法 2.1 白噪声的小波变换特性 (2)阈值处理:该处理主要是针对低频部分的小波系数 { (i),i=1,2….N/2}用门限进行。用该阈值来甑 别携带能量较少的系数,即小于或等于该阈值的系 小波变换(wT:Wavelet Transform)[6][7][8]是当前应 用数学中一个迅速发展的领域,是分析和处理非平稳信号的 一数视为携带能量较少者,实际处理中将这些值作为 零处理,而仅仅保留阈值以上的数据,具体处理 种有力工具,它具有多分辨率分析(MRA:Multi—Resolution Analysis)的特点,能有效地从信号中提取信息。 设n(t)是实的宽平稳白噪声,其方差为 ,那么白噪声 的小波变换 (U,r)的期望值[8]: E【I WT(a,v)【 ]= E[n(u)n( )] (£一u) 。 (£一v)dudv 2 I k.tl 2 一 l I【J r1、 一 0 、 , 式(1)表明E【l (。,r)【 】的衰减正比于1/a,即随尺度。 的增加而白噪声的小波幅度平均值减小。 若白噪声 (f)是高斯白噪声,在尺度S上,可以证明小 波变换的模的平均密度[8]: 1[L Iv,' :)。 ,I + ] (2) 式(2)中 ” 及 分别是 的一阶及二阶导数。该式表 明,高斯白噪声的小波变换模值的平均密度正比于1/a,即随 尺度a增大,其密度减小。 2.2基于小波变换的组合特征提取原理 现有的说话人识别算法所采用的特征参数,如线性预测 系数、倒谱系数等都是基于短时平稳分析提出的,仅仅对说 话人的静态特征进行了描述,忽略了说话人的动态特征。而 小波变换具有分辨率可变、无平稳性要求和在时频两域突出 信号局部特征的能力等诸多优点,因此,语音信号经过小波 变换后,在各尺度空间内能提供不同频段上语音信号的构成 信息,以及可以精确地检测到由声门闭合产生的语音波形的 突变点[6]。 信号厂(t)的性质可以用它的小波系数来刻划,系数较大 者携带的信号能量较多;相反,系数较小者携带的能量较少。 由前一小节分析知,高斯白噪声的小波系数随着尺度的增大 而变小变疏 因此,本文采用一个浮动的阈值来甑别携带能 量较少的系数,即小于或等于该阈值的系数视为携带能量较 少者,实际处理中将这些值作为零处理,而仅仅保留阈值以 上的数据。然后利用这些小波系数直接提取语音特征。 本文结合小波变换提出了一种鲁棒型语音特征提取算 法CFE,在利用小波变换提取特征参数时仅需要小波分解而 无须进行小波重构,这样小波函数选择的限制就比较小。具 体的步骤如下: (1)小波分解:将经过预处理的语音信号,用Mallat快速 算法(金字塔算法)求出语音信号在各尺度j(j=1, 2,…,J,一般J 4)上的小波变换。本文选用8阶 如下: ):f gn[ ( )](b x( )I一占), ( 占(3) 一 【0, j (£)j s 式(3)中sgn()为符号函数;闽值占采用占=UO"来估计, 其U为一常数,盯为小波系数的标准方差,可通过下面的式子 来估计 1 N/2 =‘ 苫( 一 ) (4) 式(4)中{ ,i=1,2,...N/2}为小波系数, 为均值,N 为语音序列的长度。 (3)特征提取:分别对低频部:分,进行m阶LPCC特征参 数的提取;对高频部分S={ , ,K, },提取平 均信息量,即熵日(s)[9]。其中熵的求解,可以从连 续的角度采用统计分布特征求解[10],本文从离散 的角度采用更为简单的求法:先将该尺度下的小波 系数空间聚成,类,然后求出各类所占的概率P Vi, 通过式(5)计算熵 (S), , 日(S)=一∑P log(p ) (5) (4)加权特征组合:在每个尺度j上经过第(2)、(3)步处 理后,进行分类加权特征组合,参数LPCC的权重设 为1,熵H的权重设为b。然后将各尺度上提取的特 征组合按尺度顺序排列形成特征向量供识别用,这 样特征参数空间的维数为:(m+1)XJ。 实验表明,当阈值乘性常数U取0.3、熵的权重b取0.1、 小波分解级数J取3、I取6和LPCC的阶数取l2时识别效果 更佳。 2.3组合特征参数 组合特征参数是指通过2.3节的CFE算法提取低频部 分的l2阶LPCC和高频部分的熵日(S)的加权组合。本文提 取高频部分的熵 (s)从概率统计的角度刻画语音信号,比 仅使用LPCC参数更鲁棒。实验也表明通过增加熵日(s)参 数能提高系统的识别率。 3应用CFE算法的说话人识别 建立一个说话人识别系统可分为两个阶段,l ̄pi).ll练阶段 和识别阶段。基于CFE的说话人识别系统主要包含特征参 数提取、模型训练、似然度计算与识别决策等部分。 3.1组合特征参数的提取 说话人识别就其本质来讲是对个性特征的识别。能表 维普资讯 http://www.cqvip.com 第5期 噪声环境下说话人识别的组合特征提取方法 675 征说话人特征的参数主要有基音等韵律特征、共振峰与带宽 以及表示说话人声道特征的参数LPC、LPCC、MFCC、差值倒 谱系数等等。本文的主要目的是研究CFE算法应用于说话 人辨认系统,在噪声环境下提高识别率的有效性,因此分别 实验中对语音信号的预处理部分主要包括:分帧和加 窗。由于小波变换技术的时频局部分析特点预加重部分则 无需进行,实验表明效果更佳。 (1)分帧:取帧长N为256点,对应的时间为23ms,帧移 128点,对应的时间为11.6ms。 (2)加窗:采用Hamming窗来消除由分帧引起的信号边 采用CFE算法提取组合特征和传统的特征提取方法提取16 阶MFCC进行了实验。 3.2说话人模型的训练 矢量量化(VQ)是一种对特征矢量进行量化编码的方 法,被广泛应用于语音编码、语音识别和文本无关的说话人 识别中。在说话人识别中,运用VQ技术对说话人的语音数 据进行聚类分析,形成由各聚类中心构成的码本作为说话人 的模型。 基于VQ的说话人识别模型是一种非参数模型,每个待 识别的说话人用一个码本来表征,码本是从该说话人的训练 语音数据中提取的特征矢量经过LBG算法聚类而成的。只 要用于训练的语音数据足够长,每个码本的码字数合理,该 码本就可被认为包含了该说话人的个性特征,对于汉语说话 人来说,根据以往实验分析,训练语音数据的长度应达到30 秒,码本的码字数选取128较合适[11]。 3.3似然度计算与识别判决 在识别阶段,首先从测试语音中提取特征矢量序列,并 计算该特征矢量序列与各说话人模型的似然度,具有最大似 然度的模型所对应的说话人即为识别结果。设系统有s个 码本,每个码本具有相同的码字数M。测试语音与码本之间 的似然度P (i=1,2,3,…,s)可定义如下: 1 N P =1/[ 三mjV l l n a(Xj,yf‘)] (6) 1 N d(xj,yf )=专.∑'[X (k)一yf ] (7) 式(6、7)中 (1=1,2,…,M;i=1,2,…,s)代表第i个码本 中第1个码字;d(xj, )代表待识别矢量与码字之间的距离; N代表待识别语音矢量的长度;S表示该系统有s个码本;K 代表特征矢量的维数。识别结果就是使似然度P,最大(即 D 最小)的第i个码本所对应的说话人,即识别结果: i =Arg max(P )=Arg m!n(D ) (8) 4实验分析与比较 4.1实验环境 实验中训练语音数据为SUDA2002.D2数据库,均在普通 实验室环境下用普通声卡进行录制,采样率为11025Hz,量化 精度为16位。参加实验的人数共有40人,其中25个为男性 说话人,15个为女性说话人。每个人录制了7段12秒的语 音。前4段用于训练,后3段用于识别。实验中为每个说话 人建立一个码本,每个码本的码字数均为128。实验中的带 噪测试语音数据采用干净语音数据叠加上一定比例的高斯 白噪声形成。 缘锐变,Hamming窗定义为 埘(n)=0.54—0.46cos[2 ̄rn/(N一1)](0 n Ⅳ一1) (9) 预处理还包括背景噪声以及无声段的消除处理。 4.2结果与分析 实验分别在不同信噪比环境下、不同测试时间长度及不 同训练时间长度下,利用本文提出的CFE算法和传统的特征 提取算法(其特征参数采用l6阶MFCC),并分别进行说话人 识别实验。 (1)CFE算法提取的组合特征和单一特征的性能比较 分析 图1给出了本文提出的CFE算法提取组合特征(每个尺 度上的12阶LPCC和熵的加权特征组合)和单一特征(仅每 个尺度上的12阶LPCC),在训练语音长度为35秒和测试语 音长度为3秒时,系统的误识率随不同信噪比的变化图,横坐 标表示不同信噪比,单位为dB,纵坐标表示误识率。 三柏 1。 0 图1组合特征和单一特征的性能比较 从图中可以清楚地看出,使用本文提出的CFE算法提取 的组合特征在各个信噪比和干净语音环境下都明显好于仅 提取LPCC的单一特征,且信噪比越低越明显。这也表明了 增加熵日(Js)可以提高系统识别率,组合特征比单一特征更 能描述说话人的个性特征。 (2)不同阶数LPCC参数下的性能比较分析 表1给出了本文提出的CFE算法提取每个尺度上的 LPCC参数和熵的加权特征组合,在训练语音长度为35秒和 测试语音长度为3秒时,当LPCC的阶数为8、10和12时系 统各个不同的信噪比时的误识率,第一行为示不同信噪比 (其中clean表示干净语音环境),单位为dB,第一列为不同 阶数的LPCC参数和熵的加权特征组合。 表1中的数据显示本文提出的CFE算法在不同信噪比 以及干净语音环境下,当LPCC的阶数为l2时,就平均来看, 误识率低于阶数为8和10时系统的误识率,但相差不大。这 也说明当LPCC阶数取12时,相应的线性预测模型可以更好 维普资讯 http://www.cqvip.com — )索 瞢} 阳加∞∞∞∞∞m 0 676 信号处理 第22卷 地拟合语音信号。 表1不同阶数LPCC参数下的误识率 10dB 15dB 20dB 25dB 30dB clean 8阶IPCC+熵 38.28% 14.70% 5.82% 2.91% 2.04% 1.46% 10阶LPCC+熵 33.77% 11.93% 4.51% 2.47% 2.03% 1.6o% 12阶LPCC+熵 32.O2% 12.95% 4.80% 1.89% 1.6o% 1.16% (3)与传统的特征提取方法的性能比较分析 在干净语音环境下,应用传统的特征提取方法提取特征 参数的说话人识别系统具有很高的识别率,但在噪声环境下 识别率显著降低。本文提出的组合特征提取算法CFE有效 地改善了这一缺点,提高了噪声环境下说话人识别系统的识 别性能。 以下实验是分别将本文提出的CFE算法提取每个尺度 上的12阶LPCC和熵的加权特征组合和传统的特征提取方 法提取l6阶MFCC,在不同信噪比、不同测试语音长度和不 同训练语音长度下,识别性能的比较。 图2在不同信噪比环境下的误识率 图2显示了应用本文提出的CFE算法提取的组合特征 和传统的特征提取方法提取的16阶MFCC,在测试语音长度 为3秒和训练语音长度为35秒时,系统的误识率随不同信噪 比的变化图。图中曲线表明,在信噪比为10dB一30dB时,CFE 算法都明显好于传统特征提取方法,且信噪比越低识别性能 提高越明显,在30dB时两者误识率基本相近,25dB时误识率 下降8个百分点,20dB时误识率下降15个百分点,而15dB 和10dB时误识率降幅分别达29和42个百分点。在干净语 音环境下,应用CFE算法的误识率略高,分别是1.16%和 0.2%,主要是因为应用CFE算法提取特征参数时没有进行 预加重,以及在干净语音下算法中的阈值处理使得一部分表 征说话人个性特征的信息丢失所造成的。 另外,图2还给出了3次小波分解后,每个尺度上4阶 LPCC与熵的组合特征参数(共15维)在不同信噪比下的误 识率曲线。由图可以清楚地看出本文提出的CFE算法提取 的组合特征的维数与16阶MFCC接近时,在不同信噪比下仍 然具有比16阶MFCC更低的误识率,由此充分说明本文提出 算法的有效性。 图3在不同测试语音长度下的误识率 图3显示了应用本文提出的CFE算法提取的组合特征 和传统的特征提取方法提取的16阶MFCC,在信噪比为20dB 和训练语音长度为35秒时,系统的误识率随不测试语音长度 的变化图。从上图我们可以发现,在不同测试语音长度下使 用本文提出的算法误识率平均可以降低14个百分点。表明 在噪声环境下,本文提出的算法比传统的方法提高了识别系 统的识别率,增强了抗噪声性能。同时,也说明了增加测试 语音长度,可以提高识别系统的识别率。 图4在不同训练语音长度下的误识率 图4显示了应用本文提出的CFE算法提取的组合特征 和传统的特征提取方法提取的16阶MFCC,在测试语音长度 为3秒和信噪比为20dB时,系统的误识率随不同训练语音 长度的变化图。图中曲线表明,在训练语音长度为10秒到 35秒时,本文提出的算法都明显好于传统特征提取方法。同 时也显示了增加训练时间可以降低识别率,但训练时间在实 际应用中受到限制。所以在满足一定误识率的条件下,训练 时间越短越好。实验中可以看出当训练时间增加到一定(如 30秒)时,再增加训练时间识别率降低幅度就很小了。 5 结论 本文提出了基于小波变换的组合特征提取算法,及在文 本无关的说话人辨认中的应用进行了实验分析与评价,并与 传统的特征提取方法提取16阶MFCC特征参数进行的识别 实验进行了比较。实验结果表明,在噪声环境下,本文提出 的组合特征提取算法能有效地提高识别系统的识别率,并且 在运用该算法时,组合特征参数要优于单一特征参数。 结合具有多分辨率分析特点的小波变换技术,充分考虑 噪声和语音信号在小波变换后各个尺度上的不同特性,有效 地提取具有对噪声不敏感的表征说话人个性信息的特征参 数。实验证明了该算法可以有效地提高说话人识别系统在 维普资讯 http://www.cqvip.com 第5期 噪声环境下说话人识别的组合特征提取方法 677 噪声环境下的识别性能。但当实际环境的信噪比很低时,如 低于0dB,则仍不能得到满意的识别率。 参考文献 F.K.Soong,A.E.Rosenberg,A vector quantization ap— proach to speaker recognition,Proc.of ICASSP,1985,PP. 387.390. [2] D.A.Reynolds,R.C.Rose,Robust Text・Independent Speaker Identiifcation Using Gussian Mitxure Speaker Models,IEEE Tran 1995,Speech and audio processing,ppT2—83. [3] L.Wong,M.Russell,Text・dependent speaker veriifcation under noisy conditions parallel model combination,IC— ASSP’2001. [4] 徐义芳等,语音增强用于抗噪声语音识别,清华大学学 报(自然科学版),41(1),2001:41—44. [5] Hermmasky H.,Perceptual linear predictive analysis of speech [J],Journal of Acoust.Am.,vo1.87,no4,PP.1738・ 1752,1990. [6] 杨福生.小波变换的工程分析与应用,科学出版 社,1999. [7] Ching・Tang HSIEH,Regulra Member and You・Chuang WANG,A Robust Speaker Identiifcation System Based on Wavelet Transforill,IEICE Trans.Inf.&Syst.,vo1.E84一D, no.7,2001. [8] Mallat S.,Huang W.L.,Singularity detection and process— ing with wavelet,IEEE Trans.IT・38,2:617_634,1992. [9] X.Huang,A.Aeero,H.Hon,Spoken Language Processing: A Guide to Theory,Algorithm,and System Development, Prentice Hall,2001. [10] 俞一彪,王朔中,基于互信息匹配模型的说话人识别, 29(5),声学学报,2004:462—266. 许允喜,俞一彪,基于GMM的汉语说话人识别特性分 析,146(2),通信技术,2004:59-61. 作者简介 芮贤义,男,1981年3月生,上海交通大学电子系博 士研究生,研究方向为MIMO技术、说话人识别。