语音与语音信号
语音是人类获取信息的重要来源和利用信息的重要手段。语音信号处理是一门发展十分迅速、应用非常广泛的前沿交叉学科,同时又是一门跨学科的综合性应用研究领域和新兴技术。现代语音信号系统包括语音信号采集单元和语音信号处理单元。
语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等学科也有非常密切的联系。
从技术角度讲,语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术之一。在高度发达的信息社会用数字化的方法进行语音的传送、存储、识别、合成、增强等是整个数字化通信网中的重要组成部分之一。同时,语言不仅是人类相互间进行沟通的最自然和最方便的形式,也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为计算机、自动化系统等建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化和自动化程度。
其中语音信号处理的一个重要的部分是频谱分析。有趣的是,人类对变化的频率比对变化的本身更要敏感得多。人耳对声音敏感的不是声波本身而是声波的频率,例如男声、女生和低音、高音等。所谓频谱分析就是周期性分析,频谱估计就是周期性估计。频谱分析和估计不仅是揭示信号特征的重要方法,也是处理信号的重要手段。这些方法和手段己经广泛地应用于通信、雷达、地震、生物医学、物理、化学、音乐、经济等领域。如此广泛的应用主要归功于数字信号处理(DSP)理论和技术的进步。自从1965年图基(J.W.Tuky)和库利(T.W.Coody)在《计算机数学》杂志上发表了著名的《机器计算傅立叶级数的一种算法》论文后,桑德(G.Sand)——图基等快速算法相继出现,由经人们进行改进,很快形成一套高效运算方法,这就是现在的快速傅立叶变换,简称(FFT)。由于实现方法的限制,这些理论还得不到广泛得应用。直到20世纪80年代,世界上第一片单片可编程DSP(数字信号处理)芯片的诞生,才将理论研究成果广泛应用到低成本的实际系统中,并且推动了新的理论和应用领域的发展,并为各式各样的频域问题,提供了一个统一的、经济的、单片继承的解决办法。
2.1 语音信号的特点 构成人类语音的是声音,然而这是一种特殊的声音,是由人讲话所发出的声音。语音是由一连串的音所组成。语音具有被称为声学特征的物理性质。语音中的各个音的排列由一些规则所控制,对这些规则及其含意的研究属于语言学的范畴,而对语音中音的分类和研究则称为语音学。
语音既是人的发音器官发出来的一种声波,它就个其他各种声音一样,也具有声音的物理属性。它具有以下一些特性:
① 音质。它是一种声音区别与其他声音的基本特征。
② 音调。就是声音的高低。音调取决于声波的频率:频率快则音调高,频率慢则音调低 ③声音的强弱。音强及音量,又称响度。它是由声波振动幅度决定的。 ④声音的长短。也称音长,它取决于发音持续时间的长短。
语音信号最主要的特性是随时间而变化的,是一个非平稳的随机过程。但是,从另一方面看,虽然语音信号具有时变特性,但在一个短时间范围内其个性基本保持不变。这是因为人的肌肉运动有一个惯性,
从一个状态到另一个状态的转变是不可能瞬间完成的,而是存在一个时间过程。在没有完成状态转变时,可从近似认为它不变。只要时间足够短,这个假设是成立的。在一个较短的时间内语音信号的特征基本保持不变,这是语音信号处理的一个重要出发点。因而我们可以采用平稳过程的分析处理方法来处理语音。
2.2语音信号处理的主要方式
根据所分析的参数不同,语音信号分析又可分为时域、频域、倒频域等方法。时域分析具有简单、运算量小、物理意义明确等优点;但更为有效的分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起很小的作用。傅立叶分析在信号处理中具有十分重要的作用,它是分析线性系统和平稳信号稳态特性的强有力手段,在许多工程和科学领域得到了广泛的应用。这种以复指数函数为基函数的正交变换,理论上和完善,计算上很方便,概念上易于理解。傅立叶分析能是信号的某些特性变得很明显,而在原始信号中这些特性可能没有表现出来或至少不明显。
然而,语音波是一个非平稳过程,因此使用与周期、瞬变或平稳随机信号的标准傅立叶变换不能用
来直接表示语音信号。前面已提到,我们可以采用平稳过程的分析处理方法来处理语音。对语音处理来说,短时分析的方法是有效的解决途径。短时分析方法应用于傅立叶分析就是短时傅立叶变换,即有限长度的傅立叶变换,相应的频谱称为“短时谱”。语音信号的短时谱分析是以傅立叶变换为核心的,其特征是频谱包络与频谱微细结构以乘积的方式混合在一起,另一方面是可用FFT进行高速处理。语音信号处理基本分为两种分析方法:数字信号处理和模拟信号处理。而目前对语音信号处理均采用数字处理,这是因为数字处理与模拟处理相比具有许多优点。其表现为: ① 数字技术能够完成许多很复杂的信号处理工作;
② 通过语音进行交换的信息本质上具有离散的性质,因为语音可以看作是音素的组合,这就特别适合于
数字处理;
③ 数字系统具有高可靠性、廉价、快速等优点,很容易完成实时处理任务;
④ 数字语音适于在强干扰信道中传输,也易于进行加密传输。因此,数字语音信号处理是语音信息处理
的主要方法。
2.3 语音信号处理系统的一般结构 语音信号处理系统首先需要信号的采集,然后才进行语音信号的处理,其一般结构如下:
根据采集信号的不同,可分为模拟信号和数字信号,其处理系统也可分为模拟处理系统和数字处理系统。如果加上模数转换和数模转换芯片,模拟处理系统可处理数字信号,数字处理系统也可处理模拟信号。由于数字信号处理比模拟信号处理具有许多不可比拟的优越性,大多数情况都采用数字处理系统。
听觉的掩蔽效应
掩蔽效应指人的耳朵只对最明显的声音反应敏感,而对于不敏感的声音,反应则较不为敏感。例如在声音的整个频率谱中,如果某一个频率段的声音比较强,则人就对其它频率段的声音不敏感了。应用此原理,人们发明了mp3等压缩的数字音乐格式,在这些格式的文件里,只突出记录了人耳朵较为敏感的中频段声音,而对于较高和较低的频率的声音则简略记录,从而大大压缩了所需的存储空间。在人们欣赏音乐时,如果设备对高频响应得比较好,则会使人感到低频响应不好,反之亦然。
一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(maskingtone),后者称为被掩蔽声音(maskedtone)。掩蔽可分成频域掩蔽和时域掩蔽。
人耳的掩蔽效应
一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效
应”。 人耳的掩蔽效应 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,3kHz—5kHz绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在800Hz--1500Hz范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度,使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为掩蔽量(或称阈移)。
语音压缩技术
语音压缩技术指的是对原始数字音频信号流运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,压缩信号编码速率,也称为压缩编码。
语音压缩编码技术有多种,归纳起来大致可分为三类,即波形编码、参数编码和混合编码。波形编码即针对语音波形进行编码,而尽量保持输出波形不变,即恢复的语音信号基本上与输入信号波形相同;参数编码方法是先对语音信号进行分析,提取出其参数,对参数进行编码,在解码后由这些参数重新合成出重构的语音信号,使得到的信号听起来与输入语音相同;而不是对语音信号的波形直接处理,因而恢复信号与原信号不必保持相同;由参数编码与波形编码相结合的混合编码的编码器正在得到人们较大的关注。这种编码器既具备了声码器的特点(利用语音生成模型提取语音参数),又具备了波形编码的特点(优化激励信号,使其与输入语音波形相匹配)。
当前语音压缩编码的常用技术有:脉冲编码调制(Pulse Code Modulation,简称PCM),自适应差分脉;中编码调制(ADI cM)及自适应增量调制(ADM),子带编码(SBC),线性预测语音生成模型与参数编码。
语音处理
语音处理语音 信号和这些信号的处理方法的研究。
通常的信号处理中的数字表示,所以数字信号处理语音处理可以作为一种特殊的情况下,适用于语音信号。 [澄清 ]
它也是紧密联系在一起,以自然语言处理 (NLP),作为它的输入/输出可以去NLP的应用。 如文本到语音合成可使用句法分析器 ,其输入文本和语音识别的输出可能是由如利用信息提取技术。
语音处理可分为以下类别:
语音识别 ,分析与处理语言的语音信号的内容。 说话人识别 ,其目的是识别身份扬声器。
语音编码 , 数据压缩的一种特殊形式,是在电信领域的重要。 用于医疗目的的语音分析,如分析声乐加载和功能障碍的声带。 语音合成 :人工合成的言论,这通常意味着计算机生成的讲话。
语音增强 :提高可懂像和/或语音信号的感知质量,音频降噪音频信号。
语音压缩语音识别说话人识别语音信号处理语音理解语音语音合成语音采集语音增强时域分析语音信号分析频域分析倒频域分析语音采集单元语音信号处理单元图2-1 语音数字处理系统的一般结构
一、填空题: (每空1 分,共60分) 1、语音(speech)300-3400kHz,采样率为( )过零率就是一个估计正弦波频率的适当方法。 11、如果过零率( 高 ),语音信号就是清音。宽带语音(wide-band speech),带宽7kHz(50-7k) ,采样率为( 14k )带宽 20kHz(20-20k),采样率一般为( 40k ) 2、语音由肺中的通过( 喉头至嘴唇 的器官 )的气流或声道中的气流激励( )而产生。当肺中的气流通过声门时,声门由于其间气体压力的变化而开闭,使得气流时而通过,时而被阻断,从而形成一串周期性脉冲送入声道,由此产生的语音是( 浊音 ) 。如果声带不振动,声门完全封闭,而声道在某处收缩,迫使气流高速通过这一收缩部位而发音,由此产生的语音是(清音 )。
3、语音信号从总体上是非平稳信号。但是,在短时段( 20~200 )ms中语音信号又可以认为是平稳的,或缓变的。
4、语音的四要素是音长,音强,音高和音质,它们可从时域波形上反映出来。其中音长特性:音长( 长 ),说话速度必然慢;音长(短 ),说话速度必然快。音强的大小是由于声源的( 振动幅度 )大小来决定。
5、声音的响度是一个和( 振幅 )有密切联系的物理量,但并不就是音强。
6、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即( 浊音 )、(清音 )和(爆破音 )。
7、当气流通过声门时声带的张力刚好使声带发生较低频率的张弛振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音如果声道中某处面积很小,气流高速冲过此处时而产生湍流,当气流速度与横截面积之比大于某个门限时(临界速度)便产生摩擦音,即( 清音 )。 8、如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是( 爆破音 )。 9、在大多数语音处理方案中,基本的假定为语音信号特性随时间的变化是( 缓慢 )的。这个假定导出各种( 短时 )处理方法,在这里语音信号被分隔为一些短段再加以处理。 10、一个频率为 F0的正弦形信号以Fs速率抽样,正弦波的一周内就有( Fs/F0 )个抽样。每一周内有两次过零,所以过零的长时间平均率是( 2 Fs/F0 )过零率/抽样。因此,平均
如果过零率( 低 ),语音信号就是浊音。语音流由( 音位)结合而成的最小单位,同时也是( 音节 )的最小单位,其英语对应词是phoneme,一个音节由(元音)和(辅音)构成,其英语对应词是 Vowel和 Consonant。
12、语音信号的最重要持征表现在它的“短时频谱”上。如果从语音流中利用加窗的方法取出其中的一个短段,再对其进行( 傅里叶 )变换,就可以得到该段语音的(短时 )谱。
13、人类听觉系统具有( 掩蔽效应 ),大致是一个单音的声级越( 高 ),对其周围频率声音的掩蔽作用越强。人耳对不同频段声音的敏感程度( 不同 )。人耳对语音信号的( 低频率和高频率)变化不敏感。
14、响度较( 大)的频率成分的存在会影响响度较(小 )的频率成分的感受,使其变得不容易察觉。
15、浊音的声带振动基频称为( 基音频率 )。 16、分析综合技术就是通过对信源分析,提取其中具有本质意义的参数,编码仅对这些参数进行。 接受端借助一定的规则和模型, 结合一定的算法将这些参数再综合成逼近 ( )。
17、高、低子带信号能量相互混叠的现象也称为( )。
18、声音的掩蔽效应,说明一个声音的存在会影响人耳对另一个声音的听觉能力。掩蔽效应与两个声音的( 频率和相对音量 ) 有关。 利用掩蔽效应可以用有用声音信号去掩蔽无用声音信号,即将不需要的声音在主观感觉上降低或消除。 19、语音可以用一个( 语音生成 )系统的输出来表示,该系统具有随时间( 变化 )的性质。这把我们引向语音分析的一项基本原理,该原理指出,如果我们研究语音信号的每一短段,则以准周期脉冲串或随机噪声信号激励一个( )系统所产生的输出信号作为每一段的模型是有效的。
20、语音分析的问题在于估计语音模型的参数并且测量它们随时间的变化。因为一个线性时不变系统的激励信号及其冲激响应是按( )方式结合起来的,语音分析问题可以看作是将( )的问题。这个问题通常称为
( )。
21、语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。对于非加性噪声,有些可以通过变换而转变为( )。 22、语音的发声过程可以模型化为激励源作用于一个线性时变滤波器,激励源可以分( )和( )两类,浊音由气流通过声带产生。时变滤波器则是( )的模型。通常认为声道模型是一个( )滤波器,滤波器参数可以通过线性预测分析得到,但若考虑到鼻腔的共鸣作用,采用( )模型更为合适。 23、CELP 体制用保存在激励码本中的码矢量或自适应产生的矢量作为激励,以语音( )作为声道模型,产生语音信号。
24、将( )引入编码器,和语音分析器结合,在编码端产生与解码端一样的合成语音,与原始语音在感知加权域内相比较,选择适当的语音编码参数值,使得比较的误差最小。 25、按发音方式,可分为( ) 、( )发音识别系统及( )三种识别系统。
26、按识别对象,可分为( )及( )识别系统;
27、按词汇表的大小,可分为小词汇表( 词) 、中等词汇表( — 词)、大词汇表( 词)以上和无限词汇表识别系统,理想的语音识别系统应该是非特定人无限词汇的连续语音识别系统。 二、问答题(每题 5分,共20 分)
1、语音信号处理主要研究哪几方面的内容? 2、语音识别的研究目标和计算机自动语音识别的任务是什么?
3、语音合成模型关键技术有哪些? 4、语音压缩技术有哪些国际标准?
三、列举工农业生产、人民生活中的 5 种语音信号处理应用技术或产品。简述其工作原理?(共 20 分)
一、填空题(每空2分,共15分) 二、名词解释(每题3分,共15分)
端点检测、共振峰、语谱图、码本设计、语音增强 三、简答题(每题6分,共30分) 1、简述如何利用听觉掩蔽效应。 2、简述时间窗长与频率分辨率的关系。 3、简述时域分析的技术(最少三项)及其在基因检测中的应用。
4、简述语音信号的频谱和功率谱的作用。 5、简述同态信号处理在共振峰估计中的作用。 四、论述题(每题8分,共40分)
1、常用的基音周期检测的方法有哪些?它们的基本原理是什么?
2、论述线性预测系数如何用于共振峰的估计。 3、论述标量量化与矢量量化的区别以及矢量量化在语音通信中的作用。 4、论述动态时间规整DTW的原理及其在语音识别
中的作用。
5、论述共振峰合成的原理及其在语音合成中的应用。
1、在语音生成的数字模型中, (浊音)的激励源是准周期脉冲串 2、基音周期
基音是指发浊音时,声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。
端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确定语音信号的开始及结束。
端点检测有两个过程:
1.基于语音信号的特征,用能量、过零率、商(entropy)、音高(pitch)等参数以及它们的衍生参数,来判断信号流中的语音/非语音信号。
2.在信号流中检测到语音信号后,判断此处是否是语句的开始或结束点。在商用语音系统中,由于信号多变的背景和自然对话模式而更容易使句中有停顿(非语音),特别是在爆发声母前总会有无声间隙。因此,这种开始/结束的判定尤为重要。 此外端点检测的目的还在于:
1.减少识别器的数据处理量:可以大量减少信号传输量及识别器的运算负载,对于语音对话的实时识别有重要作用。
2.拒绝非语音的信号:对非语音信号的识别不仅是一种资源浪费,而且有可能改变对话的状态,造成对用户的困扰。
3.在需要打断(barge-in)功能的系统中,语音的起始点是必须的。在端点检测找到语音的起始点时,系统将停止提示音的播放。完成打断功能。
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。 语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用,例如在翼卡车联网中,只需按一键通客服人员口述即可设置目的地直接导航,安全、便捷。
语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。
语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人
工智能等等。
语音合成技术主要有:共振峰合成、LPC合成、PSOLA拼接合成和LMA 声道模型技术。
因篇幅问题不能全部显示,请点此查看更多更全内容