首页>>语音识别技术


面向具体任务的语音识别


作者:admin   发表时间:2006-9-4 14:49:58   点击次数:


 

前面我们主要介绍机器语音识别技术基础的原理,但是我们有意识地回避了实现语音识别技术的两个关键问题:(1)如何架构一个完成具体任务的语音识别系统;(2)语音识别系统的实时硬件处理。在这一节,我们主要从如何将语音识别技术和某特定任务结合起来,希望架构一个能够完成这个任务的语音识别系统的角度来展开,以便更好地理解语音识别技术。语音识别系统的实时硬件处理将在下一节中,结合一些具体案例来介绍。


 
图5-1所示是“面向任务的语音交互控制系统”。整个系统包括:一个语音识别器、一个语言分析器、一个专家系统、一个由语音控制的物理系统,还有一个从文本到语音的语音合成装置。在识别词汇表和语法模型共同的作用下,语音识别装置把人说出的话转换为语法上正确的文本。理论上,我们希望输入到识别装置的语音完全没有限制,也就是说希望输入的是自然语言。然而,实际上,我们不得不把输入的语音作某些限制,这样语音识别装置才能利用我们介绍的技术把语音正确地识别出来。识别装置的输出是文字串,它们是基于语音识别系统的词汇表和语法模型生成的,同时还要保证输出的文字串跟说出的语音有最大的相似性。一般来说,语音识别系统的词汇表和语法模型的变化范围是很大的。一些简单系统的词汇量可能很小(如“是”,“不是”,“摘机”,“拨号”,“挂机”),并且没有什么明显的语法内容。然而,复杂的系统却要需要成千上万的单词,还需要有一定的语法约束。识别装置的输出的文字串继续送给语言分析器。根据执行此任务的一些语义规则,语言分析器从文字串中提取信息。在此过程中,依照统计方法,语言分析器可作为执行语法约束的监督员;或者作为由某种规则控制的系统。系统下一步就是把语言分析器已分析出的输入语音信号意思传输给专家系统。专家系统首先选择相应于语音的某种操作,然后发指令给物理系统,以执行此操作。这个物理系统是受语音控制的。接着,专家系统获得有关命令状态(如,“已经成功地执行了指令”或者“因为······,系统无法执行”)的数据,并构建与所取得的数据相一致的回答内容,进一步通过文本到语音的语音合成器,把系统的回答内容转换成语音信号反馈给用户。


图5-1所示的语音交互控制系统是建立在语音输入和语音输出基础之上的,从中可以很清楚地找到语音识别模块。这一节里,我们介绍几个与此类似的系统,它们有着广泛的应用。在学习这些系统的细节以前,我们先介绍几种评价语音识别应用系统性能的标准。