语音识别的基元的主要任务是在不考虑说话人试图传达的信息内容的情况下,将声学信号表示为若干个具有区别性的离散符号。可以充当语音识别基元的单位可以是词句、音节、音素或更小的单位,具体选择什么样的基元,经常受识别任务的具体要求和设计者的知识背景影响。一般来说,词句基元广泛应用于中小词汇量语音识别系统,但不适合大词汇量系统,原因在于词句做基元时,大词汇量系统的模型库太庞大,要求庞大的训练数据,识别匹配计算复杂度高,难以满足实时性要求。音节基元在其它语种,例如英语中也有应用,但多见于汉语语音识别,主要因为汉语是单音节结构的语言,音节数目比较有限,大约1300个带调音节,但若不考虑声调,约有408个无调音节。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。音素基元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。 关于基元颗粒度的确定,主要需要权衡基元的数目和基元声学特性的稳定性。基元的颗粒度大,基元声学稳定性高,但需要的数据量大,匹配的计算复杂度也大。相反,颗粒度小,计算复杂度和训练数据量要求相对较小,但基元声学稳定性受协同发音的影响很大,不利于提高识别性能。选取颗粒度合适的基元,也是有待深入研究的课题。
|