摘要:本文介绍了基于WFST的语音识别的一般形式和算法框架。这些转换器为语音识别系统的主要部件提供了通用自然的表示形式,包括HMM模型,上下文相关模型,发音词典,统计语法,以及word或者phone的点阵。介绍了用于构建和优化转换器模型的通用算法,包括组合模型的组成,加权确定,最小化以用于优化时间和空间的要求,以及为语音识别最佳的重新分配过度权重的权重推演算法。详细说明了这些方法在大词汇量任务中的应用,并给出实验结果,特别是针对NAB任务,这些方法被用来组合HMM,完整的跨三字因素,一个四万个单词的词典,和一个较大的trigram grammar到一个加权转换器中,该加权转换器仅比 trigram word grammar 稍大一些,并且可以在非常的简单的解码器上实时运行NAB。另一个实例表明,可以使用相同的方法来优化矩阵以进行第二遍识别。
1.介绍:当前的大词汇量语音识别大部分基于诸如隐马尔可夫模型(HMM),词典或n-gram统计语言模型之类的模型,这些模型可以由加权有限状态转换器表示。即使使用了更丰富的模型,例如口语对话应用中的上下文无关文法,出于效率原因,它们通常还是通过设计或近似方法被限制为规则子集[Pereira and Wright,1997,Nederhof,2000,Mohri和Nederhof,2001年]。WFST是一个有限自动机,其状态转换同时用输入和输出符号标记。因此,通过转换器的路径对从输入符号序列或字符串到输出字符串的映射进行编码。加权转换器除了输入和输出符号外,还在转换上加权重。权重可以编码沿路径累积的概率,持续时间,惩罚或任何其他数量,以计算将输入字符串映射到输出字符串的总权重。因此,加权换能器是代表语音处理中普遍存在的概率有限状态模型的自然选择。我们提供了在语音识别中使用WFST的详细视图[Mohri等,2000; Pereira和Riley,1997; Mohri,1997; Mohri等,1996; Mohri和Riley,1998; Mohri等等人,1998年,Mohri和Riley,1999年]。我们表明,在语音处理中组合和优化概率模型的常用方法可以通过转换为加权转换器上数学定义明确的操作而得到概括和有效地实现。此外,新的优化机会是,通过将语音识别模型的所有符号级别视为加权转换器。因此,WFST定义了具有共享算法的通用框架,用于语音识别中模型的表示和使用,具有重要的算法和软件工程优势。我们从第2节中的概述开始,它非正式地介绍了WFST和算法,并通过展示如何将它们应用于语音识别来激发这些方法。对于仅对这些方法进行简要介绍的人员来说,本节可能就足够了。在随后的两节中,我们将提供更详细和精确的说明。第三部分给出了加权有限状态传感器概念的正式定义和相应的算法描述。第4节详细介绍了如何将这些方法应用于大词汇量语音识别并显示了性能结果。这些部分适合那些希望更全面地了解算法或希望复制结果的人。
未完待续。
来源:CSDN
作者:JamesWH
链接:https://blog.csdn.net/jialilian5181/article/details/102630147