语音识别系统结构
转载: 语音识别系统结构——鸟瞰 语音识别概述 语音识别是指将语音信号转换为文字的过程。现在通行的语音识别系统框架如图: 信号处理模块将根据人耳的听觉感知特点,抽取语音中最重要的特征,将语音信号转换为特征矢量序列。现行语音识别系统中常用的声学特征有线性预测编码(Linear Predictive Coding,LPC),梅尔频率倒谱系数(Mel-frequency Cepstrum Coefficients,MFCC),梅尔标度滤波器组(Mel-scale Filter Bank,FBank)等。 解码器(Decoder)根据声学模型和语言模型,将输入的语音特征矢量序列转化为字符序列。 声学模型是对声学、语音学、环境的变量,以及说话人性别、口音的差异等的知识表示。语言模型则是对一组字序列构成的知识表示。 模型的训练 现代的语音识别系统中声学模型和语言模型主要利用大量语料进行统计分析,进而建模得到。 声学模型 语音识别中的声学模型充分利用了声学、语音学、环境特性以及说话人性别口音等信息,对语音进行建模。目前的语音识别系统往往采用隐含马尔科夫模型(Hidden Markov Model,HMM)建模,表示某一语音特征矢量序列对某一状态序列的后验概率。隐含马尔科夫模型是一种概率图模型,可以用来表示序列之间的相关关系,常常被用来对时序数据建模。 隐含马尔科夫模型是一种带权有向图