语音识别技术简介
/*--> */ /*--> */ 1 自动语音识别简介 语音识别技术,也可以称为自动语音识别( Automatic Speech Recognition , ASR ),其任务是把人所发出的语音中词汇内容转换为计算机可读入的文本。语音识别技术是一种综合性的技术,它涉及到多个学科领域,如发声机理和听觉机理、信号处理、概率论和信息论、模式识别以及人工智能等等。 目前,主流的大词汇量语音识别系统中通常采用基于统计模型的识别技术,典型的基于统计模型的语音识别系统通常有如下几个基本组成模块 : 信号处理及特征提取模块。该模块的主要任务是从输入的语音信号中提取特征,用于声学模型的建模以及解码过程。但在提取特征之前也需要负责对语音信号进行降噪等处理,以提高系统的鲁棒性。 统计声学模型。通常的语音识别系统大都使用隐马尔科夫模型对词,音节、音素等基本的声学单元进行建模,生成声学模型。 语言模型。语言模型对系统所需识别的语言在单词层面上进行建模。语言模型包括正则语言,上下文无关文法的各种语言模型,但是语言的语法通常很复杂,语法文件中的语法规则会很多,并且需要繁重的人工劳动来完成语法规则的编写,所以但目前大多数语音识别系统普遍采用统计语言模型,其中大都是基于统计的 N 元语法( N-gram )模型及其变体。 发音词典。发音词典包含系统所能处理的单词的集合,并标明了其发音