语音识别之初体验

一、概述

作为最自然的人机交互方式－－语音，正在改变人们的生活，丰富多媒体技术的应用。语音识别技术是语音信号处理的一个重要分支，也是近年来非常火的一个研究领域。

随着科技的飞速发展，语音识别不仅在桌面PC和大型工作站得到了广泛应用，并且在嵌入式系统领域也占有一席之地。如智能家居、苹果的Siri、车载语音识别系统等。相信在不久的将来，语音识别技术必然会渗透在人们生活的每一个角落。

二、语音识别系统的分类

语音识别依照说话人的说话方式能够分为孤立词（IsolatedWord）识别、连接词（Connected Word）识别和连续语音（Continuous Speech）识别。孤立词识别是指说话人每次仅仅说一个词或短语。每一个词或短语在词汇表中都算作一个词条，一般用在语音电话拨号系统中；连接词语音识别支持一个小的语法网络，其内部形成一个状态机。能够实现简单的家用电器的控制，而复杂的连接词语音识别系统能够用于电话语音查询、航空订票等系统；连续语音识别是指对说话人以日常自然的方式发音，通常特指用于语音录入的听写机。

从识别对象的类型来看。语音识别能够分为特定人（SpeakerDependent）语音识别和非特定人（Speaker Independent）语音识别。

特定人是指仅仅针对一个用户的语音识别，非特定人则可用于不同的用户。

从识别的词汇量大小能够分为小词汇量（词数少于100）、中等词汇量（词数100~500）和大词汇量（词数多于500）。

非特定人大词汇量连续语音识别是近几年研究的重点，也是研究的难点。眼下的连续语音识别大多是基于HMM（隐马尔科夫模型）框架，并将声学、语言学的知识统一引入来改善这个框架。其硬件平台一般是功能强大的工作站或PC机。

三、语音识别的原理

语音识别就是对麦克风输入的语音信号进行解析和理解，并将其转化为对应的文本或命令。

一个完整的语音识别系统主要包含三个部分：

(1)语音特征提取（前端处理部分）：目的是滤除各种干扰成分。从语音波形中提取出随时间变化的能表现语音内容的特征矢量序列。

(2) 声学模型和模式匹配（识别算法）：声学模型通常由获得的语音特征通过训练产生。目的是为每一个发音建立发音模板。

在识别时将输入的语音特征同声学模型进行匹配与比較。得到最佳识别结果。

(3) 语义理解（后处理）：计算机对识别结果进行语义、语法分析，明确语音的意义以便做出对应的反应，通常通过语言模型来实现。

语音识别原理例如以下图所看到的：

待识别语音经话筒转化为电信号后加在识别系统的输入端。经过预处理。接着进行语音特征提取。用反映语音信号特征的若干參数来代表原始语音。经常使用的语音特征包含：线性预測系数（LPC）、线性预測倒谱系数（LPCC）、Mel频谱系数（MFCC）等。接下来分为两个阶段：：训练阶段和识别阶段。

在训练阶段。对用特征參数形式表示的语音信号进行相应处理，获得表示识别基本单元共性特点的标准数据，以此构成參考模板，将全部能识别的基本单元的參考模板结合在一起。形成參考模式库。在识别阶段，将待识别的语音信号经特征提取后逐一与參考模式库中的各个模板按某种原则进行匹配。找出最相似的參考模板所相应的发音，即为识别结果。最后进行语音处理，涉及语法分析、语音理解、语义网络等。

语音识别过程要依据模式匹配原则，计算未知语音模式与语音模板库中的每个模板的距离測度，从而得到最佳的匹配模式。语音识别所应用的模式匹配方法主要有动态时间规整（Dynamic Time Warping。DTW），隐马尔科夫模型（Hidden Markov Model，HMM）和人工神经元网络（Artificial Neural Networks。ANN）。

四、难题

识别率是衡量语音识别系统性能好坏的一个重要指标，在实际应用中。识别率主要受到下面几个因素的影响：

1、对于汉语语音识别，方言或口音会减少识别率；

2、背景噪声。

公共场所的强噪声对识别效果影响甚大，即使是在实验室环境下。敲击键盘、移动麦克风都会成为背景噪声；

3、 “口语”问题。

它既涉及到自然语言理解，又与声学有关。语音识别技术的终于目的是要让用户在“人机对话”时。可以像进行“人与人对话”一样自然，而一旦用户以跟人交谈的方式进行语音输入时，口语的语法不规范和语序不正常的特点会给语义的分析和理解带来困难。

此外，识别率还与说话人的性别、说话时间长短等有关。

实时性是衡量语音识别系统性能好坏的还有一指标。

对于具有快速运算能力的CPU和大容量存储器的PC而言，基本上可以满足实时性的要

求；而对于资源有限的嵌入式系统来说。实时性差点儿得不到保证。

參考资料：《matlab扩展编程》

2014年6月26日星期四15时28分

来源：https://www.cnblogs.com/llguanli/p/7044554.html

标签

语音识别

自然语言处理

人工智能

模式识别