音频工具kaldi部署及模型制作调研学习
语音识别简介 语音识别(speech recognition)技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR)、计算机语音识别(英语:Computer Speech Recognition)或是语音转文本识别(英语:Speech To Text, STT),其目标是以计算机自动将人类的语音内容转换为相应的文字。 按照不同纬度如下分类: 按词汇量(vocabulary)大小分类: 小词汇量:几十个词; 中等词汇量:几百个到上千个词 大词汇量:几千到几万个 按说话的方式(style)分类: 孤立词(isolated words) 连续(continously) 按声学(Acoustic)环境分类: 录音室 不同程度的噪音环境 按说话人(Speaker)分类: 说话人相关(Speaker depender) 说话音素(Phoneme):单词的发音都是由音素构成,对于英语,常用的音素集是 CMU 的 39 个音素构成的音素集。而对于汉语,一般直接用全部声母和韵母作为音素集,另外汉语识别还要考虑音调。 The CMU Pronouncing Dictionary. 声学模型 :是将声学和发音学(phonetics)的知识进行整合,以特征提取部分生成的特征作为输入,并为可变长特征序列生成声学模型分数。 语言模型 :通过从训练语料