基于深度神经网络的语音识别方法

折月煮酒 提交于 2020-02-29 09:48:17

Kaldi 语音工具箱的简介

Kaldi 语音工具箱[61]是由微软研究院Povey 等人研究的应用于语音识别方面的开源工具箱。该工具箱是用 C++编写而成的,而且具有灵活性、扩展性。 

该工具箱的函数库是 HTK 工具箱函数库的增强版,为了使用的方便,将 HTK 零碎的的指令与功能函数模块进行统一的整合,最大的优点就是引入了深度神经网络模块。

Kaldi 工具箱的语音识别系统框架如图

图  中,Kaldi 系统的外部库依赖于 Open FST 和数值代数库。这两个函数库可通过 Decodable 
进行链接。

利用 C++编写指令行直接调用工具箱中的库函数,然后利用多个的 perl 语言脚本搭建成了语音识别系统。各个特定的指令行能完成相应的任务,而且只要设定少量的参数。除此之外,所有的工具模块都可以从管道接口处自由的读写,从而使得各个工具模块之间的调用更加方便。

基于 Kaldi 具体实现 DNN 训练过程

尽管深度神经网络比浅层网络有较强的建模能力,但是训练深度网络是非常困难的。因为很难判断给定的输入数据矢量后,隐含变量服从的后验概率分布。简单的 BP算法由于出现局部最小值而不能处理。最近提出使用 RBM 进行预训练和使用对比散度算法进行区分性的微调。
DBN 可以看作复杂的非线性特征提取器。每一层的隐藏单元代表特性。特征提取器能够获得与在原始的输入数据更高阶相关性的数据。利用 Kaldi工具箱具体实现 DNN 训练过程如图所示。 

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!