kaldi语音识别

基于深度神经网络的语音识别方法

折月煮酒 提交于 2020-02-29 09:48:17
Kaldi 语音工具箱的简介 Kaldi 语音工具箱[61]是由微软研究院Povey 等人研究的应用于语音识别方面的开源工具箱。该工具箱是用 C++编写而成的,而且具有灵活性、扩展性。 该工具箱的函数库是 HTK 工具箱函数库的增强版,为了使用的方便,将 HTK 零碎的的指令与功能函数模块进行统一的整合,最大的优点就是引入了深度神经网络模块。 Kaldi 工具箱的语音识别系统框架如图 图 中,Kaldi 系统的外部库依赖于 Open FST 和数值代数库。这两个函数库可通过 Decodable 进行链接。 利用 C++编写指令行直接调用工具箱中的库函数,然后利用多个的 perl 语言脚本搭建成了语音识别系统。各个特定的指令行能完成相应的任务,而且只要设定少量的参数。除此之外,所有的工具模块都可以从管道接口处自由的读写,从而使得各个工具模块之间的调用更加方便。 基于 Kaldi 具体实现 DNN 训练过程 尽管深度神经网络比浅层网络有较强的建模能力,但是训练深度网络是非常困难的。因为很难判断给定的输入数据矢量后,隐含变量服从的后验概率分布。简单的 BP算法由于出现局部最小值而不能处理。最近提出使用 RBM 进行预训练和使用对比散度算法进行区分性的微调。 DBN 可以看作复杂的非线性特征提取器。每一层的隐藏单元代表特性。特征提取器能够获得与在原始的输入数据更高阶相关性的数据。利用

Kaldi语音识别快速入门

為{幸葍}努か 提交于 2019-12-12 02:57:20
一.简介   Kaldi是使用C++编写的语音识别工具包,Apache License v2.0许可。主要供语音识别研究人员使用。Kaldi的目标和范围与HTK类似。目标是拥有易于修改和扩展的现代而灵活的代码。主要功能包括:   1.与有限状态传感器FST的代码进行集成,根据OpenFst工具箱【作为库】进行编译。   2.广泛的线性代数支持,包括一个包装标准BLAS和LAPACK例程的矩阵库。   3.可扩展的设计,以方便使用为目的提供算法。 二.安装Kaidi   1.下载     在Linux你要安装的目录下执行:git clone https://github.com/kaldi-asr/kaldi.git kaldi --origin upstream   2.更新     当需要更新时,可以执行:git pull   3.安装环境     理想的计算环境是运行在SGE【Sun GridEngine】的Linux机器的集群上,可以通过NFS或某些类似的网络文件系统访问共享目录。在理想情况下,网格上的某些计算机将具有NVidia GPU,这样可以将它们用于神经网络的训练,并且可以通过向qsub添加一些额外的选型将它们保留在队列中。在实际情况或用于学习时,可能单机是比较普遍的,在单机情况下,Kaldi是可以运行的,尽管这样做会执行的慢一点