kaldi

ASLP Kaldi

别说谁变了你拦得住时间么 提交于 2020-11-08 10:19:36
ASLP(Audio, Speech and Language Processing Group ,音频、语音和语言处理组 ) 位于西北工业大学,隶属于陕西省语音和图像信息处理重点实验室(SAIIP)。 ASLP小组成立于1995年。ASLP小组的使命是促进音频,语音和语言处理学科内的广泛学科的跨学科研究和教育。目前,ASLP集团的研究范围包括人机语音通信,语音和音频信号处理,视听处理,多媒体内容分析和检索。 在2011年,该组由三位正教授,一位副教授,四位兼职教授和三十多位博士和硕士生组成...... ASLP 官网: http://www.npu-aslp.org ASLP Kaldi Github : https://github.com/robin1001/kaldi-aslp/blob/master/README.md ASLP Kaldi 是对 Kaldi 的增强,增强的功能有: nnet 增强 Batch 正则化 标准 LSTM 、 BLSTM without projection 延迟( Latency )控制 BLSTM Warp CTC 以及 Eesen 版本的 CTC Skip training & decode 图网络(如多输入、多输出、 add 与拼接) 行卷积 GRU FSMN 语音端点检测( VAD ) 在线识别 并行化增强 BSP ( Bulk

本年最大一场人工智能开发者盛会,邀请100位VIP现场观众

青春壹個敷衍的年華 提交于 2020-10-25 07:05:09
     顶尖专家、知识盛宴、现场交流……如果你现场参与了2019 WAIC·开发者日,相信你知道这不仅仅是吸引人眼球的宣传标语,而是每年开发者日的标配。   7月11日,2020 WAIC·开发者日如期而至,这国内质量最高、最大规模的人工智能技术论坛,现邀请100位观众来现场参会。    图灵奖得主、院士与技术专家齐聚   主论坛嘉宾阵容十分强大,其中包括两位图灵奖得主:David Patterson 与 Joseph Sifakis。            此外,大会主论坛也邀请到了多位世界级专家,如中国科学家院士梅宏,明略科技首席科学家吴信东,悉尼大学教授陶大程,中国建设银行总行金融科技部总工程师胡宪忠,百度集团副总裁吴甜,Kaldi之父、小米集团语音首席科学家Daniel Povey,多伦多大学助理教授David Duvenaud,Julia语言创始人之一Viral Shah。   更多精彩日程如下:       有机会现场参会?只限100人   2020 WAIC·开发者日主论坛将于 7月11日线上举办 ,但是,人工智能开发是门手艺活,有些技艺仍需面基促膝长谈,比如改行送外卖后如何规划路线高效接单。所以,针对这些需求,机器之心特意在上海会场组织了一场小型闭门活动,邀请100位观众来到现场,一起听分享、聊人生。 时间 7月11日13:00—18:15,坐标上海世博中心

3---kaldi 自己录音,做自己版本的yesNo

*爱你&永不变心* 提交于 2020-10-06 00:46:55
学习经历 0---原始文档备份和环境准备 1---原始脚本注释解析 2---原始脚本训练和测试拆分 3---自己录音,做自己版本的yesNo ========================================================= 3---自己录音,做自己版本的yesNo 这个过程较为曲折,经过时间较长,主要经历了win10录音和词典设计,查找m4a转wav方法和脚本设计,识别测试失败乱投医(再次注释理解后面脚本),查看log文件并找到采样率改变方法,再次运行wer过高,检查脚本发现错误,wer等于0等过程。这里只对最终正确的过程做总结。下面将只讲述整理过的正确内容 (1)录制音频。 我的电脑是win10系统,分别在用耳机和没有耳机的情况下进行了录制,发现区别不大,最终的音频没有用耳机录制,另外,录制是去掉了麦克风增强(应该影响不大),加入了噪声抑制。录制时文件名形如YYNNYYNN.m4a。没有像例程一样采用下划线主要时考虑文件名命名不方便。录制之后拷贝到虚拟机内。 (2)转换成和例程一致wav格式 百度下,决定使用ffmpeg进行格式转换工作。所以首先安装ffmpeg,安装完毕后查看例程声音文件格式。具体如下: ffmpeg -i 0_0_0_0_1_1_1_1.wav 显示信息如下: Guessed Channel Layout for Input

kaldi apiai_decode分析研究1:链式模型下载与运行测试

故事扮演 提交于 2020-10-01 22:56:39
本系列预计包括3篇文章,分别如下: 1、链式模型下载与运行测试 2、脚本主要涉及工具参数分析 3、在线识别系统搭建 ================================================= 1、链式模型下载与运行测试 研究完yesno例程后,感觉应该再看一些例程后再开始系统的学习kaldi结构和源代码更为靠谱,所以仔细分析了一下kaldi的例程目录,发现本例程较为简单,且有现成的模型可以下载,故开始了apiai_decode的学习。下面是具体的学习过程。 打开readme.md文件,发现首先应运行download-model.sh文件,下载链式模型文件,并完成解压工作。 然后回到win10系统,按照readme.md文件里面的提示录制了如下两句音频 (1)wake me up at 7 am (2)wake me up at 4 pm 从readme.md文件可以看出,要求音频应为16kHz, 16 bit little-endian 格式,故用ffmpeg完成格式转换工作。 #!/bin/bash for FILE in *.m4a; do ffmpeg -i "$FILE" -ar 16000 "wav/${FILE%.*}.wav"; done 按照提示,执行语音识别 ./recognize-wav.sh 1.wav 系统输出如下: lattice

三个小白是如何在三个月内搭一个基于kaldi的嵌入式在线语音识别系统的

五迷三道 提交于 2020-08-16 08:23:52
前面的博客里说过最近几个月我从传统语音(语音通信)切到了智能语音(语音识别)。刚开始是学语音识别领域的基础知识,学了后把自己学到的写了PPT给组内同学做了presentation( 语音识别传统方法(GMM+HMM+NGRAM)概述 )。一段时间后老板就布置了具体任务:在我们公司自己的ARM芯片上基于kaldi搭建一个在线语音识别系统,三个人花三个月左右的时间完成。由于我们都是语音识别领域的小白,要求可以低些,就用传统的GMM-HMM来实现。说实话接到这个任务我们心里是有点没底的,不知道能不能按时完成,毕竟我们对语音识别不熟,对kaldi不熟。既然任务下达了,硬着头皮也要上,并尽最大努力完成。我本能的先在网上用百度/google搜了搜,看有没有一些经验可供参考,好让我们少走弯路。遗憾的是没搜到有价值的东西。没办法,我们只能根据自己以前的经验摸索着前进。最终我们按计划花了不到三个月的时间完成了嵌入式平台上在线语音识别系统的搭建。虽然只是demo,但是为后面真正做商用的产品打下了良好的基础,累积了不少的经验。今天我就把我们怎么做的分享出来,给也想做类似产品的朋友做个参考。 既然作为一个项目来做,就要有计划,分几个阶段完成这个项目。我在学习语音识别基础知识时对kaldi有一个简单的了解(在做语音识别前就已知kaldi的大名,没办法这几年人工智能(AI)太热了

赠书 | 全球稀缺的Kaldi学习资料,《Kaldi语音识别实战》给补上了

你说的曾经没有我的故事 提交于 2020-08-13 20:59:04
刚刚过去的十年是语音技术发展的黄金十年。Kaldi的出现,被业内公认为极大地降低了语音识别技术学习与使用的门槛,成为广受欢迎的工具。 Kaldi 项目发布不久,就吸引了国内外的大量用户,形成了一个活跃的开源社区。在社区中,有国际顶尖的语音科学家、探索新边界的博士研究生,也有初探语音识别的初学者、其他技术领域想使用语音技术的工程师,当然还有经历了HTK时代的老用户们。 尽管 Kaldi 工具箱的出现在很大程度上降低了语音识别技术的研究门槛,但与其他AI技术相比,它的语音识别技术本身链路复杂、模块多样、领域知识点众多;此外,目前 Kaldi 社区的活跃开发者们更关注推进核心技术,因此在文档建设方面,还停留在项目早期的设计理念及核心概念阶段,文档稀缺;再加上市场上少有 Kaldi 相关的教程和书籍,尤其是中文书籍,更使得国内用户在入门语音识别技术及上手 Kaldi 工具箱时,面临比较陡峭的学习曲线。 因此《Kaldi语音识别实战》一书应运而生。本书由Kaldi的知名贡献者和社区技术骨干撰写,结合实际场景,系统全面地阐述了Kaldi的基础理论和应用知识,非常适合入门,是珍贵的学习资料。 陈果果、都家宇、那兴宇、张俊博 著 本书特色: 1 以Kaldi脚本实例为线索,结合大量示例,降低学习门槛 2 详述各类实践技巧,举一反三 3 实际场景问题分析与解决方案 4兼述语音技术其他关键应用

WAIC·开发者年度盛会上线:AI开发者做主角,最纯粹最顶尖技术大会

天大地大妈咪最大 提交于 2020-08-12 14:08:41
     世界人工智能大会 2020 线上活动以「智联世界 共同家园」为主题,致力于打造世界顶尖人工智能合作交流平台,推动和主导人工智能产业和技术创新融合发展,大会将于 7 月 9 日-11 日在线上举办。    世界人工智能大会开发者日(以下简称为 WAIC·开发者日)作为大会主题论坛及特色活动,由世界人工智能大会组委会主办,机器之心和上海交通大学人工智能研究院共同承办,是 WAIC 期间唯一面向 AI 开发者的专业活动,旨在打造人工智能领域年度最高规格、最专业、最具影响力的开发者盛会 ,为企业展示 AI 技术品牌实力、传播自身技术与平台、构建人工智能开发者生态提供最佳展示平台。本届开发者日包含系列活动 10 余场,邀请重磅嘉宾 100 余位,将有近 200 家媒体进行宣传推广,并覆盖数万名技术从业者受众。    WAIC·开发者日模块:狂欢不停歇   WAIC·开发者日将在 7 月 9 日-11 日举办 1 场主论坛、多场分论坛、及高峰对话、黑客松等活动,呈现人工智能技术分享盛宴。期间也将进行上海白玉兰开源开放研究院揭牌,发布《人工智能开源开放报告》、WAIC 人工智能青年技术人才奖。    WAIC·开发者日特色    影响面覆盖广 :预计全网传播覆盖将超过千万人次。前期将联合百余家媒体进行多维度报道宣传,7 月 9 日-11 日除了通过 WAIC 官方平台直播

《评人工智能如何走向新阶段》后记(再续23)

独自空忆成欢 提交于 2020-04-14 19:26:17
【推荐阅读】微服务还能火多久?>>> 364.DanielPovey领衔开发第二版语音识别开源工具Kaldi Kaldi集成了多种语音识别模型,包括隐马尔可夫和深度学习神经网络,被认为是世界语音识别框架的基石。 DanielPovey是著名的语音识别开源工具Kaldi的主要开发者和维护者,被称为Kaldi之父。 Daniel毕业于剑桥大学获语音识别博士学位。后来在IBM研究院、微软研究院负责计算机语音识别工作,2012年Daniel加入约翰霍普金斯大学担任语言和语音处理中心系主任,2019年12月初正式加入小米,成为小米首席语音科学家,负责下一代Kaldi开发工作,并将其融入小米的产品和服务的应用中。 语音识别技术发展至今已在工业、医疗、教育、金融等各行业落地,识别准确率达到95~97%。 如此看来语音识别系统准确率已经很高了,但实际上这种高精准度仅仅针对某些特定的语音类型,现阶段要让机器来识别人们日常交流还是比较困难的,尤其是当周围环境掺杂着噪声、音乐,且多人同时发声时。 Daniel加入小米后,领衔开发基于PyTorch的下一代Kaldi丰版本,并服务于小米的手机+AIoT双引擎战略,将第二版Kaldi融入到小米的产品和服务的应用中。 目前基于语音识别的人机交互系统开始大规模应用,语音识别领域的技术突破和应用落地指日可待! 365.神经拟态芯片模仿人脑运作机制

基于Kaldi+GStreamer搭建线上的实时语音识别器

帅比萌擦擦* 提交于 2020-02-18 12:31:56
一、安装python2.7和Tornado 4,ws4py, YAML,JSON等依赖包 1、sudo pip2 install tornado==4.3(4.0版本不行) 2、sudo pip2 install ws4py==0.3.2 3、sudo pip2 install pyyaml 4、sudo pip2 install https://pypi.python.org/packages/40/ad/52c1f3a562df3b210e8f165e1aa243a178c454ead65476a39fa3ce1847b6/simplejson-3.10.0.tar.gz#md5=426a9631d22851a7a970b1a677368b15 二、下载编译kaldi,下载kaldi streamer 插件 1、安装编译kaldi 在kaldi src目录下: ./configure --shared make depend make 2、安装gstreamer: sudo apt-get install gstreamer1.0-plugins-bad gstreamer1.0-plugins-base gstreamer1.0-plugins-good gstreamer1.0-pulseaudio gstreamer1.0-plugins-ugly gstreamer1

Kaldi语音识别CVTE模型实战

只谈情不闲聊 提交于 2020-01-15 11:15:51
一.下载训练好的模型   下载路径: http://kaldi-asr.org/models/m2    二.上传&配置   1.上传到kaldi/egs/目录下      2.解压,tar -zxvf 0002_cvte_chain_model_v2.tar.gz      备注:因HCLG.fst模型解压后文件较大,在解压过程中会出现停顿,等待片刻即可!      3.将egs/wsj/s5中的steps和utils拷贝到egs/cvte/s5目录下         4.将egs/hkust/s5/local/score.sh拷贝到egs/cvte/s5/local/目录下         5.注释掉kaldi/egs/cvte/s5/utils/lang/check_phones_compatible.sh中if语句中的exit 1    三.CVTE文件结构    四.运行示例脚本   1.运行      2.执行结果 bash: line 1: 5327 Killed ( nnet3-latgen-faster --frame-subsampling-factor=3 --frames-per-chunk=50 --extra-left-context=0 --extra-right-context=0 --extra-left-context-initial=-1 -