fairseq

10分钟标注数据胜过一年前的960h,FAIR新研究实现语音识别大进展(模型已开源)

此生再无相见时 提交于 2020-11-07 12:38:59
近日,来自 FAIR 的研究者提出结合自训练和无监督预训练执行语音识别任务,证明这两种方法存在互补性,并取得了不错的结果。 选自arXiv,作者:Qiantong Xu等,机器之心编译,编辑:魔王。 自训练和无监督预训练成为使用无标注数据改进语音识别系统的有效方法。但是,我们尚不清楚它们能否学习类似的模式,或者它们能够实现有效结合。 最近,Facebook 人工智能研究院(FAIR)一项研究展示了,伪标注和使用 wav2vec 2.0 进行预训练在多种标注数据设置中具备互补性。 只需来自 Libri-light 数据集的 10 分钟标注数据和来自 LibriVox 数据集的 5.3 万小时无标注数据,该方法就能在 Librispeech clean 和 other 测试集上取得 3.0%/5.2% 的 WER(词错率),甚至打败了仅仅一年前基于 960 个小时标注数据训练的最优系统。在 Librispeech 所有标注数据上训练后,该方法可以达到 1.5%/3.1% 的词错率。 论文链接: https:// arxiv.org/pdf/2010.1143 0.pdf 论文简介 近期,基于标注语音数据的语音识别模型取得了显著进展。但这些模型存在一个缺陷:它们需要大量标注数据,而这些数据仅针对英文和少数几种语言。因此,纯监督式的训练对于全球 7000 种语言中的绝大多数是不可行的

浅谈深度学习混合精度训练

∥☆過路亽.° 提交于 2020-11-05 16:13:21
↑ 点击 蓝字 关注视学算法 作者丨Dreaming.O@知乎 来源丨https://zhuanlan.zhihu.com/p/103685761 编辑丨极市平台 本文主要记录下在学习和实际试用混合精度过程中的一些心得总结和建议。 01. 前言 以前一直看到不少混合精度加速模型训练的工作,受限于手上没有 Volta 架构的GPU。体验工作也就只能作罢。但是最近成功申请下来V100机器,除了激动之外,当时心里最大的想法,就是要尝试下这心心念念已久的混合精度加速功能。 02. 基础理论 在日常中深度学习的系统,一般使用的是单精度 float(Single-Precision)浮点表示。在了解混合精度训练之前,我们需要先对其中的主角半精度『float16』进行一定的理论知识学习。 float vs float16 的组成bitmap 在上图可以看到,与单精度float(32bit,4个字节)相比,半进度float16仅有16bit,2个字节组成。天然的存储空间是float的一半。其中,float16的组成分为了三个部分: 最高位表示符号位; 有5位表示exponent位; 有10位表示fraction位; 根据wikipedia上的介绍,我总结下float16的这几个位置的使用,以及如何从其bitmap计算出表示的数字: 如果 Exponent 位全部为0: 如果 fraction 位