说起「指纹」,大家都不会感到陌生。凭着每个人的指纹都不一样的特性,指纹识别技术获得了广泛的利用。
和指纹相比,「声纹」的概念略显陌生。严格来讲,虽然声音并不具备真正意义上的纹理,但每个人的发音器官包括声带、声管等在大小和形状上会有所差异,同时由于性别、年龄和地域的影响,使得我们每个人都有着不一样的声音。
广义上讲,所有可以区分每个人不同声音的特征,都可以称为「声纹」。由于这些特征的存在,声纹和指纹一样,衍生出各种实用的技术。
声纹技术中最为核心的一项便是声纹识别技术。和指纹识别、人脸识别一样,声纹识别也是生物特征识别技术的一种,该技术利用算法和神经网络模型,让机器能够从音频信号中识别出不同人说话的声音。除了声纹识别之外,声纹技术也被广泛用于声纹分割聚类, 以及构建更为强大的语音识别、语音合成以及人声分离系统。
近年来,谷歌在声纹技术上的研究颇多。最近,谷歌声纹识别与语言识别团队负责人王泉老师为国内读者度身打造了一本声纹技术宝典——《声纹技术:从核心算法到工程实践》。
这本书系统性地介绍了声纹识别、声纹分割聚类及声纹在语音识别、语音合成、人声分离等领域中的应用。书中内容全面且紧随时代前沿,不仅涵盖了早至20世纪60年代的经典方法,还以大量篇幅着重介绍了深度学习时代的最新技术。这本书注重理论与实践的结合,除了配备大量实践案例与习题,还有专门章节介绍声纹技术在实际工程部署方面的诸多课题。
为了帮助大家学习本书,我们邀请到本书作者、谷歌资深软件工程师、声纹识别与语言识别团队负责人王泉老师分别于10月19日与10月26日带来2期线上分享,带领大家一起读懂声纹技术。同时我们也将在2次直播中分别送出10本《声纹技术:从核心算法到工程实践》。
10月19日,第一期分享
音频基础与声纹识别
https://u.wechat.com/MJznHqiyMHRcPKzhMIwL1K0 (二维码自动识别)
分享主题:音频基础与声纹识别
分享嘉宾:王泉,美国谷歌公司资深软件工程师、声纹识别与语言识别团队负责人,《声纹技术:从核心算法到工程实践》一书作者。在谷歌任职期间,作者带领其团队将先进的声纹技术部署到了大量产品中,使得谷歌智能音箱成为市面上第一款支持多用户模式的同类产品。此外,作者在声纹识别、声纹分割聚类、人声分离、语音检测、语言识别以及语音合成等诸多领域拥有大量专利,发表过多篇重量级论文。机器之心此前有多篇报道所涉及的工作都来自其团队及合作者。
- 重建「巴别塔」:谷歌推出全新端到端语音翻译系统
- 只对你有感觉:谷歌用声纹识别实现定向人声分离
- 现实版柯南「蝴蝶结变声器」:谷歌发布从声纹识别到多重声线语音合成的迁移学习
- 批训练、注意力模型及其声纹分割应用,谷歌三篇论文揭示其声纹识别技术原理
分享概要:第一期分享着重介绍声纹识别技术以及相关的音频基础知识。我们首先回顾声纹技术的整个发展历程,从「声纹」一词第一次被发明,到最早的实用系统,再到已经普及我们每个人身边的相关产品。考虑到一些听众可能没有语音背景,我们会对听觉感知和音频处理方面的基本概念和方法做一些简单的介绍。我们重点介绍声纹领域最核心的应用——声纹识别,并详细阐述深度学习时代最前沿的声纹识别模型,包括各种推理逻辑和损失函数的设计思路,以及数据处理方面的相关话题。
直播时间:10月19日 20:00—21:00
直播环节:主题讲解+QA
直播赠书:我们将在直播过程中,从所有在直播间弹幕提问题的小伙伴中抽取10人,送出《声纹技术:从核心算法到工程实践》。本次直播中的赠书由博文视点提供。
加入机动组,一起看直播
「机动组」是机器之心发起的人工智能技术社区,将持续提供技术公开课、论文分享、热门主题解读等线上线下活动,并在社群中提供每日精选论文与教程、智能技术研究周报,同时「机动组」也将不定期组织人才服务、产业技术对接等活动,欢迎所有AI领域技术从业者加入。
添加机器之心小助手(syncedai5),备注「声纹」,加入本次直播群。
https://u.wechat.com/MAuk8y8mV-RJ60Ge0atmLnI (二维码自动识别)
ps:如果小助手无法添加,请将「微信ID」发送邮件到dujiahao@jiqizhixn.com,我们将与你联系,邀你入群。
特别鸣谢
博文视点( Broadview )是电子工业出版社下属旗舰级子公司。在IT出版领域打磨多年,以敏锐眼光、独特视角密切关注技术发展趋势及变化,致力于将技术大师之优秀思想、线专家之一流经验集结成书,为众多爱学习的小伙伴奉献精诚佳作,助力个人、团队成长。
来源:oschina
链接:https://my.oschina.net/u/4382386/blog/4680641