本文作者:HelloDeveloper
嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。
人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。本次承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第四期“语音技术”专场已于2019年4月27日下午在中科院举行。中科院陶建华老师为大家带来报告《语音技术现状与未来》。
陶建华,中国科学院自动化研究所所长助理、研究员、博士生导师,模式识别国家重点实验室副主任、中国科学院大学首席教授和人工智能学院院长助理,国家杰出青年基金获得者,国家万人计划领军人才,享受国务院政府特殊津贴。主要从事智能交互、大数据分析、模式识别等方向,在国内外主要期刊或会议上发表论文300余篇,研究成果多次在国内外学术会议上获奖。先后负责国家863重点项目、国家重点研发计划项目、国家自然科学基金重点项目、中科院先导项目、国家发改委项目等重点科研任务。目前担任中国计算机学会会士和常务理事、中国人工智能学会理事兼智能交互专委副主任、中国图象图形学会理事兼人机交互专委主任、中国中文信息学会理事兼语音信息专委副主任等,并担任Speech Communication、JMUI等多个主要国内外期刊编委,同时担任Interspeech、ACII、IEEEICSP、IEEE MLSP、ISCSLP、NCMMSC等会议大会主席或程序委员会主席。
报告内容:通过语音技术的发展历史,分析现有语音技术的主要技术特点,以及语音技术在应用中的主要几种形态和面临的问题。报告还将进一步分析语音技术面临的挑战性的问题,以及未来的技术发展思路。
语音技术现状与未来
陶建华研究员先讲了语音技术的发展历史。分析了语音最早在电话中的应用、语谱仪的诞生,以及语音生成技术、语音识别的DTW技术和隐马尔科夫模型技术、以及深度神经网络技术等发展过程中的重要节点。随着2010年左右深度学习在语音识别上的成果应用,更大促进了语音技术的发展,在云平台和大数据的支撑下,语音技术正在由单一存在向云平台发展。
随后报告提到了近些年语音技术的主要应用形态,可以简单分为C端应用和B端应用。C端主要是指移动设备、汽车和家具三大场景,用来变革原有的人机交互的方式。最主要的应用特点是对移动设备进行结合。由于在开放环境下语音识别的准确率还需要提高,所以现有的C端应用还是会受到一定的限制。B端则针对一些垂直行业需求,提高人工效率。客服是目前B端应用量最大的领域,可以节省人工的成本。其次,教育也是B端很大的应用领域,可以帮助人做培训和训练。此外,医疗和金融也是B端非常重要的应用领域。
紧接着讲到了语音交互技术所面临的问题。第一个问题是现有的语音技术还多局限在朗读风格的声音,口语化处理能力不够强。第二个问题是多语言处理不够强,尤其是多语言融合的处理能力还不能让人满意,针对小语种的处理能力也受到很多局限。第三个问题是受语音声学模型限制,以语音识别为例,语音识别系统是由声学模型和语言纠错模型串联而成,声学模型的性能会很大地影响到后续的识别过程。第四个问题是多通道语音理解有待提高,比如在人与人的交流时,通过对方的表情和姿态可以更好地了解对方所要表达的含义。
总结了3个语音技术的一些关键科学问题和相应的发展思路。科学问题1是语音声学层面信号精确模拟和认知机理,对应的解决方案是语音声学深层次建模方法和多语言模型。科学问题2是灵活的个性化自适应和模糊情感处理,对应的解决方案是个性化和情感语音模型。科学问题3是自然口语中多通道融合机制和多空间映射关系,对应的解决方案是多模态深度融合的对话系统。
最后,展示了自己的团队在语音识别、语音合成和交互式问答学习方面的应用的成果,并指出语音技术还有很多值得我们进一步深入探索的领域,过去的工作主要是对封闭环境问题的研究,所以开放环境的领域还有很多值得我们去研究和攻克的问题。
原文链接地址:https://developer.baidu.com/topic/show/290387
来源:oschina
链接:https://my.oschina.net/u/4299156/blog/3233415