近年来,国内人工智能技术日新月异,但一些前端技术,却少有突破。随着A.I.智能语音等产品的流行,人们的人机交互方式逐渐从物理交互向生物交互转变。而交互的第一步——拾音,效果差强人意。就智能家居来说,它们的拾音范围多集中于近场环境,约为2-3米,且拾取效果往往欠佳,需多次唤醒。
如果把摄像机比作“眼睛”,拾音器便是“耳朵”。眼睛看到的图像和耳朵听到的声音组合构成一个基本的影音记录系统。然而这只灵活的耳朵在应用过程中会受到诸如拾音距离、室内混响、环境噪音等诸多因素的影响,这对拾音来说是不小的挑战。
如何真正“耳听八方”?深耕智能语音与人工智能领域多年的科大讯飞,近期,推出了全新拾音品牌——谛听,在超小音量拾取和降噪方面力争取得一席之地。其实,讯飞在早前推出的讯飞录音笔、智能鼠标、阿尔法蛋等产品均涉及语音交互。基于产品应用的技术积累,这次在拾音领域发力深耕,令人欣喜。
据了解,科大讯飞谛听系列配备了32路麦克风,主打全自动声源定位、自适应波束形成和混响抑制技术以及基于深度学习的噪声抑制和语音自动增益调节算法,可实现室内说话人自动定位、噪声与混响抑制、音量自动调节等功能,从而达到精准拾音的目的。
自动追踪声源,精准拾取30分贝超小音量
近日,某科技博主的一支关于拾音器的评测视频引发关注。视频中,科大讯飞的谛听系列产品和德国森海塞尔、美国舒尔的同类产品“同台竞技”,讯飞表现出彩。
在模拟30分贝人耳都无法听见的超小的音量环境下,森海塞尔拾音稳定,内容清晰,舒尔拾取的声音小且难以分辨说话内容,讯飞谛听拾取的内容清晰,且音质听感较好。
这主要由于科大讯飞采用了自主研发的全自动声源定位技术,只要有轻微的声音,它便如聚光灯一样迅速定位声源,并对来自其他方位的混响和噪音进行抑制。在实际应用中,32个麦克风组成的阵列可做到7×24小时全天候、全方位、无死角拾音,精准拾取低至30分贝的超小音量。
众所周知,声音在传播过程中会发生衰减,不同方位的声源会导致所拾取语音音量和效果差异较大,全自动声源定位和自适应波束形成技术还使得讯飞谛听在拾取运动的声源方面表现出色。波束如同枪手枪击猎物一样,可自动“瞄准”运动的声源方位。这意味着,对于那些仍需要预设和限制区域才能拾音的设备来说,讯飞这是一大突破。不仅如此,通过对不同音量自动调整,讯飞谛听使得拾取的声音更符合人耳听觉效果。
攻克技术难点,谛听降噪能力惊人
声学环境比想象中更为复杂,环境噪音、干扰噪音、电流噪音等噪声与语音信号在时间和频谱上常常相互交叠,再加上回波和混响的影响,想要捕捉相对纯净的语音非常困难。在评测视频中,评测者分别模拟了环境噪音为70分贝和90分贝的情况,结果显示即使是90分贝的极端噪音环境,谛听都抑制了噪音,对话内容依旧清晰。
面对噪音这一挑战,讯飞谛听依据时域、频域和空域的信息,能有效增强语音并显著抑制噪音对目标语音的影响。它首先通过声音定位技术拾取语音,进行语音增强,实现初步的降噪效果。然后通过波束形成和基于深度学习的语音增强算法和对非方向性和方向性的噪声进行抑制,最后输出时,对音量大小自动增益并根据人耳的听觉特点优化,使声音更加饱满。
核心语音技术驱动发展,未来可赋能多场景
万物智联的时代已然来临,A.I.赋能IOT将激发无限可能,前端拾取的音质高低无疑会为影响后期的语音处理的水平。
谛听系列产品,是科大讯飞21年来始终坚定核心技术自主创新的体现。凭借“中文语音技术应由中国人做到最好”的信念,2018年至今,科大讯飞已获得30项人工智能国际竞赛的冠军,涵盖语音识别、语音合成、机器阅读理解、手势识别、图像识别等诸多领域。随着一项项技大关术的突破,科大讯飞也为拾音器的多样化应用场景落地提供了强而有力的技术支撑。以往的拾音设备成本高、音质差、指向性强,无法在大面积推广,谛听的推出,或许将打破这一现象。
据悉,谛听系列产品未来可广泛应用安防、交通、高质量会议等关键场所和重点部位,其实用性应用而言,可以说大有可为。以公共场所为例,以往的视频大多无法精准拾取声音,音频与视频的有效结合,全向采集视听解决了单纯视频的图像死角,有利于防止群体性和违规事件的发生,满足更多现实的需求。
A.I.赋能各行各业,进一步推动社会生产力的整体跃升,深刻重构着经济社会。从创立之初便坚持“顶天立地”的科大讯飞董事长刘庆峰曾表示,“只有占据核心技术的高点,才能在产业发展中赢得主动,在国际竞争中拥有话语权。”讯飞谛听以其出色的降噪和超小音量拾取堪比国际一流,国产拾音技术的前景值得期待。
来源:oschina
链接:https://my.oschina.net/u/4330613/blog/4626705