就算是戴上口罩,AI也知道你在说什么
萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 吃饭的时候,想要和对面聊聊天,然而周遭嘈杂的声音,让你根本不知道ta在说什么? 又或者,想与听障人士交流,然而对方听不见你的声音? 现在,检测面部肌肉变化的AI来了,只要你动了嘴,哪怕没出声,它也能知道你在说什么。 这是EMNLP 2020的最佳论文,来自UC伯克利的两位作者,用AI和电极做了个“沉默语音”的检测模型,可以检测到你想说、但没说出声的话。 其中的原理究竟是什么,我们来一探究竟。 用电极收集你小声哔哔的证据 “无声语音”的本质,是人在说话时面部、颈部肌肉的变化。 说白了,你在对口型时虽然没有出声,但你的脸和脖子“出卖”了你。 而能够检测“无声语音”的AI,也正是这么被做出来的。 在收集数据时,研究者会先在实验者的脸上等部位贴8个贴片,每个贴片都是一个“监视肌肉变化”的传感器,像这样: 在这之后,需要录制一段实验者的有声语音,并与肌电图进行对应,如下图 (会录制两种语音数据,一种每句话4个词左右,另一种每句话16个词左右) : 这种方法能够将肌肉的变化情况、和语音的类型对应起来。 在记录数据的过程中,还要再录制一段“对口型”的肌电图,但不需要发声,也就是“沉默语音”。 之所以要收集两份肌电图,是因为人在无声说话时,肌肉的变化与发声说话时的变化有些区别,例如部分发音部位的肌肉震颤幅度会变小,语速也有所变化。