多模态学习,带来AI全新应用场景?

落花浮王杯 提交于 2020-08-05 02:52:12

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

新的AI技术发展趋势有哪些?多模态学习技术一定是其中之一。

最近,刚刚宣布“自立门户”的微软AI明星产品小冰改名为“红棉小冰”。殊不知2014年诞生的这一个AI对话机器人已经在5年时间里更新到了第七代了,据称能力上正在“无限接近人类”。现在的小冰,不仅是那个会作诗的机器人了,她还会唱歌作曲、阅读朗诵、撰写新闻,甚至去年还办了一个虚拟7位画家的个人画展。多模态识别技术正是小冰越来越像人一样沟通表达的关键之一。

image

多模态技术同样也在视频网站、电商物流、自动驾驶等领域得到广泛。像爱奇艺推出的“只看TA”功能,优酷视频正在使用的视频帧、人脸帧的图向量检索,都离不开多模态识别技术的支持。而像京东淘宝等电商平台的“拍照购”、“拍立淘”的搜索技术背后也都是在计算机视觉技术下,使用了图像、文本和高层语义属性等多模态下的信息融合,才实现高精度的“以图搜图”功能。百度提出的“多模态深度语义理解”,则让AI实现从“看清听清”到“看懂听懂”的进化。

可以说,人工智能在通向人的智能的道路上,多模态学习就是一个绕不开的发展方向。因为人类本身就是一个多模态学习的典范。

现在,多模态学习技术正在带来众多全新的应用场景。关注AI技术和应用发展趋势的你,想必也想了解下多模态学习的来龙去脉,以及在这些新应用场景中的技术现状与问题。而这些问题也是本文重点探讨的内容。

“多模态学习”,正式认识下

模态(Modality),虽然不是我们的日常用语,但却十分容易理解。

我们每一天都会接触到各种不同来源和形式的信息。正如我们有视觉、听觉、嗅觉和触觉等,那么我们接触的信息就有视频、图像、文字、语音、味道、软硬度等,这每一种信息的形式就可以称作一种模态。

模态的范围要比我们的感知能力更宽泛。除了视觉、听觉获得的模态信息,我们也可以利用传感器获得诸如雷达、红外线等不同感应数据的模态信息。

image

此外,模态的类型定义也可以非常宽泛,比如我们可以把两种不同的语言当做是两种模态,把不同结构下采集的数据,也可以当做两种模态。比如,仅仅一个视频内容数据,就是一个高维度、多模态的数据信息,其中包含了标题、简介、评论、字幕等文本信息,也有视频帧的图像、声音,以及连贯动作视频片段的视觉、声音信息。

多模态学习,从上世纪70年代就已经起步,几经发展,现在正进入到机器学习特别是深度学习的阶段。通常称为多模态机器学习(Multi-Modal Machine Learning ,MMML),试图通过机器学习的方法实现对多源模态信息进行分析和理解。当前主要热门的研究方向自然是对图像、视频、音频、语义之间的多模态学习。

当前,多模态学习主要研究方向有多模态表示学习、模态间映射,多模态对齐、融合、协同学习等。

多模态表示学习,研究如何将多个模态数据所蕴含的语义信息数值化为实值向量,通俗理解就是对多个模态的数据进行相关性编码,让不同模态建立起映射关系。按多模态表示共享的方式,主要分为公共表示学习和特异性表示学习,后者由于是分别学习不同模态的特征,可以应用于诸如零次学习、模态间映射、跨模态检索等任务中。

image

模态间映射,研究如何将某一特定模态数据中的信息映射至另一模态。例如,给定一幅图像,通过机器学习得到这副图像的描述,或者给定一段文字,生成一幅匹配的图像。类似于我们学习中遇到的“看图说话”和“以题作画”的问题。模态间映射早已可以应用于语音合成、图像视频描述以及跨模态检索等应用中。

此外,多模态对齐,主要研究如何识别不同模态之间的部件、元素的对应关系,以促进学习到的多模态表示更加精确,例如将电影画面、口型、语音、字幕的自动对齐;多模态融合,主要致力于不同模态间的模型与特征的整合,以获得更全面的特征,提高模型鲁棒性,并且保证模型在某些模态缺失时仍能有效工作;而多模态协同学习,主要考虑如何从信息丰富模态上学习的知识迁移到信息匮乏的模态,使各个模态的学习互相辅助。典型的方法包括多模态的零样本学习、领域自适应等。

近两年,随着机器学习的模型的飞速进展,多模态学习中出现的映射质量问题、对齐的匹配度量以及融合噪声干扰等问题,都在实现很好的优化解决,为多模态的落地应用做好了准备。

多模态学习,正在丰富哪些应用场景?

通过以上解释可以知道,其实很多我们熟知的AI技术都可以归类到模态学习当中。比如,像机器翻译,通过输入的一种A语言即时翻译为另一种B语言,其实质就是一种模态之间的映射转化。类似的还有唇读识别和语音翻译,也就是分别将唇部视觉和语音信息转换为文本信息。

image

在图像识别中,会应用到一种“图片语义分割”,即尝试给图片的不同像素区域对应到每一种类型标签,实现视觉和词汇的对应。这就是多模态对齐在空间维度的应用。

当然,基于多模态数据的丰富表示以及映射、对齐和融合的应用,可以将目前AI的三种主要感知模态——语音交互、机器视觉、传感器智能进行多模态组合,产生全新的应用场景。

在语音交互上,“多模态深度语义理解”技术正在为其带来更深度的应用场景。

对于前几年的智能音箱,我们都有这样的感触,那就是语音交互只能完成简单的搜索,一旦多聊几句,就发现机器人要么只有万能的“套路”公式,要么就“答非所问”。这一问题的根源就是人工智能无法更好的理解对话者的深层涵义,也没有灵活的应答机制和内容。此外,也更难理解人的语气、情绪这类情感模态信息,当然因为没有视觉感知,更不可能去理解人的表情、动作、姿态等信息。

image

多模态深度语义理解可以极大改善这类语音交互的语义理解难题。比如,其中一个应用场景是智能汽车的数字座舱,正在从原本单一的车载语音识别,实现融合视觉、语音、车内外场景图像的多模态识别的转变。

在实际的语音交互中,车载智能助手不仅可以实现语音的识别,也可以通过摄像头识别人的表情神态、动作,比如识别疲劳驾驶、分心、发热等状况,以进行即时的语音提醒。语音交互也可以更加以人类的自然语言进行交互,而不必要使用生硬的指令型语言。

而在以机器视觉为主的应用中,多模态学习技术也带来新的应用可能。

以电商平台购物为例,用户的一大痛点就是看到一些“心水”的好物或者同款,但不知道名字,通过拍照识别和检索,将为用户提供最便捷的推荐服务。另外,在电商的智能客服,用户也希望能够通过简单对话或者发送图片、视频的方式处理订单问题。在这些场景中,跨模态检索和映射转化技术就得到了深度应用。

比如,在商品推荐和信息流广告中,就需要结合海量商品图像与对应的商品语义属性,学习图像语义特征表达,以提高符合用户需求的商品推荐度。而与智能客服进行的多轮对话中,融入视觉到语言的跨模态转换技术,可以自动实现对用户上传的图片或视频进行自动应答。

在传感器智能上,多模态识别技术可以应用到大量的物联网设备场景中。通过在大量的智能设备中增加视觉、温度、湿度和光线传感器,来实现多模态的智能交互。比如在智能空调中,加入语音交互、视觉识别指令,结合传感器判断屋内温度和湿度,可以根据屋内人数、位置等因素来实现更精准的控温方案。而现在更多智能大屏应用,也在将机器视觉、语音交互和一些智能传感器引入到智能硬件中,实现对屋内光线的调节、音量、观看者状态(离得是否太近,是否有未成年人)等因素的智能识别和调节。

image

多模态技术主要还是采用已标注的多模态数据来生成深度学习模型,这导致这些模型在真实场景下的泛化能力受到很大限制。现有的多模态技术更多要与知识图谱结合,融入专家、常识等知识,利用数据和知识的联合来让多模态技术建立其“智能”的作用。

此外,正如一位专家指出的,当前的多模态技术还是属于狭隘的单任务学习,整个训练和测试的过程都是在封闭和静态的环境下进行,这就和真实世界中开放动态的应用场景存在一定的差异性。这距离人类在真实场景中的泛化的多模态感知相距甚远。

未来为提高多模态的泛化感知能力,可以利用元学习的方式来让模型自己学会如何认知新的多模态知识,实现适用于开放动态场景并具备终生学习能力的多模态模型。

而在推动AI的推理能力上,在多模态模型训练的过程中,可以引入自监督、自学习的推理性任务,“强迫”多模态模型进行推理和思考,这也能在一定程度上让机器去慢慢学会推理。

通过多模态学习技术实现AI的推理,看起来难度极大,这一假设还需要未来更多实验和验证。

image

总的来说,多模态技术已经在试图“复制”人类在日常生活中的各类场景,尽可能把人类的感知信息进行分析处理和整合,并实现更全面综合的理解,也能结合“数据”和“知识”给出相应的回应。但这距离真正的人类级别的智能还有质的差别。

当然,人们对多模态技术的发展前景仍然看好,相比于只侧重单一模态的技术,多模态技术所构建的智能应用场景将更多样化,也与我们普通人期待的智能生活更近一些。

更何况,多模态技术仍处在“襁褓状态”,我们应该留给它足够长的成长时间,等待美好发生。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-07-06
本文作者::海怪
本文来自:“ 脑极体”,了解相关信息可以关注“ 脑极体

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!