IJCAI2020|Mucko:面向视觉问答的多层次跨模态知识推理模型
本文介绍的是 IJCAI-2020论文《Mucko: Multi-LayerCross-Modal Knowledge Reasoning for Fact-based Visual Question Answering》,该论文由中科院信工所于静老师指导,由来自中科院信工所、微软亚洲研究院、阿德莱德大学的作者(朱梓豪,于静,汪瑜静,孙雅静,胡玥,吴琦)合作完成。 作 者 | 朱梓豪 编辑 | 丛 末 代码链接:https://github.com/astro-zihao/mucko 1 介绍 视觉问答是一个融合了计算机视觉和自然语言处理的跨领域研究方向,输入一张图像和与这个图像有关的自然语言问题,视觉问答算法的目标是生成一个自然语言答案作为输出。最近一些相关工作,仅仅通过分析图像中的视觉内容和问题,在一些数据集上就已经得到了很好的结果。但是,当一个问题不仅仅需要分析视觉内容,还需要依赖额外的知识才能回答时,这些模型就无能为力了。 例如在图一中,问题是“图片中红色的圆柱体可以用来做什么”?模型首先需要在视觉上定位出“红色的圆柱体”在哪,还需要在语义上将“红色的圆柱体”识别为“消防栓”,而且还需要连接到“消防栓可以用来灭火”这条外部知识。因此,如果要建立一个通用的视觉问答模型,学习如何从视觉、语义