一、介绍
在本文中,我们提出了一种新颖的深度关注神经张量网络(DA-NTN)用于视觉问题回答,它可以发现基于张量表示的图像,问题和答案之间的联合相关性。
首先,我们通过双线性特征对成对交互(例如,图像和问题)中的一个建模,进一步用三维(例如,答案)将其编码为双线性张量积的三元组。
其次,我们通过不同的答案和问题类型分解不同的三元组的相关性,并进一步在张量上提出一个切片式注意模块,以选择最具判别力的推理过程进行推理。
第三,我们通过学习带有 KL 散度损失的标签回归来优化建议的 DA-NTN。这样的设计使得可扩展的训练和在大量答案集上的快速收敛成为可能。
在这篇论文中我们将答案嵌入学习引入到我们的方法中,有三个目的。首先,我们希望对问题答案三元组之间的关系进行建模,以帮助推理。其次,答案嵌入可能会纠正问题的误解,尤其是对于复杂的句法结构的问题。第三,答案嵌入可以帮助确定问题的类型并决定使用哪种推理过程。
二、模型
2.1开放式可视问答框架的体系结构
红色框中的结构是生成问题表示Vq和图像与问题特征向量Vqi融合的基本模型,两个蓝盒中的结构是我们提出的深层关注神经张量网络,利用蓝盒神经张量网络来度量图像-问题-答案三元组之间的相关性。
VQA任务的目标是提供一个给出图像 I ∈ I(张量)和相应的问题 q ∈ Q(张量),先前的大部分工作都把开放的VQA看作是一项分类任务:
其中θ表示模型的全部参数集,A(张量)为候选答案集。
我们提出的方法目标是在图像 I 、问题a和回答ai之间测量相关性分数 Sθ(q, I, ai),然后预测图像问题应答三元组是否正确。
卷积神经网络和GRU递归网络分别用于提取图像和问题的特征向量。然后利用MLB[14]、MUTAN[6]等双线性池模型,将图像和问题的表示集成为多模态特征。(这一部分可以参考论文MUTAN:Multimodal Tucker Fusion for Visual Question Answering)
2.2 Neural Tensor Networks for VQA(用于VQA的神经张量网络)
为了建模图像问题表示Vqi和候选答案表示Vai之间的交互,我们提出了一种基于神经张量网络(NTN)模块来将图像问题特征向量与答案特征向量相关联,图像问题对<q,I>与答案之间的相关度ai之间的关系如下所示:
其中Vai是答案ai的特征向量,R表示图像问题对和答案之间的隐式关系,
是张量,和双线性张量积得到k维向量
其中,每个具有特殊关系型relr∈R的<q,I,ai>可以用张量的相应切片r=1,…,k来计算:
隐式关系R的其他参数是神经网络的标准形式:
结果最后是我们得到一个k维向量来衡量图像问题对和答案之间的相关程度,并且向量中的每个元素都代表图像问题答案三元组的响应,具有特定的隐式关系.在此篇论文中,我们是从头开始学习VQA任务的答案表达.而不是直接使用从自然语言语料库中学习的单词表示.是因为传统词嵌入不适用于建模视觉信息.
2.3 Attention Module for Reasoning(推理注意模块)
由于向量 s(q,I,ai)中的每个元素都被设计为与(q,I,ai)的一种特定关系和推理过程相对应,我们提出了一种通过动态调整向量中每个元素的权重来组合它们的注意机制。
对于 VQA 任务,(q,I,ai)三元组的关系通常由问题 q 的类型决定。例如,三元组的关系可以分为对象识别,对象位置,对象计数,对象属性等。可以根据问题的含义识别所有这些关系类。此外,所有候选答案的响应还可以提供有关问题类型的更多详细信息.例如,如果一个问题正在回答有关颜色的问题,则有关颜色的候选答案的响应应该比其他候选答案具有更大的响应。
具体来说,我们使用注意力机制获取相关向量 s(q,i,ai)中每个元素的加权平均值,作为关于(q,I,ai)是否正确的最终得分的输出,即表示为:
其中 si,j 是相关性向量 s(q,I,ai)中的第 j 个元素,αj是第 j 个元素的关注权重。注意力分数αj 由下式计算:
cj 被定义为:
其中 Sj = {s1,j,s2,j,…,sna,j}是一个向量,表示给定图像 I,问题 q 和一种特殊的隐式关系类型的所有候选答案的响应。
是注意力模块的权重矩阵。组合权重由所有候选答案和问题表示形式的响应确定。这样,考虑了多重图像问题-答案隐式关系,并且不同推理结果根据候选答案的响应和相关上下文信息进行整合。
2.4 Label Distribution Learning with Regression(带回归的标签分布学习)
在实践中,一个图像问题对与一个或几个类似的答案相关联。在像VQA [4]和 VQA-2.0 [10]这样的数据集中,每个图像问题对都由不同的人用多个答案进行注释。每个样本的答案都可以表示为所有可能答案 的分布向量,其中 yi∈[0,1]表示第 i 个答案的出现概率在此图像问题对的跨人类标签答案中。
在本篇论文中我们建议的模型输出是答案得分的回归,因此训练策略是使用基于余量的损失函数来最大化正确答案和任何错误答案之间的距离。考虑到很多候选答案。负样本的增加会导致通过使用有限的负样本的基于余量的损失函数来对 VQA 推理空间的结构进行建模非常复杂,并且还有不确定性,并且需要进行更多的迭代才能收敛。为了克服这个问题,我们将带有负采样的基于余量的学习问题转换为具有所有答案分布 y 的标签分布学习(LDL)问题。
对于每个图像问题对,我们计算总体答案候选集 A 中每个答案 ai 的 回归得分 satt(q,I,ai)。然后使用 softmax 回归来估算答案分布:
应用 KL 散度损失函数对预测 进行惩罚,通过最小化训练模型:
其中 N 是用于训练的图像问题对的数量。
在推理过程中,我们只将所有候选答案的嵌入内容输入到 DA-NTN 中,然后选择具有三元组相关分数 satt(q,I,ai)最大的答案 ai 作为最终答案。
3、实验
我们对所有实验使用相同的图像表示和问题表示模型。我们使用 Faster R-CNN 自下而上关注的图像特征[1]作为视觉特征,这些视觉特征生成尺寸为 K×2048 的特征图,其中 K <100。本文的所有实验,我们将答案表示的维数设置为 360。候选答案集 A 固定为前 2000 个最常见的答案,推理过程,仅需要图像和问题作为输入,然后将所有候选答案的嵌入都输入到模型中,并选择三元组相关性得分
最大的答案作为 DA-NTN 的预测答案。为避免过度拟合,我们对所有候选答案的嵌入均采用 L2 正则化。默认情况下设置 k = 6。
来源:CSDN
作者:陌上pamper
链接:https://blog.csdn.net/pamper_xu/article/details/103386967