分层条件关系网络在视频问答VideoQA中的应用:CVPR2020论文解析
分层条件关系网络在视频问答 VideoQA中的应用: CVPR2020论文解析 Hierarchical Conditional Relation Networks for Video Question Answering 论文链接: https://arxiv.org/pdf/2002.10698.pdf 摘要 视频问答( VideoQA)具有挑战性,因为它需要建模能力来提取动态视觉伪影和远距离关系,并将它们与语言概念相关联。本文介绍了一种通用的可重复使用的神经单元,称为条件关系网络( CRN),它作为构建块来构建更复杂的视频表示和推理结构。 CRN以一个张量对象数组和一个条件特征作为输入,并计算一个编码输出对象数组。模型构建成为这些可重用单元的复制、重新排列和堆叠的简单练习,用于不同的模式和上下文信息。因此,该设计支持高阶关系和多步推理。 VideoQA的最终架构是一个 CRN层次结构,其分支表示子视频或剪辑,所有分支都与上下文条件共享相同的问题。本文对知名数据集的评估取得了新的 SoTA结果,展示了在复杂领域(如 VideoQA)上构建通用推理单元的影响。 1. Introduction 回答关于视频的自然问题是认知能力的有力证明。该任务涉及在语言线索的合成语义指导下获取和操作时空视觉表征 [7, 17, 20, 30, 33, 36]。由于问题可能不受约束,