论文浅尝
论文笔记整理:谭亦鸣,东南大学博士生。 来源:WWW 2020 链接: https://dl.acm.org/doi/pdf/10.1145/3366423.3380114 概述 这篇论文关注的任务是:基于给定文本的“多跳问题生成”(多关系问题)。 作者提出的方法大致可以描述为: 1.基于实体的上下文关系,将分布于文本中的实体融合为一个实体图; 2.通过证据关系及类型,从实体图中抽取子图,构成推理链(同时也获得对应的局部文本信息); 3.基于推理链,构建了一个整合的“生成-评价”网络模型,实现多跳问题的生成。 其中,作者将生成过程(生成器)设计为一个强化了问题句法和语义合理性的seq2seq模型; 在评价方面,作者通过建立一个混合监督学习与强化学习的评价机制,同时用于生成模型的优化。 本工作使用的数据集为:HotpotQA 问题生成方法的主要作用是构建伪训练标注集用于弥补数据集不足的问题。 背景与动机 本工作主要关联的一个NLP是:多跳机器阅读理解:即使机器完全理解文本语义,并回答一般的问题(尤其是需要学习推理)。因此这里的问题生成主要基于包含多实体/关系的文本数据。 从现有的问题生成方法上看: 1. 基于模板的方法受限于手写模板对于问题类型的覆盖能力; 2. 目前的 seq2seq 问题生成方法无法捕获和合成多个句子之间的证据(evidence,本质上,连续的relation)。