SQuAD是一个用于机器阅读理解任务的数据集,有超过100000个根据维基百科文章提出的问题,问题的答案根据提出问题的相关文章截取。数据集下载地址https://stanford-qa.com。数据集在536篇文章中提出107785个问题-答案对,与以往的数据集列出候选答案集不同,SQuAD要求在给定篇章中间截取问题的答案,扩大了候选的数量,同时通过一些方法保留了问题和答案的多样性。这种范围限定的答案截取方式同时也有利于实验的评测。
篇章选取阶段采用Project Nayuki’s Wikipedia’s internal PageRanks的方法选取前10000篇文章,随机筛选得到536篇文章,对其进行过滤(比如去掉图片、表格,去掉过于短小的段落)得到23215个段落,覆盖了许多方面的话题。每个段落提出5个问题,以及在段落中标记出对应的答案。另外,在验证集和测试集上每个问题人工再进行两次回答,若没有答案则直接提交问题,用于保证评测指标的可靠性。
数据集的分析包括三个方面:1、答案类型的多样化 2、问题的困难度(通过问题与答案之间的推理关系来反映)3、通过问题与答案之间的分歧程度反应问题的困难度并对数据集进行分层。
最后,文章设计了一个逻辑回归模型来比较它和其他几个baseline以及人类表现做对比。首先为了降低复杂度,模型并不考虑所有可能的答案(在一个段落中列举出所有可能的答案复杂度是O(N^2)),而是使用Stanford CoreNLP生成一部分候选集,然后对候选集里的所有答案提取特征。这些特征有很多,比如保证准确度的匹配词词频(unigram+bigram),保证答案长度在正常区间的长度特征,保证答案类型正确的词性特征,以及为了保证词汇和句法结构多样性而引入的词汇特征和依赖树的路径特征。实验证明,改模型仅次于人类的表现,由于其他三个baseline(使用滑动窗口)
来源:CSDN
作者:RUCblake
链接:https://blog.csdn.net/qq_36891953/article/details/87858306