CoreNLP

论文浅尝

[亡魂溺海] 提交于 2020-11-17 03:55:17
论文笔记整理:谭亦鸣,东南大学博士生。 来源:WWW 2020 链接: https://dl.acm.org/doi/pdf/10.1145/3366423.3380114 概述 这篇论文关注的任务是:基于给定文本的“多跳问题生成”(多关系问题)。 作者提出的方法大致可以描述为: 1.基于实体的上下文关系,将分布于文本中的实体融合为一个实体图; 2.通过证据关系及类型,从实体图中抽取子图,构成推理链(同时也获得对应的局部文本信息); 3.基于推理链,构建了一个整合的“生成-评价”网络模型,实现多跳问题的生成。 其中,作者将生成过程(生成器)设计为一个强化了问题句法和语义合理性的seq2seq模型; 在评价方面,作者通过建立一个混合监督学习与强化学习的评价机制,同时用于生成模型的优化。 本工作使用的数据集为:HotpotQA 问题生成方法的主要作用是构建伪训练标注集用于弥补数据集不足的问题。 背景与动机 本工作主要关联的一个NLP是:多跳机器阅读理解:即使机器完全理解文本语义,并回答一般的问题(尤其是需要学习推理)。因此这里的问题生成主要基于包含多实体/关系的文本数据。 从现有的问题生成方法上看: 1. 基于模板的方法受限于手写模板对于问题类型的覆盖能力; 2. 目前的 seq2seq 问题生成方法无法捕获和合成多个句子之间的证据(evidence,本质上,连续的relation)。

失去的象牙塔:停学潮之下大学生对新冠病毒是何反应?

ぐ巨炮叔叔 提交于 2020-08-07 21:04:42
疫情之下,学校纷纷停课。在学业压力下,大学生对于新冠病毒的反应与普通人有没有区别呢?美国罗切斯特大学的计算机科学家对此进行了研究。 前不久,美国罗切斯特大学的计算机科学家根据推特舆情分析了 新型冠状病毒大流行带来的社会影响 ,探究了使用「中国病毒」、「武汉肺炎」这类歧视性词汇和使用「新冠病毒」这类中立词汇的两类人群在年龄、性别、政治倾向、地理位置以及更深层的心理层面上的差别。疫情之下,学校纷纷停课,学术会议也纷纷转为线上举行。在此情况下,那些停课的大学生对于新冠病毒有何反应?与普通人的反应有何区别?该团队对此展开了调查。 论文链接: https:// arxiv.org/abs/2004.0996 8 截至 4 月 13 日,COVID-19 已经在全球范围内确诊 1,812,734 例,死亡 113,675 例。病毒不仅对老年人或者有健康问题的人群造成巨大影响,年轻健康的人群也受到了不同程度的波及。随着世界范围的强制社交隔离,那些将大部分时间花在工作场所或者教育机构的人们极易遭受此类设施关闭带来的负面作用,超过 192 个国家的 17 亿学生受到影响。 作为拥有最多确诊人数的美国(确诊病例达 579,005 例,死亡病例达 22,252 例),总统 Donald Trump 采取了社交隔离措施,这也是自 1918 年大流感以来第一次全国范围内的强制社交隔离

依存句法分析总结

杀马特。学长 韩版系。学妹 提交于 2020-04-29 15:52:13
1. 基本概念 依存句法分析(Dependency Parsing,DP)通过分析语言单位内成分之间的依存关系,揭示其句法结构。直观来讲,就是分析句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分的关系。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的基础,另外一方面,句法分析也为其他自然语言处理任务提供支持。比如:句法驱动的统计机器翻译需要对源语言或目标语言进行句法分析。 1.1 谓词 依存句法认为“谓词”中的动词是一个句子的核心,其他成分与动词直接或者间接的产生联系。 1.2 依存理论 依存理论中,“依存”指的是词与词之间处于支配与被支配的关系,这种关系具有方向性。处于支配地位的词称之为支配者(head),处于被支配地位的成分称之为从属者(dependency)。 依存语法存在一个基本假设,句法分析核心是词与词的依存关系,一个依存关系连接两个词:head和dependency。依存关系可以细分为不同类型,表示具体的两个词的依存关系。 1.3 依存关系 关系类型 Tag Description Example 主谓关系 SBV subject-verb 我送她一束花 (我 <– 送) 动宾关系 VOB 直接宾语,verb-object 我送她一束花 (送 –> 花) 间宾关系 IOB 间接宾语,indirect-object 我送她一束花 (送 –> 她

12种自然语言处理的开源工具

倾然丶 夕夏残阳落幕 提交于 2020-02-26 07:29:05
让我们看看可以用在你自己的 NLP 应用中的十几个工具吧。 在过去的几年里,自然语言处理(NLP)推动了聊天机器人、语音助手、文本预测等这些渗透到我们的日常生活中的语音或文本应用程技术的发展。目前有着各种各样开源的 NLP 工具,所以我决定调查一下当前开源的 NLP 工具来帮助你制定开发下一个基于语音或文本的应用程序的计划。 尽管我并不熟悉所有工具,但我将从我所熟悉的编程语言出发来介绍这些工具(对于我不熟悉的语言,我无法找到大量的工具)。也就是说,出于各种原因,我排除了三种我熟悉的语言之外的工具。 R 语言可能是没有被包含在内的最重要的语言,因为我发现的大多数库都有一年多没有更新了。这并不一定意味着它们没有得到很好的维护,但我认为它们应该得到更多的更新,以便和同一领域的其他工具竞争。我还选择了最有可能用在生产场景中的语言和工具(而不是在学术界和研究中使用),而我主要是使用 R 作为研究和发现工具。 我也惊讶地发现 Scala 的很多库都没有更新了。我上次使用 Scala 已经过去了两年了,当时它非常流行。但是大多数库从那个时候就再没有更新过,或者只有少数一些有更新。 最后,我排除了 C++。 这主要是因为我上次使用 C++ 编写程序已经有很多年了,而我所工作的组织还没有将 C++ 用于 NLP 或任何数据科学方面的工作。 Python 工具 自然语言工具包(NLTK) 毋庸置疑,