1.文本摘要和信息提取
文本摘要和信息提取处理试图充巨大的文本语料库中提取关键的重要概念和主题,本质上是在此过程中对它们进行缩减。在深入了解概念和技术之前,应该先了解对文本概要的需求。信息过载(information overload)的概念是文本摘要需求背后的主要原因之一。
由于印刷和口头媒体占据主导,有了大量的书籍、文章、音频和视频。这一切在公元前三或四时机就开始了,当时人们查阅大量的数据,因为书籍的产生似乎没有尽头,而且这种信息的过载常常遭遇到反对。文艺复兴使其,大约在公元 1440 年 Guenberg 发明了印刷术,使书籍、文稿、文章和小册子得以大量生产。这大大增加了信息过载,为此学者控诉;额这样的信息过剩情形,它使信息变得非常难以使用、处理和管理。
在 20 世纪,计算机和技术的进步迎来了数字时代,并最终产生了互联网。互联网为社会媒体、新闻网站、电子邮件、即时通信功能开启了充满生产和消费信息的各种可能性的窗口。反过来这又导致了信息量的爆炸式增长和不需要的垃圾邮件信息、无用的状态和推文——乃至导致在网络上发布更多不重要的内容。
那么,信息裹扎就意味着存在过多的数据或信息,消费者在作出知情决策会觉得难以处理。一旦系统输入的信息量超过系统的处理能力时,便会发生过载。人类具有有限的人之处理能力,并且还以这样一种方式进行连接,因为思维常常会随时徘徊游离,是的我们不能花很长时间来阅读单个的信息或数据。因此,当获得信息后做错决定性策略时信息会减少。
到目前为止可能已经才到会在哪里用到这个概念以及为什么需要总结和提取信息。企业在作出关键和明智的决策时会蓬勃发展,通常它们拥有大量的数据和信息。但从中获得洞察力不是一件非常容易的事情,因为往往不清楚所有数据的处理方式,所以自动化是困难的。管理人员很少有时间听长篇大论,或者浏览重要事件的重要信息页面。摘要和信息提取的思想史得到大量信息文档的重要论题和主题,并将其总结为可以轻松阅读、理解和解读的简短内容,从而简化了在更短的时间内作出良好决策的过程。
需要能对文本数据执行此操作的有效和可扩展的流程和技术、而最流行的技术是 关键短语提取(keyphrase extraction)、主题建模(topic modeling)和 自动文档摘要(automated document summarization)。前两种技术技术更多的是从文档中以概念、标题和主题的形式提取关键信息,从而可以缩略文档;最后一种技术是将大文本文档总结成竖行,从而提供该文件正在试图传达的关键内容或信息,现在将简要介绍一下每一种技术所涉及的要求及其范围:
- 关键短语提取:也许是三种技术中最简单的。它涉及从包含其主体概念或主题的文本文档或语料库中提取关键字或短语。它可以说是主题建模的一种简单形式。可能已经在研究论文中或者甚至在网络商店上的一些产品中看到过所描述的关键字或短语。它们用几个单词或短语来描述对象,突出其主要思想或概念。
- 主题建模:通常涉及使用统计和数学建模技术从文档语料库中提取核心主题、题材或概念。请注意,这里强调文档语料库,是因为你拥有的文档集更多样,就可以生成更多主题或概念——与单个文档不同,如果谈及的是单个概念,将不会收到太多的主题或概念。主题模型通常称为 概率统计模型(probabilistic statistical model),其适应特定的统计技术,包括奇异值分解和隐含(dirichlet)分布式来发现在产生主题和概念的文本数据中的连接浅语义结构。它们广泛用于文本分析甚至生物信息学。
- 自动文本摘要:是使用基于统计和机器学习技术的计算机程序或算法来概括文档或文档语料库的过程,以便我们可以获得包含原始文档或语料库的所有基本概念和主题的简短摘要。可用各种各样的技术构建自动化文本摘要器,包括各种基于提取和概括的技术。所有这些算法背后的关键思想是找到原始数据集的代表性子集,使得从语义和概念角度来看数据集的核心要素在该子集中。文本摘要通常涉及从单个文档中提取和构建执行摘要。但是,相同的算法可以扩展到多个文档,虽然通常不将多个不同文档结合在一起,这可能将违背算法的初衷。相同的概念不应仅用于文本分析,还适用于图像和视频摘要。