来源:《中国计算机学会通讯》2015年第3期《动态》
作者:周明
CCF自然语言处理和中文计算国际学术会议(NLPCC2014,http://tcci.ccf.org.cn/conference/2014/)于2014年12月8~9日在风景如画的深圳麒麟山庄举行。这个时节,北方已经进入寒冷的冬季,而这里却是风和日丽,草色青青。NLPCC 2014国际会议是中国在自然语言处理领域组织的级别最高、规模最大的国际学术会议。会议旨在增进自然语言处理和中文计算研究领域科研人员之间的交流、开拓视野、加强合作,促进相关研究领域的发展和深入。来自中国、美国、加拿大、新加坡、中国台湾、中国香港等国家和地区的近300位自然语言处理和中文计算研究领域的科研人员参加了本次会议,围绕“自然语言深度理解和知识整合”这一主题进行讨论。大会邀请新加坡国立大学黄伟道教授、美国卡内基梅隆大学爱德华•霍威教授、美国伊利诺伊大学厄巴纳-香槟分校刘兵教授做大会特邀报告。此外,来自多个国家的科研人员作了超过60个会议报告,全面介绍了相关研究领域的最新进展和未来趋势。在会议之前,作为本次会议的专题讨论会,还进行了为期三天的以“面向网络文本处理的统计学习方法”为主题的中国计算机学会《学科前沿讲习班》,涵盖了实体链接、统计机器学习、情感计算、信息检索、互联网经济和广告学等诸多热门领域。在会议期间,我们专门采访了我们的老朋友爱德华•霍威教授。霍威教授曾经任职于南加州大学,现任职于卡内基梅隆大学语言技术研究所。他是国际著名的自然语言处理学者,国际计算语言学协会(ACL)首批Fellow,曾任ACL 2001年主席。他的研究兴趣很广泛,包括计算语义学、社会媒体文本处理、文本分析、文摘、文本生成、问答系统、篇章和对话处理、机器翻译评价和数字政府等。他在机器翻译、自动文摘、自动问答、文本理解等领域都做了杰出的贡献。他这次应大会之邀,作了“计算语义学进展:结构分布及其应用”的特邀报告。
问:请谈谈你对NLPCC 2014的总体印象。
爱德华•霍威:感谢大会的邀请,我很高兴有机会参加本次盛会。论文的质量和会议的出色组织,给我留下了深刻的印象。我自1996年以来,每隔两年或三年就来中国访问一次。我了解到中国的自然语言处理和人工智能领域的研究项目逐年增多,研究领域不断拓宽,许多项目都取得很好的进展。我注意到,本次会议由于在今年开始转变为国际会议,首次采用英语作为工作语言,我感到非常有意义。大家(除了我以外)在房间里讲中文,但是在会场里面,除了一些中文文章专题之外,都在用英文宣读论文!我觉得这样做很好,使得中国的研究人员和学生逐渐可以跟国际接轨。我也注意到论文宣读者表现得训练有素,思路活跃,实验充实,论述井井有条,对国际相关研究有深刻的了解。这使我回想起十年前我来中国访问的时候。那时大家都在努力地学习技术英语,深入研究国际上最新的研究模型和评测活动,努力与世界其他地方的研究水平保持同步。今天与十年前相比,中国的自然语言研究有了长足的进步。2015年夏天,中国将在北京承办ACL国际会议。我认为这将提供一个很好的机会,使得中外学者可以充分交流和互相学习。中国学生将有机会直接接触国际先进的技术思想,而国外学者也可以亲身了解到中国自然语言处理领域的丰富经验。
问:我知道你几年前从南加州大学转到了卡内基梅隆大学。能否介绍一下你目前在卡内基梅隆大学所从事的研究吗?
爱德华•霍威:几年前我转到了卡内基梅隆大学。该所大学有世界上最大的大学办的NLP研究中心和NLP教育体系,约150名研究生和35名教授,其研究范围几乎涵盖了NLP的各个领域,从语音识别、信息检索、机器翻译,到社会媒体语义分析,差不多应有尽有。另外还设有与NLP相关的学科,譬如机器学习和AI等系所,构建了学科齐全、知识丰富、多样化、引人入胜的教学和科研的氛围。我所在的卡内基梅隆大学语言技术研究所涉猎了NLP各个领域的教育和研究。我个人最感兴趣的是计算语义的研究以及在如下两个研究方向的应用。一个是计算机理解:电脑是在理解一篇整体的文本,而不是对一个个句子进行孤立的理解,这中间需要进行指代消解、实体解析和实体链接等很多工作。第二个研究方向是社会媒体。我的兴趣并不在研究连接网络的拓扑结构,而是研究流经网络的海量的实时化的内容,从而发现人们的性格、角色和专长。
问:你在你的特邀报告里面谈了很多语义的问题。这引出我的这样一个问题:你认为当前自然语言处理领域新的技术趋势是什么?我们遇到的挑战和机遇在哪里呢?
爱德华•霍威:每隔10年左右,NLP领域就会出现一个很大的突破。这些突破向世界展示了我们所能做的事情,但也揭示了我们尚不能做的事情。最近的一次突破是IBM的沃森系统,它是一个自然语言问答系统,它在2011年战胜了两位人类冠军选手,赢得了美国著名电视节目比赛《危险边缘》1。在此之前的突破是2005年前后的统计机器翻译走向实用(尽管质量还不理想),再往前的两个主要突破包括20世纪80年代大规模的信息检索/网络搜索和70年代中期的语音识别系统。伴随这些突破的是新技术的出现和研究方法的改良。例如,大约在2000年,人们从早期手工编制的基于规则的系统(这种基于规则的系统做硬性决策:要么给出一个正确答案,要么失败)演变到自动化的机器学习(它可给出多答案,每个答案有一个由多个参数加权获得的分数,答案可以根据分数进行排序优选,即使有时候可能没有一个答案是完美的)。这使得NLP领域从原来侧重算法理论转到重视试验。因此,研究人员变得更像工程师,而不是理论家了。这是一件好事,大家更加务实,更加注重大系统的构建,不过也可能会多少影响研究的深度。
今天我觉得我们面临的大挑战是怎么才能打破NLP系统性能的天花板,现在几乎每个NLP应用程序的性能都到了一个限度:IR的水平大约在0.45F-得分,这已停滞十年之久了。语音识别除了在狭窄的领域(譬如受限领域的对话)外都还不算完美。信息提取停留在0.80F,通常情况下会比这个数字还低。机器翻译对超过25个词的长句子,翻译质量仍然不行,无法体现其语用内涵。为什么这些NLP任务的水平停滞不前呢?我认为,目前的系统仍然还只停留在对词汇表层的处理,仅仅使用词串和词串模式。而对语义,无论何种层次的语义,以及跨句子的篇章处理,我们没有做多少。
如果把NLP看做是一个符号变换问题,即经过一组连续的“深层”符号层次的变换。每一层体现出一种新的表达能力,每一层都可按照不同的形式泛化和归类,则我们应该从浅层语义出发,然后越来越深层地研究这个泛化问题。这里给一个例子。POS标记(词性标记)把词按照一种方式归类,譬如名词和动词分开,这样的分类就对分析器非常有效。我们再深入一层,一个句法树的分枝可把词汇按照另外一种方式归类,从而把主语和直接宾语分开。这种分开有利于某些任务,譬如问答系统中的问题分析。另外一种区分是词义标注,譬如“bat”的不同意义(可飞行的动物以及体育器材)标记出来,有助于邻近句子的处理。NLP已经开始于很浅层的语义,譬如把human、location和organization区分开来。但是实际上,这些分类是非常细微且不稳定的。你可以认为“library”是一个建筑物,可能有时候又是一个机构。但是我们还没有一个特别好的计算方法进行这种分类,把两者区别开来。此外,系统总是一次处理一个句子,然后再处理下一句。系统处理当前句子的时候一般是跟上一句没有关联,缺乏语片的记忆,而且不能把对每一个句子处理后所得到的知识积累下来。由于缺乏这个能力,系统就是把一个句子解析过500万次,再遇到这个句子的时候,速度也不会加快一丝一毫。可是你看看三岁孩子,他们是不停地学习的,越来越聪明,越来越快。因此,我们的系统很弱。如果你碰到一个人,他只会做词汇级别的模式匹配,记不得刚刚说过的话,你会以为他是个白痴吧!可是目前的NLP也许就是这样。
现在,确实不好定义语义的层次和类型,以使得这些层次很好地工作。如果有这样的东西,语义的问题就基本解决了。但是希望还在。我后面还会继续谈这个问题。
问:回顾NLP的历史,你能总结一下NLP的重要事件吗?从历史中我们可以学到什么教训?
爱德华•霍威:我前面已经提到一些NLP历史上的重要里程碑。我有两个体会:
● 当有人展示出一种新型的或者一种新层次的表达(expression)的能力,并给出与之相关的算法的时候,NLP就会出现一个新里程碑。
● 与之伴随的是,会产生一种新的工作/研究模式,人们开始用新方式看待问题。
在所有的NLP里程碑中,最大的工作/研究模式的变化发生在人们认识到某些自然语言任务用现有的手写符号变换规则难以成功,因而转向到某种大规模的机器学习方法(通常采用了比较简单的符号体系)的时候。以语音识别为例。语音识别经过傅里叶变换,把连续语音分解成一组短期向量,然后应用各种变换把这个向量序列变换为一个音素序列,然后变换到字母序列,然后到词汇序列。跟以往方法语音识别不同的是,每一个变换都是学习得到的,而且很多用来建模嗓子和口腔气流的模型都不用了。这个新模式需要训练数据和评价驱动的方法来进行参数优化。同样,最初的统计机器翻译方法简单地丢弃所有的词类、句法知识以及转换规则,代之以两个非常简单的符号转换:首先是两种语言之间的词到词的变换,然后是从一个词袋到另一个词袋的变换。这两种变换也是通过训练数据和一个由系统性能评价所驱动的参数优化过程学习到的。这种变换,也同样发生在信息抽取领域以及问答系统的各个处理流程中。
我们可以继承下来的是:当研究语义时,如何采用同样的表达方式,并且进行研究模式的转变?因为我们通过AI所获得的数学逻辑和哲学思路根本不怎么奏效。
问:我们前面谈了很多技术变革,现在展望一下未来的发展。对NLP来讲,未来会是什么模样?你认为NLP研究将要进入的哪些重要方向?
爱德华•霍威:最近,分布式语义或深度学习的研究非常重要。虽然其表示:词向量(word vector)和嵌入(embedding),可能不适合语义,但是也确存在一些特性,在以往的语义表达中是欠缺的。例如,这些表示是连续的。你可以通过改动词向量中的某一个单元使得表示某个主题的词向量向另外一个词向量接近或者远离。这样可以模拟语义的“意义的连续性”。但是,它们也很难处理其他问题。例如,你怎么对一个向量求“反义”?给出了向量“short”或“pretty”,什么向量表示“tall”或“ugly”。如何用否定运算符求反义词的向量?
我认为,我们正开始看到出现一个新的模式:一个基本表式可通过学习得到,例如embedding,其各类组合运算也可以学到,譬如“标注”,“分析”或者隐喻的检测。其方法也与以前不同。传统机器学习方法也许要逐渐远去,而各类神经网络(recurring,recurrent,以及其他类型。类似于“subroutine”,像最近提出的长期短期记忆模型2)会变得越来越重要。可是,还不能判断一个embedding是一个词、一个概念,还是一个句子,或是一个篇章,并且识别它的成员特性。它也不可能检查一个组合操作符网络并且知道它所正在做的事情,只有运行一下才知道。由于所有模式和方法都在转变,这对从事这个领域的人来讲有点紧张。但是我认为人们会很快开始喜欢用这种方便的方式,通过一系列很小的表示变换来实现每一个自然语言任务,而每一个任务可以通过一个适当规模的、适当形式的网络来训练,而且训练是自动进行的。正如我所说的,所有这些模式转变会使我们失去一些东西,但是也获得了更多东西。
这一模式的转变主要是方法论的转变。我们还要考虑我们所处理的具体任务。NLP可能没有什么核心理论,我们在这个领域基本上是这个问题做完了再换到另外一个问题,没有什么规律,取决于有什么数据,有什么经费,当前是什么潮流。我觉得目前有两个任务:一个是对连接的句子进行深度学习(前述),一个是交互处理(多参与者,多轮NLP处理,篇章级处理,或在社会媒体)比较引人关注。
在长远的未来,我认为我们将不可避免地“往上走”和“往下走”:“往上走”指的是嵌入到人机交互系统(集成NLP功能,譬如检索、机器翻译、QA和文摘)支持与人的交流,“往下走”是指把基本知识加入到知识表达和推理(KR&R)帮助进行推断。
问:现在到处都在谈论大数据。据认为,大数据将是AI成功的一个关键因素。你能就使用大数据服务于AI这个问题,谈谈你的观点吗?
爱德华•霍威:其实,NLP已经在过去的10年里,使用了大数据(虽然也许早期的时候,数据不算“太大”)。例如,在进行统计机器翻译的时候,为了产生二元语言模型,需要大数据强大的处理能力和存储能力。三元语言模型更加如此。我不认为数据加倍会对NLP有多大的影响。我们已经处理了实体消岐和词意消岐等问题。我觉得更多的数据将帮助NLP的一个重要方面是:(1)说的人数较少的语言(祖鲁语言、斯瓦希里语),以及(2)建立大型知识集合,譬如DBpedia, YAGO和NELL。前者面临的主要技术挑战是语言本身的问题(语言的普遍性),后者面对的是哲学问题(如何概念化、如何表达和如何组织知识类)。
问:关于NLP深度学习问题。深度学习在目标识别和语音识别中取得了重大突破,人们期望在NLP得到类似的突破。人们将深度学习应用于统计机器翻译、句法分析器和情感分析并取得了一定进展,但是突破并不像人们预期的那么大。这背后的原因是什么呢?关于NLP的深度学习,你的建议是什么?
爱德华•霍威:我前面已经有所述及。我认为分布式语义/深度学习,或类似的方法,不仅仅对NLP,而且对人类认知都有很大的潜力。请注意,这里不仅仅是指狭义上的深度学习,而是只用一个向量或者张量来代替原来的一个符号这种思想。在对知识的研究中,一直存在着一个概念之间的脱节:逻辑、推理(二者需要一个正式表示系统来表示所讨论的概念)与它们的“意义”和外延,之间存在着脱节。外延多少在系统之外,通过外延模型与系统连接。使用embeddings各种类型的分布使得人们可以在计算机内部放入这种外延。表示符号不再通过一个本体或者元数据体系或自然语言来定义(这些东西都是有限的并且需要手工制定的),现在它们被定义为数字的向量或者张量,并经过自动学习,每一个向量和张量从系统中的其他成员那里获得。这是一个只有NLP才可以带给知识研究的根本性进步,它开辟了NLP,KR&R和认识论之间新的联络。人们已经在最近把语言和图像联系起来的研究中看到了这个拓展了的概念的威力。我觉得也许我们尚不真正知晓这一进展的重要性。
问:在数据挖掘、知识获取技术支持下,知识图谱组织人类的知识,支持搜索、QnA、聊天机器人等任务。许多公司如微软、谷歌、百度、搜狗,都开始了知识图谱的相关研究。我想请你与读者分享一下你的想法,谈谈知识图谱技术的现状、挑战和机遇,它对当前基于统计学习的NLP和人工智能的影响。
爱德华•霍威:这类的知识图谱,我认为将会变得越来越流行。这是一件好事。在某种意义上正是知识图谱使得语义互联网(semantic Web)成为现实,而不是今天语义互联网研究的样子。在语义互联网的研究中,工作重点局限于有限的几个方面。我觉得其主要原因是语义互联网的研究人员一般都不是NLP的专家,也不是KR&R的专家。知识图谱的主要挑战不是事实的获取,而是标准化问题、知识分类、内容的组织方式等。要考虑知识的更新,比如美国总统每隔4年或者8年要换新人,还有世界上国家列表也在变化。更新事实是一个未解的问题,但是如果解决不好将会毁灭知识图谱的研究。这些问题本质上是认识论的问题,更加需要知识表达的专家。
所以我认为现在是一个很好的机会,NLP和KR&R科研人员又开始密切合作,像他们以前在20世纪70年代那样。(其实有一些有名的学者从那时起开始就一直合作,像杰里•霍布斯和詹姆斯•艾伦。)
问:你对年轻学生和研究人员有什么建议吗?他们也许被这么多新的科技趋势搞糊涂了。他们渴望找到有前途的研究和创新的机会。
爱德华•霍威:我总是有建议!太多的建议了!我认为,(1)选择一个有希望的且可以持久的题目,不是一件容易的事情,它需要很多经验;(2)有许多题目现在很流行,但是,我看都比较肤浅,不太可能持续。怎么看清楚这两者的区别?我认为最好的办法是,你需要考虑你要解决的基本问题是什么,以及你正在进行研究的类型。如果基本的问题主要是方法(譬如“我要怎么做X?”或“做X什么是最好的算法?”),那么该领域就不深,仅仅是探索把新的方法应用到现有的数据集上,而不去考虑数据的质量和准确性。但如果基本的问题主要是关于概念(譬如,“问题X的结构是什么?”或者思考“表达X的最好的方式是什么?”),那么对这个领域就可以更深一些,持续时间会更长。一个明显的例子是情感检测,这是目前非常受欢迎的课题,而文本蕴涵就不那么热。对我来说,情感检测是一个相对而言比较简单的问题。它分配一个标签(正、负、混合等)给一个文本片段,并确定在该文本片段内哪个子片段对应于这个标签,就是确定问题的哪个方面。方法大多是匹配词和词的组合,虽然最近的一些工作已使用embeddings用于词的表达,并改进了效果,但是这些文章主要是对原有的匹配/聚类算法做了一些小的改动,没有讨论情感是什么,为什么人们有情感判断,如何解释一个人对情感的判定等问题。实际上,情感(sentiment)是什么,情绪(emotion)是什么,这两者经常混淆。为了加深对这方面的研究,我们应注意到有两个基本原因使得人们觉得什么是正面/可爱的:第一,要么判断的主题是什么可帮助(或阻碍)他们的目标,要么他们已经对不能解释的主题有了很深的情感倾向。例如,你喜欢手表,因为它便宜(与你省钱的目标相匹配),或者因为你只是喜欢蓝色,这是你喜欢的颜色。为此,许多新的问题出现了。哪些主题落入哪个类,需要哪种解释?对于这些基于目标的主题而言,如何才能发现一个目标?有多少与基本情感有关的目标?这类分析和探讨使得讨论逐渐远离纯粹的算法,逐渐关注概念。进入到问题最困难的部分,从而进行持续而深入的研究。
相比之下,蕴涵问题,它是基于推理的,几乎是未定义的。没有人知道如何解释到底一个好的蕴涵是什么,存在多少种类的蕴涵。可以肯定地说,空间蕴涵,因为靠近或远离别的东西,与社会蕴涵(人们社会上的联系)不一样。同样,与心理学或者时间的蕴涵也不相同。如果不对这些不同点进行研究,并获得相关的事实和语料库,蕴涵的研究注定只会停在狭窄的句法层次,以一个薄弱的方式,匹配有关的词汇和句法变换模式。今天NLP中,似乎没有人对蕴涵探究一些很难的问题,如果真有人这样做,那么我认为我们将看到一些深的,非常有趣的研究,而且将持续相当长的时间。
对学生而言,很难一开始就考虑大的方向。第一,学生没有多少经验,对过去的研究工作所知不多。看起来很简单的问题还没有好好解决,主要是问题太难了,要知道,以前的人们并不笨,要是容易,早就解决了。因此我们必须了解过去,加强读书。因果关系的问题就是这样的,它听起来很容易,“让我标注当一个事件引起另一个事件时”,有可能得到一些一致性弱的标注,但实际上解释因果关系是需要一个非常复杂的模型,研究生通常不能形成思路。第二,学生需要找一份工作,这意味着他需要出论文,你要是写一些不是工程或者技术导向的论文,也很难发表。事实上,我们现在太倾向于技术,虽然可以取得短期商业的成功,但我们的长期知识积累会有问题。
我建议学生寻找有一定深度的问题,寻找新的技术,要用不同于前人的角度看待问题。也要引入新的知识,从而争取对问题的求解带来一定的改进。要有开放精神和创造力,可以体现在技术方面也可以体现在知识方面。例如,你要是做情感检测,你可以选择一个目标,寻找各种问题表达方式,编程实现一个合适的分类器,最后争取发表一篇论文,声言自己开始回答情感分析的“为什么”之类的问题了。
幸运的是,人类的语言是一个非常复杂和开放的领域,它是免费使用的,我们有很多免费的语言数据,我们自己也每天在创造语言数据。我们只是受限于我们自己的创意,而不是别的什么东西。对于一个研究员而言,这确实是一个美妙的机会。
脚注:
1《危险边缘》是哥伦比亚广播公司益智问答游戏比赛节目。该比赛以问答形式进行,问题涉及到历史、文学、艺术、流行文化、科技、体育、地理、文字游戏等领域。根据出题线索,参赛者必须做出回答。与一般问答节目相反,《危险边缘》以答案形式提问、提问形式作答。
2LSTM最初是由Sepp Hochreiter和JurgenSchmidhuber于1997年为改进普通RNN (Recurrent Neural Network) 网络在训练中易于出现的梯度消失问题而提出的一种新型神经网络模型。LSTM网络具有和RNN网络类似的宏观结构,但微观上每个神经元都被替换成具有复杂内部结构的记忆单元(cell)。记忆单元依靠内部的输入门、输出门和遗忘门等机制来控制神经元内部的信息存储及其应用的条件。近来,这种模型已被成功地应用于学习自然语言中的长距离依存现象,在句法分析(Vinyals et al., 2015)和机器翻译(Sutskever et al., 2014)任务上取得了满意的效果。
周明
CCF高级会员、杰出演讲者。微软亚洲研究院首席研究员。主要研究方向为自然语言处理、机器翻译、文本挖掘、信息检索等。
来源:oschina
链接:https://my.oschina.net/u/1757911/blog/387060