rouge

NLP生成任务痛点!58页generation评价综述

主宰稳场 提交于 2021-01-04 09:34:34
作者单位:微软,华盛顿大学 (jianfeng gao等人) 论文 Evaluation of Text Generation: A Survey 注:文末附【深度学习与自然语言处理】交流群 NLP领域的生成问题一直就是一个非常火的topic,衍生出了各种细化的问题,如摘要,对话生成,标题生成,代码生成等,任何一个都是一堆研究者关注的问题,但是评价始终是阻挠该方向真正突破的痛点。到底是BLEU好,还是ROUGE好,到最后还是不如人工评价好,难顶啊! jianfeng gao等人对生成评价问题做了一个58页的详细综述,对这个问题的发展进程,未来趋势做了详细的看法,对这个方向感兴趣的可以了解,这个方向是一个可以出Best paper的方向,奥利给! 机器学习算法-自然语言处理交流群 已建立机器学习算-自然语言处理微信交流群!想要进交流群进行学习的同学,可以直接加我的微信号: HIT_NLP 。加的时候备注一下: 知乎+学校+昵称 (不加备注不会接受同意,望谅解) ,即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学,交流氛围非常好。 推荐阅读 机器学习画图模板ML Visuals更新 谷歌最新28页高效 Transformer 模型综述 Papers with Code 2020 全年回顾 最新14页《图神经网络可解释性》综述论文 陶大程等人编写!最新41页深度学习理论综述

BERT生成文本摘要

喜你入骨 提交于 2020-08-14 13:28:48
作者|Daulet Nurmanbetov 编译|VK 来源|Towards Data Science 你有没有曾经需要把一份冗长的文件归纳成摘要?或者为一份文件提供一份摘要?如你所知,这个过程对我们人类来说是乏味而缓慢的——我们需要阅读整个文档,然后专注于重要的句子,最后,将句子重新写成一个连贯的摘要。 这就是自动摘要可以帮助我们的地方。机器学习在总结方面取得了长足的进步,但仍有很大的发展空间。通常,机器摘要分为两种类型 摘要提取:如果重要句子出现在原始文件中,提取它。 总结摘要:总结文件中包含的重要观点或事实,不要重复文章里的话。这是我们在被要求总结一份文件时通常会想到的。 我想向你展示最近的一些结果,用BERT_Sum_Abs总结摘要,Yang Liu和Mirella Lapata的工作Text Summarization with Pretrained Encoders: https://arxiv.org/pdf/1908.08345.pdf BERT总结摘要的性能 摘要旨在将文档压缩成较短的版本,同时保留其大部分含义。总结摘要任务需要语言生成能力来创建包含源文档中没有的新单词和短语的摘要。摘要抽取通常被定义为一个二值分类任务,其标签指示摘要中是否应该包含一个文本范围(通常是一个句子)。 下面是BERT_Sum_Abs如何处理标准摘要数据集:CNN和Daily Mail

肝了1W字!文本生成评价指标的进化与推翻

孤者浪人 提交于 2020-08-11 07:44:12
     本文首发于知乎 https://zhuanlan.zhihu.com/p/144182853   作者 | 林镇坤   编辑 | 丛 末    1    前言   文本生成目前的一大瓶颈是如何客观,准确的评价机器生成文本的质量。一个好的评价指标(或者设置合理的损失函数)不仅能够高效的指导模型拟合数据分布,还能够客观的让人评估文本生成模型的质量,从而进一步推动text generation 商业化能力。   然而由于语言天生的复杂性和目前技术限制,我们目前还没有一个完美的评价指标。   本文就三方面对文本生成的评价指标介绍:   介绍了以BLEU为代表的基于统计的文本评价指标   就 data to text 和 image caption 进一步介绍了其特有的评价模式   基于BERT等预训练模型的文本评价指标    2    基于词重叠率的方法    1、机器翻译 & 摘要 常用指标   基于词重叠率的方法是指基于词汇的级别计算模型的生成文本和人工的参考文本之间的相似性,比较经典的代表有BLEU、METEOR和ROUGE,其中BLEU和METEOR常用于机器翻译任务,ROUGE常用于自动文本摘要。    1)BLEU   BLEU (Bilingual Evaluation Understudy,双语评估辅助工具)可以说是所有评价指标的鼻祖

BERT生成文本摘要

孤者浪人 提交于 2020-07-24 07:21:40
作者|Daulet Nurmanbetov 编译|VK 来源|Towards Data Science 你有没有曾经需要把一份冗长的文件归纳成摘要?或者为一份文件提供一份摘要?如你所知,这个过程对我们人类来说是乏味而缓慢的——我们需要阅读整个文档,然后专注于重要的句子,最后,将句子重新写成一个连贯的摘要。 这就是自动摘要可以帮助我们的地方。机器学习在总结方面取得了长足的进步,但仍有很大的发展空间。通常,机器摘要分为两种类型 摘要提取:如果重要句子出现在原始文件中,提取它。 总结摘要:总结文件中包含的重要观点或事实,不要重复文章里的话。这是我们在被要求总结一份文件时通常会想到的。 我想向你展示最近的一些结果,用BERT_Sum_Abs总结摘要,Yang Liu和Mirella Lapata的工作Text Summarization with Pretrained Encoders: https://arxiv.org/pdf/1908.08345.pdf BERT总结摘要的性能 摘要旨在将文档压缩成较短的版本,同时保留其大部分含义。总结摘要任务需要语言生成能力来创建包含源文档中没有的新单词和短语的摘要。摘要抽取通常被定义为一个二值分类任务,其标签指示摘要中是否应该包含一个文本范围(通常是一个句子)。 下面是BERT_Sum_Abs如何处理标准摘要数据集:CNN和Daily Mail

Jekyll/Rouge - highlighted code blocks nested

佐手、 提交于 2020-05-12 08:52:31
问题 I have switched from github pages to hosting my own site. As a result of this migration I got the syntax highlighting blocs to be nested. <div class="highlighter-rouge"> <div class="highlight"> <pre class="highlight"> <code> ... ... ... </code> </pre> </div> </div> When rendered it looks like: The style related settings in _config.yml are: kramdown: syntax_highlighter: rouge sass: style: :expanded Setting syntax_highlighter: none removes the highlighting related classes (this is just to give

常见的32项NLP任务以及对应的评测数据、评测指标、目前的SOTA结果以及对应的Paper

浪尽此生 提交于 2020-05-08 14:30:47
任务 描述 corpus/dataset 评价指标 SOTA 结果 Papers Chunking 组块分析 Penn Treebank F1 95.77 A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks Common sense reasoning 常识推理 Event2Mind cross-entropy 4.22 Event2Mind: Commonsense Inference on Events, Intents, and Reactions Parsing 句法分析 Penn Treebank F1 95.13 Constituency Parsing with a Self-Attentive Encoder Coreference resolution 指代消解 CoNLL 2012 average F1 73 Higher-order Coreference Resolution with Coarse-to-fine Inference Dependency parsing 依存句法分析 Penn Treebank POS UAS LAS 97.3 95.44 93.76 Deep Biaffine Attention for Neural Dependency

机器阅读理解综述Neural Machine Reading Comprehension Methods and Trends(略读笔记)

回眸只為那壹抹淺笑 提交于 2020-04-27 18:24:48
标题:Neural Machine Reading Comprehension: Methods and Trends 作者:Shanshan Liu, Xin Zhang, Sheng Zhang, Hui Wang, Weiming Zhang 链接:https://arxiv.org/pdf/1907.01118.pdf 摘要: 过去几年里,随着深度学习的出现, 机器阅读理解 (其要求机器基于给定的上下文回答问题)已经赢得了越来越广泛的关注。虽然基于深度学习的机器阅读理解研究正蓬勃发展,但却没有综合性调研文章来总结该领域已经提出的方法和近期发展趋势。所以,本文对这一充满潜力的领域中的近期研究工作进行了全面概述。 具体来说,研究者首先对比了不同维度下的机器阅读理解任务,并介绍了总体架构。接着,他们又进一步对该领域常用模型中使用的 SOTA 方法进行分类。最后,研究者讨论了该领域新的发展趋势,并在文章结尾提出一些未决问题。 推荐: 国防科技大学的这篇文章全面介绍了机器阅读理解研究的现状、发展和新趋势,是该领域内少有的综述类文章。机器阅读理解在机器问答、信息搜索等方面的具有重要意义,推荐有兴趣的读者阅读本文。 文章结构: 1.介绍MRC 2.任务和评估矩阵 MRC可以分成四个任务: 对应的数据集 loze Test, 完形填空 CNN & Daily Mail,CBT (The

Redis持久化机制

淺唱寂寞╮ 提交于 2020-04-13 13:46:58
【今日推荐】:为什么一到面试就懵逼!>>> 博客地址: https://tech101.cn/2020/03/05/Redis%E6%8C%81%E4%B9%85%E5%8C%96%E6%9C%BA%E5%88%B6 前言 Redis是一款纯C语言编写的符合ANSI C标准实现的内存数据库。Redis以支持丰富的内存数据结构和高性能著称,在互联网行业中被广泛用于缓存数据和内存计算。 虽然Redis是一款内存数据库,但是它也提供了数据持久化的能力。本文,我们就来聊聊Redis的数据持久化机制。 持久化面临的问题 在正式开始介绍Redis持久化功能之前,我们先来看下实现持久化能力需要面临的一些技术问题。 当客户端请求Redis服务端将数据写入Redis数据库的时候,数据将被存放在内存中。如果Redis数据库启用了持久化功能,那么数据将被持久化到持久化设备(磁盘)上。从客户端请求服务端写入数据到数据被持久化到磁盘上,整个过程需要经历如下几个阶段 1 : 客户端向服务端发起写命令。 服务端接收到客户端请求,执行写命令将数据写入内存。 服务端调用 write() 系统调用(Unix环境)将内存中的数据写入内核缓冲区。 调用 fsync() 将内核缓冲区的数据写入磁盘控制器的缓存中。 磁盘控制器将缓存中的数据写入到磁盘的物理介质上。 在上面列出的5个步骤中,第1步到第3步数据都在内存中存放

Redis持久化机制

徘徊边缘 提交于 2020-04-13 13:42:24
【今日推荐】:为什么一到面试就懵逼!>>> 博客地址: https://tech101.cn/2020/03/05/Redis%E6%8C%81%E4%B9%85%E5%8C%96%E6%9C%BA%E5%88%B6 前言 Redis是一款纯C语言编写的符合ANSI C标准实现的内存数据库。Redis以支持丰富的内存数据结构和高性能著称,在互联网行业中被广泛用于缓存数据和内存计算。 虽然Redis是一款内存数据库,但是它也提供了数据持久化的能力。本文,我们就来聊聊Redis的数据持久化机制。 持久化面临的问题 在正式开始介绍Redis持久化功能之前,我们先来看下实现持久化能力需要面临的一些技术问题。 当客户端请求Redis服务端将数据写入Redis数据库的时候,数据将被存放在内存中。如果Redis数据库启用了持久化功能,那么数据将被持久化到持久化设备(磁盘)上。从客户端请求服务端写入数据到数据被持久化到磁盘上,整个过程需要经历如下几个阶段 1 : 客户端向服务端发起写命令。 服务端接收到客户端请求,执行写命令将数据写入内存。 服务端调用 write() 系统调用(Unix环境)将内存中的数据写入内核缓冲区。 调用 fsync() 将内核缓冲区的数据写入磁盘控制器的缓存中。 磁盘控制器将缓存中的数据写入到磁盘的物理介质上。 在上面列出的5个步骤中,第1步到第3步数据都在内存中存放

git免密push方法

半城伤御伤魂 提交于 2020-04-10 09:10:28
方法1 -- ssh方式 借助ssh协议,第一次输入后,以后均不需要输入。应该内置了ssh-copy-id功能。 方法2 -- HTTPS方式 https://beginor.github.io/2014/03/04/git-client-save-user-pass.html Git 每次进行 Pull 和 Push 操作时都要输入用户名和密码, 非常不便。 虽然有客户端 SmartGit/HG 以及 TortiseGig 可以帮你记一下客户端, 但是每个代码库都要记录一次, 如果项目包含很多个 submodule 的话, 用起来也有些不方便。 经过一番搜索, 最终找到了让 git 客户端记住密码的方法, 现总结如下: Linux/Unix/Mac 系统 新建一个 ~/.netrc 文件, 将 git 服务器, 用户名以及密码记录在这个文件, 如下所示: machine your-git-server login your-username password your-password 如果有多个 server 就重复上面的三行, 分别输入对应的服务器、 用户名和密码即可; ~ 表示用户主目录, 如果你的用户名是 zhang , 那么 ~ 对应的目录是 /Users/zhang 。 https://comeandtechit.wordpress.com/2016/10/18