attention

neural-attention-model-for-abstractive-sentence-summarization

送分小仙女□ 提交于 2019-12-18 11:26:34
A Neural Attention Model for Abstractive Sentence Summarization TLDR; The authors apply a neural seq2seq model to sentence summarization. The model uses an attention mechanism (soft alignment). Key Points Summaries generated on the sentence level, not paragraph level Summaries have fixed length output Beam search decoder Extractive tuning for scoring function to encourage the model to take words from the input sequence Training data: Headline + first sentence pair. 来源: CSDN 作者: DrogoZhang 链接: https://blog.csdn.net/weixin_40400177/article/details/103589081

Transformer解读

不想你离开。 提交于 2019-12-18 04:15:50
本文结合原理和源代码分析Google提出的Transformer机制 首先看一些Transformer的整体结构: inputs:[batch_size,maxlen] #maxlen表示source文本的最大长度 经过一次Embedding,首先根据隐藏节点的数目将inputs的维度变成[batch_size,maxlen,num_units] def embedding(lookup_table,inputs,num_units,scale=False,scope='embedding',reuse=None): """ 查询子词向量 :param lookup_table: :param inputs: :param num_units: :param scale: :param scope: :param reuse: :return: 词向量表示的输入 """ outputs = tf.nn.embedding_lookup(lookup_table, inputs) # 根据num_units对outputs进行缩放 if scale: outputs = outputs * (num_units ** 0.5) return outputs 接下来由于Transformer舍去了RNN或CNN的结构,也就失去了序列的位置信息,因此需要对输入进行位置编码,论文中 def

Relation Networks for Object Detection

这一生的挚爱 提交于 2019-12-17 15:09:27
转自: https://blog.csdn.net/u014380165/article/details/80779432 论文:Relation Networks for Object Detection 论文链接: https://arxiv.org/abs/1711.11575 代码链接: https://github.com/msracver/Relation-Networks-for-Object-Detection 这篇是 CVPR2018的oral 文章,通过引入object relation module来刻画object之间的关系,借助这样的attention来提升object detection的效果。 这篇文章的出发点在于目前大部分的目标检测(object detection)算法都是独立地检测图像中的object,但显然如果模型能学到object之间的关系显然对于检测效果提升会有帮助,因此这篇文章希望在检测过程中可以通过利用图像中object之间的相互关系或者叫图像内容(context)来优化检测效果, 这种关系既包括相对位置关系也包括图像特征关系 。显然,关于object的相对位置关系的利用是一个非常有意思的点,尤其是能够实现相对位置关系的attention非常不易,这也是这篇文章的吸引力。具体做法上借鉴了最近几年火热的attention机制

NLP预训练模型:从transformer到albert

北慕城南 提交于 2019-12-16 00:56:54
转载自:《NLP预训练模型:从transformer到albert》( https://zhuanlan.zhihu.com/p/85221503 ) 背景 语言模型是机器理解人类语言的途径,17年的transformer是语言模型摆脱rnn,lstm建模的一次尝试,后续的bert则是大力出奇迹的代表,用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。gpt在auto-regressive的路上一路走到黑,而xlnet将gpt和bert的优点结合在了一起,然后用更更大的数据吊打了bert。没过多久,bert的增强版roberta用更更更大的数据打败了xlnet。然而当bert的模型达到一定程度后,受到了硬件资源的限制,于是谷歌通过矩阵分解和参数共享压缩了bert的模型大小,因此当albert使用了和bert同样的参数量的时候,推理能力又上了一个台阶。正好最近这几个月也在研究语言模型,就把我对transformer等几个具有代表性的nlp模型的理解记录一下。 1. transformer 1.1 transformer的背景 17年之前,语言模型都是通过rnn,lstm来建模,这样虽然可以学习上下文之间的关系,但是无法并行化,给模型的训练和推理带来了困难,因此论文提出了一种完全基于attention来对语言建模的模型,叫做transformer

图像转换、风格迁移最全论文列表!一文get最新最全动态!

。_饼干妹妹 提交于 2019-12-15 02:57:05
Image-to-Image papers A collection of image-to-image papers. Papers are ordered in arXiv first version submitting time (if applicable). Feel free to send a PR or issue. TOC Supervised Unsupervised Unsupervised - General Unsupervised - Attention/Instance guided Unsupervised - Many-to-many (Attributes) Unsupervised - Disentangled (and/or Exemplar guided) To be classified Supervised Note Model Paper Conference paper link code link pix2pix Image-to-Image Translation with Conditional Adversarial Networks CVPR 2017 1611.07004 junyanz/pytorch-CycleGAN-and-pix2pix texture guided TextureGAN TextureGAN:

Attention机制实践解读

江枫思渺然 提交于 2019-12-12 04:59:33
Attention Model(注意力模型)学习总结 https://blog.csdn.net/mpk_no1/article/details/72862348 [深度概念]·Attention机制实践解读 https://blog.csdn.net/xiaosongshine/article/details/90573585 [深度应用]·Keras实现Self-Attention文本分类(机器如何读懂人心) https://blog.csdn.net/xiaosongshine/article/details/90600028 attention 一: class SelfAttention(tf.layers.Layer): def __init__ (self, hidden_size, num_heads, keep_prob): if hidden_size % num_heads != 0: raise ValueError("Hidden size must be evenly divisible by the number of " "heads.") super(SelfAttention, self).__init__() self.hidden_size = hidden_size self.num_heads = num_heads self.keep

“Attention is All You Need 翻译

醉酒当歌 提交于 2019-12-11 18:35:56
<p><img src="output_0_0.png" alt="png"></p> “Attention is All You Need”[1]一文中提出的Transformer网络结构最近引起了很多人的关注。Transformer不仅能够明显地提升翻译质量,还为许多NLP任务提供了新的结构。虽然原文写的很清楚,但实际上大家普遍反映很难正确地实现。 所以我们为此文章写了篇注解文档,并给出了一行行实现的Transformer的代码。本文档删除了原文的一些章节并进行了重新排序,并在整个文章中加入了相应的注解。此外,本文档以Jupyter notebook的形式完成,本身就是直接可以运行的代码实现,总共有400行库代码,在4个GPU上每秒可以处理27,000个tokens。 想要运行此工作,首先需要安装PyTorch[2]。这篇文档完整的notebook文件及依赖可在github[3]或 Google Colab[4]上找到。 需要注意的是,此注解文档和代码仅作为研究人员和开发者的入门版教程。这里提供的代码主要依赖OpenNMT[5]实现,想了解更多关于此模型的其他实现版本可以查看Tensor2Tensor[6] (tensorflow版本)和 Sockeye[7](mxnet版本)。 Alexander Rush (@harvardnlp[8] or srush@seas

【深度学习】 基于Keras的Attention机制代码实现及剖析——LSTM+Attention

你。 提交于 2019-12-11 12:11:32
说明 这是接前面 【深度学习】基于Keras的Attention机制代码实现及剖析——Dense+Attention 的后续。   参考的 代码来源1 : Attention mechanism Implementation for Keras. 网上大部分代码都源于此,直接使用时注意Keras版本,若版本不对应,在merge处会报错,解决办法为:导入Multiply层并将merge改为Multiply()。   参考的 代码来源2 : Attention Model(注意力模型)思想初探 ,这篇也是运行了一下来源1,做对照。 在实验之前需要一些预备知识,如RNN、LSTM的基本结构,和Attention的大致原理,快速获得这方面知识可看 RNN&Attention机制&LSTM 入门了解 。 实验目的 现实生活中有很多序列问题,对一个序列而言,其每个元素的“重要性”显然是不同的,即权重不同,这样一来就有使用Attention机制的空间,本次实验将在LSTM基础上实现Attention机制的运用。 检验Attention是否真的捕捉到了关键特征,即被Attention分配的关键特征的权重是否更高。 实验设计 问题设计:同Dense+Attention一样,我们也设计成二分类问题,给定特征和标签进行训练。 Attention聚焦测试:将特征的某一列与标签值设置成相同

信息抽取——关系抽取(一)

生来就可爱ヽ(ⅴ<●) 提交于 2019-12-11 00:40:41
目录 简介 关于关系抽取 Pipline模型 Model 1: Relation Classification via Convolutional Deep Neural Network Model 2: Relation Extraction: Perspective from Convolutional Neural Networks Model 3: Classifying Relations by Ranking with Convolutional Neural Networks Model 4: Bidirectional Long Short-Term Memory Networks for Relation Classification Model 5: Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification Model 6: Relation Classification via Multi-Level Attention CNNs Model 7: Bidirectional Recurrent Convolutional Neural Network for Relation Classification 简介 信息抽取

深度剖析知识增强语义表示模型——ERNIE

╄→гoц情女王★ 提交于 2019-12-10 13:57:14
文章目录 什么是语义表示 静态词向量 动态词向量(上下文词向量) 位置编码 ERNIE的原理介绍 神经网络上的改造 辅助任务 学习过程 ERNIE的应用案例 性能不敏感的场景:直接使用 ERNIE 的模型蒸馏案例:搜索问答Query识别和QP匹配 离线推荐 无监督文本的深度神经网络的出现,nlp领域又火了起来,深度神经网络大大提升了nlp任务的效果。虽然早期的网络也是基于上下文进行的向量建模,但是由于单向信息流的弊端,效果上始终难以大幅度提升。Transformer中的多层self-attention的出现,推进了深度网络的发展。Google提出的BERT模型,通过掩盖的term,利用多层的self-attention的双向建模能力,横扫了NLP比赛的各大排行榜。 前文介绍了bert,想详细了解Bert请参见 一步步理解bert 什么是语义表示 ERNIE是一个语言理解模型,最大的优点就是特别好的理解人类的语言。文字其实是概念背后的符号,更重要的其实是概念的本身。词语是具有语义的,怎么正确表示语义呢?语义的特点是什么?语义上比较近的词语真正的距离也是比较接近的,怎么对这部分进行表达,就是词向量,词向量每个词背后对应的是一个高维的向量,所以他们之间的距离是可以度量的。 静态词向量 如图中所示:将文本信息映射到数字空间,变成数字表示的向量,在这种表示上,保留了词语间的距离信息