attention

实战级Stand-Alone Self-Attention in CV,快加入到你的trick包吧 | NeurIPS 2019

生来就可爱ヽ(ⅴ<●) 提交于 2020-04-07 15:05:34
> 论文提出stand-alone self-attention layer,并且构建了full attention model,验证了content-based的相互关系能够作为视觉模型特征提取的主要基底。在图像分类和目标检测实验中,相对于传统的卷积模型,在准确率差不多的情况下,能够大幅减少参数量和计算量,论文的工作有很大的参考意义   来源:【晓飞的算法工程笔记】 公众号 论文: Stand-Alone Self-Attention in Vision Models 论文地址: https://arxiv.org/abs/1906.05909 Introduction   目前卷积网络的设计是提高图像任务性能的关键,而卷积操作由于平移不变性使其成为了图像分析的主力。受限于感受域的大小设定,卷积很难获取长距离的像素关系,而在序列模型中,已经能很好地用attention来解决这个问题。目前,attention模块已经开始应用于传统卷积网络中,比如channel-based的attention机制 Squeeze-Excite和spatially-aware的attention机制Non-local Network等。这些工作都是将global attention layers作为插件加入到目前的卷积模块中,这种全局形式考虑输入的所有空间位置,当输入很小时,由于网络需要进行大幅下采样

ICLR 2020 | 抛开卷积,multi-head self-attention能够表达任何卷积操作

感情迁移 提交于 2020-04-06 18:07:33
> 近年来很多研究将nlp中的attention机制融入到视觉的研究中,得到很不错的结果,于是,论文侧重于从理论和实验去验证self-attention可以代替卷积网络独立进行类似卷积的操作,给self-attention在图像领域的应用奠定基础 论文: On the Relationship between Self-Attention and Convolutional Layers 论文地址: https://arxiv.org/abs/1911.03584 论文代码: https://github.com/epfml/attention-cnn Introduction   transformer的提出对NLP领域的研究有很大的促进作用,得益于attention机制,特别是self-attention,会考虑词间的相似性,对当前词进行加权输出。受到词间关系学习的启发,self-attention也开始用于视觉任务中,但大都是attention和convonlution的结合。Ramachandran在19年的研究中,用full attention model达到了resnet baseline的精度,模型参数和计算量相比卷积网络减轻了不少   因此,论文主要研究self-attention layer在图片处理上是否能达到convolutional layer的效果

Abstractive Summarization

你离开我真会死。 提交于 2020-04-02 21:54:14
Sequence-to-sequence Framework A Neural Attention Model for Abstractive Sentence Summarization Alexander M. Rush et al., Facebook AI Research/Harvard EMNLP2015 sentence level seq2seq模型在2014年提出,这篇论文是将seq2seq模型应用在abstractive summarization任务上比较早期的论文。同组的人还发表了一篇NAACL2016(Sumit Chopra, Facebook AI Research_Abstractive sentence summarization with attentive recurrent neural networks)(作者都差不多),在这篇的基础上做了更多的改进,效果也更好。这两篇都是在abstractive summarization任务上使用seq2seq模型的经典baseline。 目标函数是negative log likelihood,使用mini-batch SGD优化 本文提出了3种encoder,重点在于Attention-based encoder bag-of-words encoder Conv encoder:

Attention Model详解

馋奶兔 提交于 2020-03-21 15:37:39
  要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时会简称AM模型)这个词。AM模型应该说是过去一年来NLP领域中的重要进展之一,在很多场景被证明有效。听起来AM很高大上,其实它的基本思想是相当直观简洁的。   AM 引言:   引用网上通俗的解释,首先,请您睁开眼并确认自己处于意识清醒状态;第二步,请找到本文最近出现的一个“Attention Model”字眼(就是“字眼”前面的两个英文单词,…)并盯住看三秒钟。好,假设此刻时间停止,在这三秒钟你眼中和脑中看到的是什么?对了,就是“Attention Model”这两个词,但是你应该意识到,其实你眼中是有除了这两个单词外的整个一副画面的,但是在你盯着看的这三秒钟,时间静止,万物无息,仿佛这个世界只有我和你…..对不起,串景了,仿佛这个世界只有“Attention Model”这两个单词。这是什么?这就是人脑的注意力模型,就是说你看到了整幅画面,但在特定的时刻t,你的意识和注意力的焦点是集中在画面中的某一个部分上,其它部分虽然还在你的眼中,但是你分配给它们的注意力资源是很少的。其实,只要你睁着眼,注意力模型就无时不刻在你身上发挥作用,比如你过马路,其实你的注意力会被更多地分配给红绿灯和来往的车辆上,虽然此时你看到了整个世界;比如你很精心地偶遇到了你心仪的异性

Low-light images enhancement/暗光/低光/微光增强系列:Attention-guided Low-light Image Enhancement(详解)

≡放荡痞女 提交于 2020-03-17 08:01:23
以下文字为博主翻译并添加了自己的理解, 斜体 为博主自己的想法,若有出错请指出。 摘要 暗光图像增强需要同时有效地处理颜色、亮度、对比度、伪影和噪声等多种因素。本文提出了一种新颖的注意力引导增强方案,并在此基础上构建了 端到端多分支(multi-branches) CNN。该方法的关键是计算两个 注意力 图来分别指导曝光增强和去噪任务。第一个注意力图区分曝光不足的区域和光照较好的区域,而第二个注意力图区分噪音和真实纹理。本论文的方法还能增强暗光图像缺失的对比度。论文还提出了一种创建暗光增强的大数据集。 Introduction 暗光图像质量退化严重,相比正常曝光图像,丢失了许多细节,颜色失真,同时拥有非常多的噪点,对于现实中的高级视觉任务性能有严重影响。基于HE(直方图均衡)的方法和基于RETINEX的传统方法都不能很好地解决暗光增强的问题,而且这些方法常常忽视 去噪 。 在之前的研究中,有先去噪,再增强的流程;也有先增强,再去噪的流程。但是前者导致图像变得模糊,后者会放大噪点。而本文的方法,将增强和去噪同时进行,能够有效地避免以上问题。 本文最主要的贡献列为三点: 设计了注意力图为引导的双向增强网络,拥有多分支结构,可以同时进行去噪和增强 设计了一套高质量的暗光图像训练流程,创建了一个大规模的成对暗光图像(合成)数据集,有助于其他研究者进行研究 研究成果表明,方法达到了SOTA

multi-head attention

时光毁灭记忆、已成空白 提交于 2020-03-13 00:17:39
■ 论文 | Attention Is All You Need ■ 链接 | https://www.paperweekly.site/papers/224 ■ 源码 | https://github.com/Kyubyong/transformer ■ 论文 | Weighted Transformer Network for Machine Translation ■ 链接 | https://www.paperweekly.site/papers/2013 ■ 源码 | https://github.com/JayParks/transformer 思想:舍弃 RNN,只用注意力模型来进行序列的建模 新型的网络结构: Transformer,里面所包含的注意力机制称之为 self-attention。这套 Transformer 是能够计算 input 和 output 的 representation 而不借助 RNN 的的 model,所以作者说有 attention 就够了。 模型:同样包含 encoder 和 decoder 两个 stage,encoder 和 decoder 都是抛弃 RNN,而是用堆叠起来的 self-attention,和 fully-connected layer 来完成,模型的架构如下: 模型共包含三个 attention 成分,分别是

Multi-head attention with DR

好久不见. 提交于 2020-03-10 06:55:45
注意力机制的核心部分是通过计算 K K K (键)序列与 q q q (查询)的相关性,来得到注意力权重a(通过一定的映射关系 f f f ): a = f ( q . K ) a=f(q.K) a = f ( q . K ) 。具体来说, A t t e n t i o n ( Q , K , V ) Attention(Q, K, V) A t t e n t i o n ( Q , K , V ) 函数在输入矩阵 Q、K 和 V 的情况下可计算 Query 序列与 Value 序列之间的注意力关系。其中 Q 的维度为 n × d k n×d_k n × d k ​ ,表示有 n n n 条维度为 d k d_k d k ​ 的 Query、 K K K 的维度为 m × d k m×d_k m × d k ​ 、 V V V 的维度为 m × d v m×d_v m × d v ​ 。这三个矩阵的乘积可得出 n × d v n×d_v n × d v ​ 维的矩阵,它表示 有 n n n 条 Query 对应注意到的 Value 向量 在实际论文的表述里或者开展的实验中, K K K 是词嵌入向量或模型的隐藏层状态向量 h t h_t h t ​ ; q q q 是计算注意力分配多少的参考(reference)。本质上就是通过多次 Q K QK Q K 得到多个权重 a i

Attention

六月ゝ 毕业季﹏ 提交于 2020-03-05 10:53:49
1. CBAM Convolutional Block Attention Module (CBAM) 表示卷积模块的注意力机制模块。是一种结合了空间(spatial)和通道(channel)的注意力机制模块。 2. Channel Attention Module 我们知道一张图片经过几个卷积层会得到一个特征矩阵,这个矩阵的通道数就是卷积核的个数。那么,一个常见的卷积核经常达到1024,2048个,并不是每个通道都对于信息传递非常有用了的。因此,通过对这些通道进行过滤,也就是注意,来得到优化后的特征. 主要思路就是: 增大有效通道权重,减少无效通道的权重 M c ( F ) = σ ( M L P ( A v g P o o l ( F ) ) + M L P ( M a x P o o l ( F ) ) ) = σ ( W 1 ( W 0 ( F a v g c ) ) + W 1 ( W 0 ( F m a x c ) ) ) \begin{aligned} \Large M_c(F)=& \Large\sigma(MLP(AvgPool(F))+MLP(MaxPool(F))) \\ \\ =&\Large\sigma (W_1(W_0(F_{avg}^c))+W_1(W_0(F_{max}^c))) \end{aligned} M c ​ ( F ) = = ​ σ (

学习笔记-Transformer中注意力机制

不羁岁月 提交于 2020-03-04 05:50:05
文章目录 transformer框架 相关链接 transformer框架 之前对《Attention is all your need》中的框架结构一直不理解,读了很多相关的介绍也是迷迷糊糊的。今天又理了一遍相关的知识点,主要是各个涉及了注意力机制部分的 Q,K,V ,又看了一部分相关的TensorFlow实现代码,感觉比之前稍微清楚了一些。 相关链接 谷歌官方的一份代码 models/mtf_transformer.py/_layer_stack函数 ,里面有 Self-attention , Encoder-Decoder attention , Local attention , Compressed attention 几种。但是核心部分都被封装起来了,需要安装 mesh-tensorflow ,查看相关的函数 import mesh - tensorflow as mtf # Self attention layer y , new_k , new_v = mtf . layers . multihead_self_attention_incremental ( some_argvs ) # Encoder-Decoder attention layer y , new_k , new_v = mtf . layers . multihead_encdec

bert入门资料

风格不统一 提交于 2020-02-28 08:15:21
transformer: Attention Is All You Need讲解 参考ppt: http://www.isclab.org.cn/wp-content/uploads/2018/12/Transformer%E4%B8%AD%E7%9A%84Multi-Head-Attention-%E7%8E%8B%E7%9D%BF%E6%80%A1-2018.12.9-19_00_00.pdf 参考知乎: https://zhuanlan.zhihu.com/p/46990010 bert入门 参考: https://zhuanlan.zhihu.com/p/49271699 https://zhuanlan.zhihu.com/p/48612853 用bert做抽取式摘要 参考: https://zhuanlan.zhihu.com/p/74150102 来源: https://www.cnblogs.com/IcarusYu/p/11519204.html