attention

【CV中的Attention机制】融合Non-Local和SENet的GCNet

断了今生、忘了曾经 提交于 2020-01-16 10:49:03
前言: 之前已经介绍过SENet和Non Local Neural Network(NLNet),两者都是有效的注意力模块。作者发现NLNet中attention maps在不同位置的响应几乎一致,并结合SENet后,提出了Global Context block,用于全局上下文建模,在主流的benchmarks中的结果优于SENet和NLNet。 GCNet论文名称为:《 GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond 》,是由清华大学提出的一个注意力模型,与SE block、Non Local block类似,提出了GC block。为了克服NL block计算量过大的缺点,提出了一个Simplified NL block,由于其与SE block结构的相似性,于是在其基础上结合SE改进得到GC block。 SENet中提出的SE block是使用全局上下文对不同通道进行 权值重标定 ,对通道依赖进行调整。但是采用这种方法,并没有充分利用全局上下文信息。 捕获长距离依赖关系 的目标是对视觉场景进行全局理解,对很多计算机视觉任务都有效,比如图片分类、视频分类、目标检测、语义分割等。而NLNet就是通过 自注意力机制 来对长距离依赖关系进行建模。 作者对NLNet进行试验

2019 Interspeech speech emotoin recognition paper reading

瘦欲@ 提交于 2020-01-12 07:45:30
2019 Interspeech 1. Improved End-to-End Speech Emotion Recognition Using Self Attention Mechanism and Multitask Learning 实验 2. Self-attention for Speech Emotion Recognition 实验 3. Deep Learning of Segment-Level Feature Representation with Multiple Instance Learning for Utterance-Level Speech Emotion Recognition 实验 1. Improved End-to-End Speech Emotion Recognition Using Self Attention Mechanism and Multitask Learning 东京大学 端到端多任务学习with self attention,辅助任务是gender。 首先从语谱图提取特征speech spectrogram,而不是用手工特征。然后CNN-BLSTM E2E网络。随后用self attention mechanism聚焦到情感 salient periods。最后考虑到emotion and gender

Expectation-Maximization Attention Networks for Semantic Segmentation(EMANet ICCV2019语义分割)

断了今生、忘了曾经 提交于 2020-01-04 11:23:18
自注意力机制对每个位置的加权和来计算某个位置的表现。但是其参数量太大,计算资源要求较高。 1、简介 提出了EMA模块,该方法可以大大的减少计算量。而且该模块是轻量化的,可以很方便的嵌入到现有的网络中。 自注意力机制中一个点的上下文信息是通过来计算其他点与其的加权和来进行的。 nonlocal第一次将自注意力机制引入到计算机视觉任务中。 来源: CSDN 作者: 叱咤风云666 链接: https://blog.csdn.net/qq_20777119/article/details/103830778

Attention[Content]

↘锁芯ラ 提交于 2019-12-29 14:36:06
0. 引言 神经网络中的注意机制就是参考人类的视觉注意机制原理。即人眼在聚焦视野区域中某个小区域时,会投入更多的注意力到这个区域,即以“高分辨率”聚焦于图像的某个区域,同时以“低分辨率”感知周围图像,然后随着时间的推移调整焦点。 参考文献: [ arxiv ] - . attention search [ CV ] - Mnih V, Heess N, Graves A. Recurrent models of visual attention [J]. arXiv preprint arXiv:1406.6247, 2014. [ Bahdanau ] - Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate [J]. arXiv preprint arXiv:1409.0473, 2014. [ CV ] - Ba J, Mnih V, Kavukcuoglu K. Multiple object recognition with visual attention [J]. arXiv preprint arXiv:1412.7755, 2014. [ CV ] - Xu K, Ba J, Kiros R, et al. Show,

Bert (Bi-directional Encoder Representations from Transformers) Pytorch 源码解读(一)

我们两清 提交于 2019-12-28 05:42:33
前言 Bert (Bi-directional Encoder Representations from Transfromers) 预训练语言模型可谓是2018年 NLP 领域最耀眼的模型,看过很多对 Bert 论文和原理解读的文章,但是对 Bert 源码进行解读的文章较少, 这篇博客 有一份 TensorFlow 版本的 Bert 源码解读,这里来对 Pytorch 版本的 Bert 源码记录一份 “详细” 注释。 这份基于 Pytorch 的 Bert 源码由 Espresso大神提供,地址在这 https://github.com/aespresso/a_journey_into_math_of_ml ,大家也可以在 Espresso大神 的 B站 观看他的视频,讲得非常不错。 今天记录的这一部分是 bert_model.py 文件,主要实现了 bert 的预训练模型搭建部分。 开始 1. 定义激活函数 def gelu(x): """Implementation of the gelu activation function. For information: OpenAI GPT's gelu is slightly different (and gives slightly different results): 0.5 * x * (1 + torch.tanh

NLP系列(7)_Transformer详解

这一生的挚爱 提交于 2019-12-27 16:31:12
Ref https://jalammar.github.io/illustrated-transformer/ , https://blog.csdn.net/han_xiaoyang/article/details/86560459 编者按:前一段时间谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。在本文中,我们将研究Transformer模型,把它掰开揉碎,理解它的工作原理。 正文: Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本,并注释该论文。 在本文中,我们将试图把模型简化一点,并逐一介绍里面的核心概念,希望让普通读者也能轻易理解。 Attention is All

Decoupled Attention Network for Text Recognition——论文解读

一世执手 提交于 2019-12-26 23:09:14
摘要: 文字识别方法在不规则文本识别上,多采用attention的方式,但是采用自回归模型的attention容易存在attention对齐的问题。文章提出了一个 a decoupled attention network (DAN)网络。其主要由:1.特征采集器;2.一个卷积对齐模块,根据编码器的输出进行特征对齐;3.一种解耦的文本解码器,通过联合使用特征图和注意图进行最终预测 介绍 attention在文字识别中一般是用于特征对齐和文字识别(最后的分类部分),传统的attention一般利用两部分的信息。1. encoder输出的视觉编码特征,2. 历史解码信息/或者先前解码结果的嵌入向量。注意力机制背后的主要思想是匹配。 给定特征映射中的一个特征,其注意评分是通过评分它与历史解码信息的匹配程度来计算的 传统的注意机制经常遇到严重的对准问题,同时由于解码过程中的耦合关系不可避免地导致误差积累和传播。 解码结果容易影响基于匹配的比对。在左侧图像中,两个**连续的“ly”**混淆了匹配操作;在右边的图像中, 错误识别的结果 “混淆了匹配操作”。还观察到注意机制很难排列长序列。因此,找到一种将比对操作与历史解码信息解耦的方法是很直观的减少负面影响。 DAN不需要解码阶段的反馈从而避免了解码误差的积累和传播(相当于不需要前面解码结果的嵌入向量作为输入) DAN由三部分组成:1.CNN

Progressive Self-Supervised Attention Learning forAspect-Level Sentiment Analysis论文阅读

你。 提交于 2019-12-23 03:07:08
Progressive Self-Supervised Attention Learning forAspect-Level Sentiment Analysis翻译及理解 1.本文针对神经网络在学习过程中存在的强模式过学习和弱模式欠学习的问题,提出了渐进自监督注意力机制算法,有效缓解了上述问题。主要基于擦除的思想,使得模型能够渐进的挖掘文本中需要关注的信息,并平衡强模式和弱模式的学习程度。在基于方面层次的情感分析三个公开数据集和两个经典的基础模型上测试表明,所提出的方法取得了不错的性能表现。 2.在方面层次的情感分类任务中,经典方法为使用注意力机制来捕获上下文文本中与给定方面最为相关的信息。然而,注意力机制容易过多的关注数据中少部分有强烈情感极性的高频词汇,而忽略那些频率较低的词。 摘要 在方面级别的情感分类(ASC)中,普遍的做法是为优势神经模型配备注意机制,以便获得给定方面每个上下文词的重要性。 但是,这种机制倾向于过分关注少数带有情感极性的频繁单词,而忽略了很少出现的单词。 本文提出了一种针对神经ASC模型的渐进式自我监督注意学习方法,该方法会自动从训练语料库中挖掘有用的注意监督信息,以细化注意机制。特别是,我们对所有训练实例进行 迭代的情感预测 。 将具有最大注意力权重的上下文单词提取为对每个实例的正确/不正确预测具有积极/误导性影响的上下文单词

transformer整理

会有一股神秘感。 提交于 2019-12-21 02:32:03
介绍 Transformer 是一种基于 encoder-decoder 结构的模型,模型结构如下图所示,在encoder中主要有Multi-Headed Attention和前馈神经网络层组成,decoder 中主要有Multi-Headed Attention、前馈神经网络层和Masked Multi-Headed Attention组成。 在 Encoder 中, Input 经过 embedding 后,要做 positional encodings 经过Multi-head attention 再经过 position-wise Feed Forward 每个子层之间有残差连接 在 Decoder 中, 如上图所示,也有 positional encodings,Multi-head attention 和 FFN,子层之间也要做残差连接,但比 encoder 多了一个 Masked Multi-head attention,最后要经过 Linear 和 softmax 输出概率。 Positional Encoding Positional Encoding 是一种考虑输入序列中单词顺序的方法。 encoder 为每个输入 embedding 添加了一个向量,这些向量符合一种特定模式,可以确定每个单词的位置,或者序列中不同单词之间的距离。计算方式如下: 其中 p o s

Pytorch_Seq2Seq与Attention

别来无恙 提交于 2019-12-19 07:33:26
自然语言处理是典型的序列问题,其底层算法在最近几年迅速发展,比如去年年底发布的BERT在11项自然语言处理任务中表现卓越,今年GPT-2生成文本(写作)的水平也有了显著提高。 目前这些最先进的技术都基于Transformer模型,该模型从RNN,LSTM,Seq2Seq,Attention,ConvS2S,Transformer一步步进化而来,还涉及自然语言处理的相关知识,包含的知识点太多,无法一次说清。笔者将其分成几篇,从其进化过程逐步引入。之前已经介绍过RNN及LSTM,本篇将介绍Seq2Seq和Attention算法。 翻译功能 深度学习中的自然语言处理常用于自动翻译、语言识别、问答系统、提取概要、写作等等领域。 其中自动翻译是一项非常典型的应用,在翻译过程中,输入和输出的词汇个数可长可短,不能一一对应,不同语言词汇顺序又可能不同,并且还有一词多义,一义多词,词在不同位置含义不同的情况……是相对复杂的自然语言处理问题。 先来看看人怎么解决翻译问题,面对一种完全不认识的语言,人把句子分解成词,通过查字典的方式将词转换成母语,然后再通过语法组合成句。其中主要涉及词的实际含义、内容的先后关系,两种语言对应关系。 机器既不需要了解各个词的含义和语法,也不需要字典,就能通过大量训练实现翻译功能,并且效果还不错。 这让神经网络看起来更加难以理解。 一开始的深度学习神经网络