attention

BERT主体模型modeling.py学习记录

坚强是说给别人听的谎言 提交于 2020-01-31 01:07:04
```python 1 、配置 class BertConfig ( object ) : """Configuration for `BertModel`.""" def __init__ ( self , vocab_size , hidden_size = 768 , num_hidden_layers = 12 , num_attention_heads = 12 , # attention的头数 class BertConfig ( object ) : """Configuration for `BertModel`.""" def __init__ ( self , vocab_size , # 词典大小 hidden_size = 768 , # 隐层神经元个数 num_hidden_layers = 12 , # Transformer的层数12 num_attention_heads = 12 , attention的头数 intermediate_size = 3072 , # 中间层神经元个数 hidden_act = "gelu" , # 激活函数 hidden_dropout_prob = 0.1 , # 隐层dropout的比例 attention_probs_dropout_prob = 0.1 , # attention里面dropout比例

PP: Multi-Horizon Time Series Forecasting with Temporal Attention Learning

 ̄綄美尐妖づ 提交于 2020-01-30 01:00:51
Problem: multi-horizon probabilistic forecasting tasks; Propose an end-to-end framework for multi-horizon time series forecasting, with temporal attention mechanisms to capture latent patterns. Introduction: forecasting ----- understanding demands. traditional methods: arima, holt-winters methods. recently: lstm multi-step forecasting can be naturally formulated as sequence-to-sequence learning. ???? what is sequence-to-sequence learning ??? What is multi-horizon forecasting: forecasting on multiple steps in future time. forecasting the overall distribution!! quantile regression to make

Transformer模型学习笔记

痞子三分冷 提交于 2020-01-28 03:47:29
Transformer模型学习笔记 前言 回顾 参考资料 解读 1. High-level的看一下,transformer大致是个什么样子 2.详细看下, 具体结构,以及输入都长什么样 3.self-attention层 4.多头机制 Multi-head 5.输入语句中词的顺序(Positional Encoding) 6.剩余东西 7.解码器(Decoder) 8.最后输出层 前言 Google研究菌曰: 在transformer模型之前,我们做机器翻译等事情(论文原话: 我们做转录模型(transduction model)) 都是用循环神经网络(RNN)或者卷积神经网络(CNN)作为基本单元,搭建一个包含encoder和decoder的模型. 虽然效果不错,但是显然还有很多进步空间. 既然拿那么多钱,上班又不是996,不如整点新的东西? 于是有了transformer模型. 回顾 回顾下整体流程, 为啥会想到要去创造transformer这个东西. 做机器翻译? –>那咱们搭一个具有encoder-decoder结构的模型. 其中seq2seq是最常用的encoder-decoder模型–>模型里的小单元用基本结构的RNN或者基本结构的CNN. 训练完发现对长句记忆效果不理想,模型记不住之前的信息?发生梯度消失? –>采用RNN的变体结构LSTM 翻译效果不太好

【Deep Learning】Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

那年仲夏 提交于 2020-01-28 03:41:12
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention TLDR; The authors use an attention mechanism in image caption generation, allowing the decoder RNN focus on specific parts of the image. In order find the correspondence between words and image patches, the RNN uses a lower convolutional layer as its input (before pooling). The authors propose both a “hard” attention (trained using sampling methods) and “soft” attention (trained end-to-end) mechanism, and show qualitatively that the decoder focuses on sensible regions while generating text, adding an additional layer

attention

老子叫甜甜 提交于 2020-01-28 03:06:43
由上式可以看到,对于Attention机制的整个计算过程,可以总结为以下三个过程: 根据 Query 与 Key 计算两者之间的相似性或相关性, 即 socre 的计算。 通过一个 softmax 来对值进行归一化处理获得注意力权重值, 即 [公式] 的计算。 通过注意力权重值对value进行加权求和, 即 [公式] 的计算 求点积 [公式] Cosine 相似性 [公式] MLP网络 https://www.cnblogs.com/ydcode/p/11038064.html 来源: CSDN 作者: chilitian 链接: https://blog.csdn.net/chilitian/article/details/104065731

cv实习面试记录

最后都变了- 提交于 2020-01-25 16:22:55
网易传媒(2020.01.09) 一面(45分钟):聊项目 二面(65分+我中途有事打断面试) 上来问项目【45分钟+】(图片特征提取faster rcnn ,固定36个,如何构建graph,graph特征融合,attention LSTM) 深度学习基础【15分钟】: (1) 参数计算(channel 3 , 3*3, feature map 是64 ) (2)softmax(我居然说成sigmoid(尴尬!)) (3)交叉熵损失 代码(打断了…) 毕马威(2020.01.11) 一面(40分钟,过): 针对项目,问了下faster rcnn的大体流程,attention lstm如何实现 了解单步检测算法么,大致说说SSD、YOLO,为什么比faster rcnn快,区别在哪? 1*1卷积的作用 来源: CSDN 作者: 一只帅气的小菜鸡 链接: https://blog.csdn.net/weixin_42028608/article/details/103918579

HAN(Hierarchical Attention Network)

◇◆丶佛笑我妖孽 提交于 2020-01-25 06:33:03
本文主要介绍CMU在2016年发表在ACL的一篇论文: Hierarchical Attention Networks for Document Classification 及其代码复现。 该论文是用于文档级情感分类(document-level sentiment classification)的,其模型架构如下: 整个网络结构包括四个部分:   1)词序列编码器   2)基于词级的注意力层   3)句子编码器   4)基于句子级的注意力层   整个网络结构由双向GRU网络和注意力机制组合而成,具体的网络结构公式如下: 词序列编码器 给定一个句子中的单词 ,其中 i 表示第 i 个句子,t 表示第 t 个词。通过一个词嵌入矩阵 将单词转换成向量表示,具体如下所示: 接下来看看利用双向GRU实现的整个编码流程: 最终的 词级的注意力层 注意力层的具体流程如下: 上面式子中, 是 的隐层表示, 是经 softmax 函数处理后的归一化权重系数, 是一个随机初始化的向量,之后会作为模型的参数一起被训练, 就是我们得到的第 i 个句子的向量表示。 句子编码器 也是基于双向GRU实现编码的,其流程如下: 公式和词编码类似,最后的 也是通过拼接得到的 句子级注意力层 注意力层的流程如下,和词级的一致 最后得到的向量 就是文档的向量表示,这是文档的高层表示

百分点认知智能实验室出品:深度迁移学习十八问

那年仲夏 提交于 2020-01-22 23:13:40
编者按 深度迁移学习是基于深度神经网络的迁移学习方法,BERT通过预训练模型达到深度迁移学习的效果,自从2018年底BERT横空出世以来,就以势不可挡的姿态横扫了众多榜单,甚至在阅读理解任务SQuAD 中超越人类水平。BERT在公检法、媒体出版、军工、快消零售等工业界也迅速落地,如百分点智能对话系统、百分点智能审校系统和百分点智能翻译系统等。BERT几乎在所有的下游任务中效果都获得了明显提升,BERT自此开创了一个NLP的新时代,那就是pre-train + fine-tuning的时代。 基于BERT的各种改进版预训练模型层出不穷,令人眼花缭乱,似乎一不小心就会落伍。但是万变不离其宗,只要掌握了一些最基本的的思想、技术,就能让自己紧跟大神们的脚步,让更优秀的算法模型在工业界持续落地。百分点认知智能实验室梳理了以BERT为代表的基于fine-tuning模式的深度迁移学习中一些疑难问题,整理出18个典型的问题,对理解BERT论文和源代码有明显的帮助,因此分享给大家。 本文作者:崔丙剑 苏海波 基本概念 1.如何正确理解深度迁移学习? 答:迁移学习是机器学习的一个重要分支,是指利用数据、任务、或模型之间的相似性,将在源领域学习过的模型,应用于新领域的一种学习过程。 图1: 迁移学习示意图 迁移学习主要有几种形式:基于样本的迁移、基于特征的迁移、基于模型的迁移和基于关系的迁移

百分点认知智能实验室出品:深度迁移学习十八问

扶醉桌前 提交于 2020-01-22 23:06:48
编者按 深度迁移学习是基于深度神经网络的迁移学习方法,BERT通过预训练模型达到深度迁移学习的效果,自从2018年底BERT横空出世以来,就以势不可挡的姿态横扫了众多榜单,甚至在阅读理解任务SQuAD 中超越人类水平。BERT在公检法、媒体出版、军工、快消零售等工业界也迅速落地,如百分点智能对话系统、百分点智能审校系统和百分点智能翻译系统等。BERT几乎在所有的下游任务中效果都获得了明显提升,BERT自此开创了一个NLP的新时代,那就是pre-train + fine-tuning的时代。 基于BERT的各种改进版预训练模型层出不穷,令人眼花缭乱,似乎一不小心就会落伍。但是万变不离其宗,只要掌握了一些最基本的的思想、技术,就能让自己紧跟大神们的脚步,让更优秀的算法模型在工业界持续落地。百分点认知智能实验室梳理了以BERT为代表的基于fine-tuning模式的深度迁移学习中一些疑难问题,整理出18个典型的问题,对理解BERT论文和源代码有明显的帮助,因此分享给大家。 本文作者:崔丙剑 苏海波 基本概念 1.如何正确理解深度迁移学习? 答:迁移学习是机器学习的一个重要分支,是指利用数据、任务、或模型之间的相似性,将在源领域学习过的模型,应用于新领域的一种学习过程。 图1: 迁移学习示意图 迁移学习主要有几种形式:基于样本的迁移、基于特征的迁移、基于模型的迁移和基于关系的迁移

原创:语义相似度(理论篇)

落爺英雄遲暮 提交于 2020-01-18 14:50:51
  如果本文观点有不对的地方,欢迎指正! author:佟学强  开场白:对于事物的理解,一般分3个层次:①看山是山,看水是水②看山不是山,看水不是水③看山是山,看水是水。对AI和nlp的理解,同样会有这三个层次。比如,刚毕业的硕士或者毕业1~2年的,会热衷于研究GAN,seq2seq,甚至包括nlp刚起步的一些公司。这类群体对nlp的理解处于第一层次,后面还有很多雷区要踩,要付出一定的试错代价,成长的代价。等到有一定的积累了,对nlp的理解有一定的理解功底了,会逐渐修正研究路线和方向,这个时候比第一阶段有更多的疑惑,因为随着研究的深入,发现nlp和图像机制存在很大的不同,不能照搬,认知智能好像不是那么容易,由感知智能到认知智能的跨越,是这一阶段的一大进步,这是第二个层次,各个派别有争论,看山不是山,看水不是水。最高境界,返璞归真,拥有行业20年及以上的研究人员,对nlp看的比较透,目前的Ai基本上陷入了统计建模,概率的漩涡之中,还不是真正的智能。仅仅从数据中挖掘线性关系还远远不够,应该让机器具有认知能力,挖掘因果关系。致力于推进nlp认知智能的进步,加大力度研究知识图谱,包括知识图谱的向量化,与深度学习的融合,让神经网络学习规则等等。可以这样说,目前从感知智能到认知智能的跨越,才刚刚开始,知识工程的复苏势不可挡。本人接触过许多刚入门的人,基本上对seq2seq和GAN比较狂热