Convolutional Sequence to Sequence Learning 论文笔记
Convolutional Sequence to Sequence Learning 论文笔记 目录 简介 Position Embeddings GLU or GRU Convolutional Block Structure Multi-step Attention Normalization Strategy Initialization 简介 # 写这篇博客主要是为了进一步了解如何将CNN当作Encoder结构来使用,同时这篇论文也是必看的论文之一。该论文证明了使用CNN作为特征抽取结构实现Seq2Seq,可以达到与 RNN 相接近甚至更好的效果,并且CNN的高并行能力能够大大减少我们的模型训练时间(本文对原文中不清晰的部分做了梳理,建议与原文搭配服用) 原文链接: Convolutional Sequence to Sequence Learning 模型结构如下图所示: 下面对模型的每个部分进行分块介绍: Position Embeddings # 卷积网络和Transformer一样,不是类似于RNN的时序模型,因此需要加入位置编码来体现词与词之间的位置关系 样本输入的词向量: w = ( w 1 , w 2 , . . . , w n ) w=(w1,w2,...,wn) 样本位置编码: p = ( p 1 , p 2 , . . . , p n ) p=(p1