其他论文

◇◆丶佛笑我妖孽 提交于 2019-12-01 16:46:44

1.Learning Deep Transformer Models for Machine Translation

https://arxiv.org/pdf/1906.01787.pdf

主要说明为如何训练一个深层的transformer,问题在于深层的梯度消失问题,采用的方法是对前面所有层的输出进行oncat, 利用线性层对结果进行维度修改后再喂给下一层,

和残差的思想类似,但是可以利用前面所有曾的结果,同时线性层的的矩阵是可以进行训练的。

 

 

同时还讨论了前项正则和后项正则的影响,后项正则再深度很深的情况下回产生梯度消失的情况,前项不会,但是增加了线性的连接之后就不存在这个问题了。后项也可以训练

图是前后向的差异:

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!