transformer框架
之前对《Attention is all your need》中的框架结构一直不理解,读了很多相关的介绍也是迷迷糊糊的。今天又理了一遍相关的知识点,主要是各个涉及了注意力机制部分的Q,K,V
,又看了一部分相关的TensorFlow实现代码,感觉比之前稍微清楚了一些。
相关链接
- 谷歌官方的一份代码models/mtf_transformer.py/_layer_stack函数,里面有
Self-attention
,Encoder-Decoder attention
,Local attention
,Compressed attention
几种。但是核心部分都被封装起来了,需要安装mesh-tensorflow
,查看相关的函数
import mesh-tensorflow as mtf
# Self attention layer
y, new_k, new_v = mtf.layers.multihead_self_attention_incremental(some_argvs)
# Encoder-Decoder attention layer
y, new_k, new_v = mtf.layers.multihead_encdec_attention_incremental(some_argvs)
# Local attebtion
y, new_k, new_v = mtf.layers.masked_local_attention_1d_incremental(some_argvs)
# Compressed attention
mtf.layers.multihead_self_attention_memory_compressed(some_argvs)
来源:CSDN
作者:夏殇0808
链接:https://blog.csdn.net/u012328476/article/details/104637423