由上式可以看到,对于Attention机制的整个计算过程,可以总结为以下三个过程:
根据 Query 与 Key 计算两者之间的相似性或相关性, 即 socre 的计算。
通过一个 softmax 来对值进行归一化处理获得注意力权重值, 即 [公式] 的计算。
通过注意力权重值对value进行加权求和, 即 [公式] 的计算
求点积
[公式]
Cosine 相似性
[公式]
MLP网络
https://www.cnblogs.com/ydcode/p/11038064.html
来源:CSDN
作者:chilitian
链接:https://blog.csdn.net/chilitian/article/details/104065731