【深度学习】视觉注意力机制 | 视觉注意力机制用于分类:SENet、CBAM、SKNet
前面的话 上次文章中,我们主要关注了 视觉应用中的Self-attention机制及其应用——Non-local网络模块 ,从最开始的了解什么是视觉注意力机制到对自注意力机制的细节把握,再到Non-local模块的学习。这次的文章我主要来关注 视觉注意力机制在分类网络中的应用 —— SENet、SKNet、CBAM。 我们通常将软注意力机制中的模型结构分为三大注意力域来分析: 空间域、通道域、混合域 。 (1) 空间域 —— 将图片中的的空间域信息做对应的 空间变换 ,从而能将关键的信息提取出来。对空间进行掩码的生成,进行打分,代表是Spatial Attention Module。 (2) 通道域 ——类似于 给每个通道上的信号都增加一个权重,来代表该 通道与关键信息的相关度 的话,这个权重越大,则表示相关度越高。对通道生成掩码mask,进行打分,代表是senet, Channel Attention Module。 (3) 混合域 —— 空间域的注意力是 忽略了通道域中的信息,将每个通道中的图片特征同等处理, 这种做法会将空间域变换方法局限在原始图片特征提取阶段,应用在神经网络层其他层的 可解释性不强 。 而通道域的注意力是 对一个通道内的信息直接全局平均池化,而忽略每一个通道内的局部信息 ,这种做法其实也是比较暴力的行为。所以结合两种思路,就可以设计出混合域的注意力机制模型。