论文地址:CBAM: Convolutional Block Attention Module
代码地址:github
文章目录
1. 简介
本文提出了一个CBAM注意力机制模块,和SEBlock不同的地方是CBAM多了一个空间注意力模块,通道注意力部分和SEBlock很像只是稍微改进了一下。
2. 结构
2.1 CBAM结构
2.1.1 Channel-Wise Attention
通道注意力部分可以从图中看到基本和SEBlock相同,只是加了一个分支Maxpooling,中间共享一个mlp,最后将两部分的输出相加经过sigmoid。
其中表示两层mlp的权重,两个分之共享权重并使用relu激活函数,为中间通道reduction的比例。
2.1.2 Spatial Attention Module
空间注意力的结构也简单,使用average pooling和max pooling对输入feature map 在通道层面上进行压缩操作,对输入特征分别在通道维度上做了mean和max操作。最后得到了两个二维的 feature,将其按通道维度拼接在一起得到一个通道数为2的feature map,之后使用一个包含单个卷积核层对其进行卷积操作,要保证最后得到的feature在spatial 维度上与输入的feature map一致。
可视化:
表示sigmoid函数,表示卷积核,和表示经过通道维度上的maxpooling和avgpooling操作的结果。
2.2 代码实现
class ChannelAttention(nn.Module):
def __init__(self, in_planes, ratio=16):
super(ChannelAttention, self).__init__()
self.avg_pool = nn.AdaptiveAvgPool2d(1)
self.max_pool = nn.AdaptiveMaxPool2d(1)
self.fc1 = nn.Conv2d(in_planes, in_planes // ratio, 1, bias=False)
self.relu1 = nn.ReLU()
self.fc2 = nn.Conv2d(in_planes // ratio, in_planes, 1, bias=False)
self.sigmoid = nn.Sigmoid()
def forward(self, x):
avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x))))
max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x))))
out = avg_out + max_out
return self.sigmoid(out)
class SpatialAttention(nn.Module):
def __init__(self, kernel_size=7):
super(SpatialAttention, self).__init__()
assert kernel_size in (3, 7), 'kernel size must be 3 or 7'
padding = 3 if kernel_size == 7 else 1
self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False)
self.sigmoid = nn.Sigmoid()
def forward(self, x):
avg_out = torch.mean(x, dim=1, keepdim=True)
max_out, _ = torch.max(x, dim=1, keepdim=True)
x = torch.cat([avg_out, max_out], dim=1)
x = self.conv1(x)
return self.sigmoid(x)
3. 实验结果
3.1 实验设置
数据:
MSCOCO和VOC 2007 目标检测任务
- 学习率0.1,没30个epoch更新一次
- 使用数据增强
- 图像剪切到224*224
通道注意力模块使用不同的pooling组合结果
空间注意力模块使用不同的kernel和通道上的pooling操作
channel和spatial不同组合方式对比:
ImageNet上不同网络的表现
轻量化网络对比:
可视化:
MCOC和VOC 目标检测对比:
来源:CSDN
作者:grayondream
链接:https://blog.csdn.net/GrayOnDream/article/details/103928875