问题总结

当模型准确率已经较高时，如何判断自己的改动是否提升了性能。因为可能每一次准确率变化都不太大，而且每次训练的模型最后准确率也会有波动，多运行几次取准确率平均值做比较吗？
在想要提高性能的改进过程中，有很多改变可能都对性能的提升有些许的帮助。这个过程是一种一种方法的尝试，不断累积提升了性能的改变吗。比如先改了batch_size，找到了一个合适的大小，然后就固定使用这个大小，再调整优化器损失函数之类的？在调整的时候总有一种虽然当前的尝试没有提高性能，但说不定和别的组合在一起可能会变好的想法，简直要进行排列组合。

代码练习

MobileNet V1

如何判断nn.Conv2d(3, 3)是做的图一运算而不是图二？

通过Conv2d函数中的groups参数区别。groups取值范围为1 - in_channels。groups=1时做图二运算，groups=3时做图一运算。

若groups=x，则将输入通道分为x份，输出通道分为x份，对应每份分别做全卷积。

举例：nn.Conv2d(in_channels=6, out_channels=6, kernel_size=1, groups=3)

卷积核大小为torch.Size([6, 2, 1, 1])

参考：卷积层中的 group 参数理解

pytorch的conv2d函数groups分组卷积使用及理解

MobileNet V2

“MobileNet V1 的主要问题： Depthwise Conv确实是大大降低了计算量，但实际中，发现不少训练出来的kernel是空的。”

因为Depthwise每个kernel dim 相对于vanilla conv要小得多，过小的kernel dim，加上ReLU的激活影响下，使得神经元输出很容易变为0，所以就学废了。ReLU对于0的输出的梯度为0，所以一旦陷入了0输出，就没法恢复了。

HybridSN

class HybridSN(nn.Module):
    def __init__(self):
        super(HybridSN, self).__init__()
        self.conv1 = nn.Conv3d(1, 8, (7, 3, 3), stride=1, padding=0)
        self.conv2 = nn.Conv3d(8, 16, (5, 3, 3), stride=1, padding=0)
        self.conv3 = nn.Conv3d(16, 32, (3, 3, 3), stride=1, padding=0)
        self.conv4 = nn.Conv2d(576, 64, kernel_size=3, stride=1, padding=0)
        self.bn1 = nn.BatchNorm2d(64)
        self.fc1 = nn.Linear(18496, 256)
        self.dropout1 = nn.Dropout(p=0.4)
        self.fc2 = nn.Linear(256, 128)
        self.dropout2 = nn.Dropout(p=0.4)
        self.fc3 = nn.Linear(128, class_num)

    def forward(self, x):
        out = self.conv1(x)
        out = self.conv2(out)
        out = self.conv3(out)
        #print(batch)
        out = out.reshape(batch, 576, 19, 19)
        out = self.conv4(out)
        out = self.bn1(out)
        out = F.relu(out)
        out = out.view(-1, 64 * 17 * 17)
        out = self.fc1(out)
        out = F.relu(out)
        out = self.dropout1(out)
        out = self.fc2(out)
        out = F.relu(out)
        out = self.dropout2(out)
        out = self.fc3(out)
        return out

每次分类的结果都不一样

在model(test)之前，需要加上model.eval()，其作用是为了固定BN和dropout层，使得偏置参数不随着发生变化。否则的话，有输入数据，即使不训练，它也会改变权值。这是model中含有batch normalization层所带来的的性质。

BN的作用主要是对网络中间的每层进行归一化处理，并且使用变换重构（Batch Normalization Transform）保证每层提取的特征分布不会被破坏。

训练时是针对每个mini-batch的，但是测试是针对单张图片的，即不存在batch的概念。在做one classification的时候，训练集和测试集的样本分布是不一样的。

Dropout在train时随机选择神经元而predict要使用全部神经元并且要乘一个补偿系数。

BN在train时每个batch做了不同的归一化因此也对应了不同的参数，相应predict时实际用的参数是每个batch下参数的移动平均。

加上model.eval()后准确率不再变化，但第一次测试分类准确率会变，因为model.eval()固定了dropout层，使用全部神经元而不是随机选择，所以准确率会发生一次变化。

进一步提升高光谱图像的分类性能

HybridSN准确率 95.28% 98.05% 97.75%
二维卷积层改为深度可分离卷积 98.76% 98.59% 98.71%
转为二维+三维 98.07% 98.48% 98.30%

#二维卷积层改为深度可分离卷积
class HybridSN(nn.Module):
    def __init__(self):
        super(HybridSN, self).__init__()
        self.conv1 = nn.Conv3d(1, 8, (7, 3, 3), stride=1, padding=0)
        self.conv2 = nn.Conv3d(8, 16, (5, 3, 3), stride=1, padding=0)
        self.conv3 = nn.Conv3d(16, 32, (3, 3, 3), stride=1, padding=0)

        # Depthwise 卷积，3*3 的卷积核，分为 in_planes，即各层单独进行卷积
        self.conv4 = nn.Conv2d(576, 576, kernel_size=3, stride=1, padding=0, groups=576, bias=False)
        self.bn1 = nn.BatchNorm2d(576)
        # Pointwise 卷积，1*1 的卷积核
        self.conv5 = nn.Conv2d(576, 64, kernel_size=1, stride=1, padding=0, bias=False)
        self.bn2 = nn.BatchNorm2d(64)

        self.fc1 = nn.Linear(18496, 256)
        self.dropout1 = nn.Dropout(p=0.4)
        self.fc2 = nn.Linear(256, 128)
        self.dropout2 = nn.Dropout(p=0.4)
        self.fc3 = nn.Linear(128, class_num)

    def forward(self, x):
        out = F.relu(self.conv1(x))
        out = F.relu(self.conv2(out))
        out = F.relu(self.conv3(out))
        out = out.reshape(batch, 576, 19, 19)
        
        out = F.relu(self.bn1(self.conv4(out)))
        out = F.relu(self.bn2(self.conv5(out)))
        
        out = out.view(-1, 64 * 17 * 17)
        out = self.fc1(out)
        out = F.relu(out)
        out = self.dropout1(out)
        out = self.fc2(out)
        out = F.relu(out)
        out = self.dropout2(out)
        out = self.fc3(out)
        return out

#转为二维+三维
class HybridSN(nn.Module):
    def __init__(self):
        super(HybridSN, self).__init__()
        self.conv4 = nn.Conv2d(30, 64, kernel_size=3, stride=1, padding=0)
        self.bn1 = nn.BatchNorm2d(64)
        self.conv1 = nn.Conv3d(1, 8, (7, 3, 3), stride=1, padding=0)
        self.conv2 = nn.Conv3d(8, 16, (5, 3, 3), stride=1, padding=0)
        self.conv3 = nn.Conv3d(16, 32, (3, 3, 3), stride=1, padding=0)
        self.fc1 = nn.Linear(480896, 256)
        self.dropout1 = nn.Dropout(p=0.4)
        self.fc2 = nn.Linear(256, 128)
        self.dropout2 = nn.Dropout(p=0.4)
        self.fc3 = nn.Linear(128, class_num)

    def forward(self, x):
        out = x.reshape(batch, 30, 25, 25)
        out = self.conv4(out)
        out = self.bn1(out)
        out = F.relu(out)
        
        out = out.reshape(batch, 1, 64, 23, 23)
        out = F.relu(self.conv1(out))
        out = F.relu(self.conv2(out))
        out = F.relu(self.conv3(out))
        
        out = out.view(-1, 32 * 52 * 17 * 17)
        out = self.fc1(out)
        out = F.relu(out)
        out = self.dropout1(out)
        out = self.fc2(out)
        out = F.relu(out)
        out = self.dropout2(out)
        out = self.fc3(out)
        return out

论文笔记

DnCNN

第一次用深度学习来做图像去噪。

残差学习：拟合H(x)，由于网络退化问题难以训练出来，转为训练F(x)，F(x)=H(x)-x，F(x)称为残差，然后H(x)=F(x)+x。

根据ResNet中的理论，当残差为0时，堆积层之间等价于恒等映射，而恒等映射是非常容易训练优化的。作者注意到在图像复原领域（尤其是在噪音程度较小的情况下），噪音图片与纯净图片的残差非常小，所以理论上残差学习非常适合运用到图像复原上。

DnCNN是将网络的输出直接改成residual image（残差图片），设纯净图片为x，带噪音图片为y，假设y=x+v，则v是残差图片。即DnCNN的优化目标不是真实图片与网络输出之间的MSE(均方误差)，而是真实残差图片与网络输出之间的MSE。

SENet

解决了什么问题：注意力机制

对各个特征图赋予权重，不再是简单的相加，而是加权求和。强调重要的部分，忽略不重要的部分。

还可以用于哪些地方：可以把C抬平，强调在不同位置上的重要性。

SE模块首先对卷积得到的特征图进行Squeeze操作，采用global average pooling来实现，然后对全局特征进行Excitation操作，学习各个channel间的关系，得到不同channel的权重，最后乘以原来的特征图得到最终特征。

深度监督跨模态检索(DSCMR)

跨模态检索是指在不同模态数据之间的检索，比如通过一张图片检索与之相关的文本、音视频等数据，或者通过一段文本检索与之相关的图片等数据。

解决跨模态检索的主要方法有两种，一种是学习不同模态数据的实值表示，通过距离度量（如余弦距离、欧氏距离等）进行相关度排序的方法；另一种是学习不同模态数据的二值哈希码，通过度量汉明距离进行相关度排序的方法，这种方法又称为跨模态哈希，由于汉明距离计算的高效性，跨模态哈希在大规模跨模态检索中运用十分广泛，而利用深度学习进行的跨模态哈希，即为深度跨模态哈希。