一、问题总结

MobileNetV2版本中，对数据的处理中，加入的Inverted residual block，提升通道数，但是ResNet首先进行降通道降低计算量，两个网络为什么进行这种不一样的操作。

二、代码练习

2.1 MobileNet V1

简介：

MobileNet是Google于2017年发布的网络架构，因为之前的VGG，GoogleNet,ResultNet进一步提高CNN的性能，但是到ResNet网络已经达到了152层，参数量到了300多MB，这不仅是巨大的存储和计算开销，也严重限制了CNN的应用。MobileNet应运而生，其中V1版本的主要核心是把卷积拆分为Depthwise+Pointwise两部分，代码如下：

核心部分：

网络结构：32×32×3 ==>32×32×32 ==> 32×32×64 ==> 16×16×128 ==> 16×16×128 ==>

8×8×256 ==> 8×8×256 ==> 4×4×512 ==> 4×4×512 ==>2×2×1024 ==> 2×2×1024

然后是池化 ==> 1×1×1024

最后全连接到 10个输出节点

在CIFAR10数据集的分类测试结果如下：

2.2 MobileNet V2

简介：

V1版本中存在问题：结构简单，没有用到残差网络；Depthwise卷积层中大大降低了计算量，但是有不少的kernel的是空的。所以对V1版本进行了改动，（1）加入了Inverted residual block，先用1*1卷积提升通道数，然后用Depthwise3*3的卷积，再使用1*1的卷积降维；（2）去掉了输出部分的Relu6。

网络部分：

在CIFAR10数据集的分类测试结果如下：

2.3 HybridSN高光谱分类

网络模型如下：

先三维卷积，然后进行二维卷积，三维卷积的网络模型如下：

conv1：（1, 30, 25, 25）， 8个 7x3x3 的卷积核 ==>（8, 24, 23, 23）

conv2：（8, 24, 23, 23）， 16个 5x3x3 的卷积核 ==>（16, 20, 21, 21）

conv3：（16, 20, 21, 21），32个 3x3x3 的卷积核 ==>（32, 18, 19, 19）

接下来要进行二维卷积，因此把前面的 32*18 reshape 一下，得到（576, 19, 19）

二维卷积：（576, 19, 19） 64个 3x3 的卷积核，得到（64, 17, 17）

接下来是一个 flatten 操作，变为 18496 维的向量，

接下来依次为256，128节点的全连接层，都使用比例为0.4的 Dropout，

最后输出为 16 个节点，是最终的分类类别数。

代码如下：

模型训练结果如下：

三、论文阅读心得

3.1《Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising》

这篇论文讲了关于CNN在去噪上的应用，使用前馈去噪卷积神经网络（DnCNN），将非常深的结构、学习算法和正则化方法使用到图像去噪的过程中，还使用了残差学习和批量归一化来加速训练过程和提高去噪性能。

网络结构如下：

（1）Conv+ReLU：对于第一层，使用64个大小为3*3*c的滤波器被用于生成64个特征图。然后将整流的线性单元用于非线性。这里的c代表着图像的通道数，即c=1时为灰色图像，c=3时为彩色图像。

（2） Conv+BN+ReLU：对应于层2—D-1层，使用64个大小3*3*64的过滤器，并且将批量归一化加在卷积和ReLU之间。

（3） Conv：对应于最后一层，c个大小为#*3*64的滤波器被用于重建输出。

3.2《Squeeze-and-Excitation Networks》

SENet是一个网络模块，在2017年，它结合ResNet网络在ILSVRC2017的分类项目中获得第一，其核心思想是通过网络根据loss去学习特征权重，使得有效的featuremap权重大，无效或效果小的feature map权重小。

网络结构见下图：

首先是 Squeeze 操作，顺着空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野，这一点在很多任务中都是非常有用的。

其次是 Excitation 操作，它是一个类似于循环神经网络中门的机制。通过参数 w 来为每个特征通道生成权重，其中参数 w 被学习用来显式地建模特征通道间的相关性。

最后是一个 Reweight 的操作，将 Excitation 的输出的权重看做是进过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

3.3《Deep Supervised Cross-modal Retrieval》

主要是使用VGG19网络进行图像的特征提取，word2vec、CNN提取文本特征，创建线性分类器对样本生成标签，主要贡献是提出了一种基于深度监督的跨模态学习结构，可以有效的学习异构数据的公共表示；并且利用线性分类器对公共表示空间中的样本进行分类，使得学习的公共表示具有显著的区分性。

网络结构如下：

来源：oschina

链接：https://my.oschina.net/u/4274700/blog/4480663

标签

神经网络

word2vec

第二次作业：卷积神经网络 part 2