第二次作业:卷积神经网络 part 2

我们两清 提交于 2020-08-10 08:38:19

一、问题总结

MobileNetV2版本中,对数据的处理中,加入的Inverted residual block,提升通道数,但是ResNet首先进行降通道降低计算量,两个网络为什么进行这种不一样的操作。

二、代码练习

2.1 MobileNet V1

简介:

MobileNetGoogle2017年发布的网络架构,因为之前的VGGGoogleNet,ResultNet进一步提高CNN的性能,但是到ResNet网络已经达到了152层,参数量到了300MB,这不仅是巨大的存储和计算开销,也严重限制了CNN的应用。MobileNet应运而生,其中V1版本的主要核心是把卷积拆分为Depthwise+Pointwise两部分,代码如下:

核心部分:

 

网络结构:32×32×3 ==>32×32×32 ==> 32×32×64 ==> 16×16×128 ==> 16×16×128 ==>

8×8×256 ==> 8×8×256 ==> 4×4×512 ==> 4×4×512 ==>2×2×1024 ==> 2×2×1024

然后是池化 ==> 1×1×1024

最后全连接到 10个输出节点

 

CIFAR10数据集的分类测试结果如下:

 

2.2 MobileNet V2

简介:

V1版本中存在问题:结构简单,没有用到残差网络;Depthwise卷积层中大大降低了计算量,但是有不少的kernel的是空的。所以对V1版本进行了改动,(1)加入了Inverted residual block,先用1*1卷积提升通道数,然后用Depthwise3*3的卷积,再使用1*1的卷积降维;(2)去掉了输出部分的Relu6

网络部分:

 

CIFAR10数据集的分类测试结果如下:

 

2.3 HybridSN高光谱分类

网络模型如下:

三维卷积,然后进行二维卷积,三维卷积的网络模型如下

conv1:(1, 30, 25, 25), 87x3x3 的卷积核 ==>8, 24, 23, 23

conv2:(8, 24, 23, 23), 165x3x3 的卷积核 ==>16, 20, 21, 21

conv3:(16, 20, 21, 21),323x3x3 的卷积核 ==>32, 18, 19, 19

接下来要进行二维卷积,因此把前面的 32*18 reshape 一下,得到 (576, 19, 19

二维卷积:(576, 19, 19643x3 的卷积核,得到 (64, 17, 17

接下来是一个 flatten 操作,变为 18496 维的向量,

接下来依次为256128节点的全连接层,都使用比例为0.4Dropout

最后输出为 16 个节点,是最终的分类类别数。

代码如下:

 

模型训练结果如下:

三、论文阅读心得

3.1Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising

这篇论文讲了关于CNN在去噪上的应用,使用前馈去噪卷积神经网络(DnCNN),将非常深的结构、学习算法和正则化方法使用到图像去噪的过程中,还使用了残差学习和批量归一化来加速训练过程和提高去噪性能。

         网络结构如下:

(1)Conv+ReLU:对于第一层,使用64个大小为3*3*c的滤波器被用于生成64个特征图。然后将整流的线性单元用于非线性。这里的c代表着图像的通道数,即c=1时为灰色图像,c=3时为彩色图像。

(2) Conv+BN+ReLU:对应于层2D-1,使用64个大小3*3*64的过滤器,并且将批量归一化加在卷积和ReLU之间。

(3) Conv:对应于最后一层,c个大小为#*3*64的滤波器被用于重建输出。

3.2Squeeze-and-Excitation Networks

SENet是一个网络模块,在2017年,它结合ResNet网络在ILSVRC2017的分类项目中获得第一,其核心思想是通过网络根据loss去学习特征权重,使得有效的featuremap权重大,无效或效果小的feature map权重小。

网络结构见下图:

 

首先是 Squeeze 操作,顺着空间维度来进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野,这一点在很多任务中都是非常有用的。

其次是 Excitation 操作,它是一个类似于循环神经网络中门的机制。通过参数 w 来为每个特征通道生成权重,其中参数 w 被学习用来显式地建模特征通道间的相关性。

 最后是一个 Reweight 的操作,将 Excitation 的输出的权重看做是进过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定。

3.3Deep Supervised Cross-modal Retrieval

主要是使用VGG19网络进行图像的特征提取,word2vecCNN提取文本特征,创建线性分类器对样本生成标签,主要贡献是提出了一种基于深度监督的跨模态学习结构,可以有效的学习异构数据的公共表示;并且利用线性分类器对公共表示空间中的样本进行分类,使得学习的公共表示具有显著的区分性。

网络结构如下:

 

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!