vgg

ResNet

三世轮回 提交于 2019-12-01 18:55:54
论文:Deep Residual Learning for Image Recognition 发表时间:2015 发表作者:(Microsoft Research)He-Kaiming, Ren-Shaoqing, Sun-Jian 论文链接: 论文链接 ResNet Resnet差不多是当前应用最为广泛的CNN特征提取网络。它的提出始于2015年,作者中间有大名鼎鼎的三位人物He-Kaiming, Ren-Shaoqing, Sun-Jian。 VGG网络试着探寻了一下深度学习网络的深度究竟可以深几许以能持续地提高分类准确率。我们的一般印象当中,深度学习愈是深(复杂,参数多)愈是有着更强的表达能力。凭着这一基本准则CNN分类网络自Alexnet的7层发展到了VGG的16乃至19层,后来更有了Googlenet的22层。可后来我们发现深度CNN网络达到一定深度后再一味地增加层数并不能带来进一步地分类性能提高,反而会招致网络收敛变得更慢,test dataset的分类准确率也变得更差。排除数据集过小带来的模型过拟合等问题后,我们发现过深的网络仍然还会使分类准确度下降(相对于较浅些的网络而言)。 VGG网络达到19层后再增加层数就开始导致分类性能的下降。而Resnet网络作者则想到了常规计算机视觉领域常用的residual representation的概念

VGG(2014),3x3卷积的胜利

雨燕双飞 提交于 2019-12-01 08:41:36
目录 写在前面 网络结构 multi-scale training and testing 其他有意思的点 参考 博客: blog.shinelee.me | 博客园 | CSDN 写在前面 VGG(2014)网络出自paper 《Very Deep Convolutional Networks for Large-Scale Image Recognition》 ,为 ILSVRC2014 localization冠军和classification亚军方法(冠军为GoogLeNet),首次提交arXiv时间为2014年9月,后发表在ICLR2015,截止20191011引用量达27612。因为出自牛津大学Visual Geometry Group,所以网络被命名为VGG,根据层数不同,又分为VGG16、VGG19等。 论文的主要贡献: 探究了网络深度对性能的影响,通过叠加卷积层来 增加深度,性能变好 ——“Our results yet again confirm the importance of depth in visual representations”。 只使用 \(3\times 3\) 的卷积核,通过多个 \(3 \times 3\) 卷积层叠加来获得与大卷积核相同的感受野 ,同时引入更多的非线性,减少了参数。若有 \(C\) 个channel,3个 \(3

神经网络的标准输入与图像分辨率不一致的问题

无人久伴 提交于 2019-11-30 01:25:37
01 引入 假如我们想要在cifar10上验证vgg的性能,可能就会出现以下问题: vgg 标准输入:224 x 224 x3 cifar10图像的分辨率:32 x 32 x 3 02 可行的解决方法 一种观点: 修改最后几个全连接层的大小!(绝对可行) 另一种观点: 对于普通的图像分类,resize成网络想要的标准输入,可能没有影响。 但是对于我们举的例子来讲,这样的操作显然是不合适的!!! 对于目标的定位来讲,resize意味着图像发生了形变,很可能会影响效果。 来源: https://www.cnblogs.com/Terrypython/p/11543764.html

Alexnet网络与Vgg网络

社会主义新天地 提交于 2019-11-30 00:32:48
迁移学习 使用迁移学习来实现猫狗分类。 迁移学习的个人理解:就是把一个训练好的神经网络从中分开,在拼接到其他的神经网络上,在迁移的过程中,卷积模块的结构不会发生改变,并且权重也不会发生改变。迁移学习分为两种:1.预训练模式,迁移过来的权重作为新网络的初始权重,然后不断训练,改变参数的值。2.固定模式,迁移过来的网络结构和权重都不会改变,训练过程只针对全连接层,在反向传播过程中,在迁移模块停止,不改变迁移模块中的权重,只训练全连接层的参数。 Alexnet网络的结构 Alexnet网络是由五个卷积层和三个全连接层构成,其中最后的输出被送到1000维的softmax函数 在卷积层的第一、第二和第五层使用了最大池化函数,并且在卷积层的第一和第二层使用了标准化 LRN函数。在全连接层的前两层使用了Dropout函数,来解决神经网络的过拟合问题。Relu激活函 数应用在每个卷积层和全连接层。 第一个卷积层的输入为224×224×3的图像,对其使用96个大小为11×11×3、步长为4的卷积核来处 输入图像。第二个卷积层将第一个卷积层的输出(响应归一化以及池化)作为输入,并使用256个 卷积核处理图像,每个内核大小为5×5×48。第三个、第四个和第五个卷积层彼此连接而中间没有任 何池化或归一化层。第三个卷积层有384个卷积核,每个的大小为3×3×256,其输入为第二个卷积层 的输出

VGG中数据流动学习记录

瘦欲@ 提交于 2019-11-29 17:09:24
VGG16中数据流动学习记录 承蒙CSDN各种大神照顾,读研以来学习了不少,今天学习了VGG16的大致概念,却发现没有很详细的类似于AlexNet原文中的配图。作为小白,姑且记录一下。 VGG背景介绍 VGG卷积神经网络是牛津大学在2014年提出来的模型。当这个模型被提出时,由于它的简洁性和实用性,马上成为了当时最流行的卷积神经网络模型。它在图像分类和目标检测任务中都表现出非常好的结果。在2014年的ILSVRC比赛中,VGG 在Top-5中取得了92.3%的正确率。 原文中给出的结构图 简单使用PPT功能画的结构图(VGG文中D列) 参考资料 [1] https://blog.csdn.net/DaVinciL/article/details/77259417 [2] https://blog.csdn.net/dta0502/article/details/79654931 [3] https://blog.csdn.net/gbyy42299/article/details/78969261 [4] https://blog.csdn.net/u012679707/article/details/80807406 来源: https://blog.csdn.net/weixin_43279911/article/details/100862313

VGG卷积神经网络模型解析

*爱你&永不变心* 提交于 2019-11-27 15:57:42
  VGG卷积神经网络模型解析   一:VGG介绍与模型结构   VGG全称是Visual Geometry Group属于牛津大学科学工程系,其发布了一些列以VGG开头的卷积网络模型,可以应用在人脸识别、图像分类等方面,分别从VGG16~VGG19。VGG研究卷积网络深度的初衷是想搞清楚卷积网络深度是如何影响大规模图像分类与识别的精度和准确率的,最初是VGG-16号称非常深的卷积网络全称为(GG-Very-Deep-16 CNN),VGG在加深网络层数同时为了避免参数过多,在所有层都采用3x3的小卷积核,卷积层步长被设置为1。VGG的输入被设置为224x244大小的RGB图像,在训练集图像上对所有图像计算RGB均值,然后把图像作为输入传入VGG卷积网络,使用3x3或者1x1的filter,卷积步长被固定1。VGG全连接层有3层,根据卷积层+全连接层总数目的不同可以从VGG11 ~ VGG19,最少的VGG11有8个卷积层与3个全连接层,最多的VGG19有16个卷积层+3个全连接层,此外VGG网络并不是在每个卷积层后面跟上一个池化层,还是总数5个池化层,分布在不同的卷积层之下,下图是VGG11 ~GVV19的结构图:      考虑到整个网络的精简结构显示,ReLU激活函数并没有被显示在上述结构中。上述结构中一些说明:   conv表示卷积层   FC表示全连接层  

几种网络LeNet、VGG Net、ResNet原理及PyTorch实现

早过忘川 提交于 2019-11-27 12:30:24
LeNet比较经典,就从LeNet开始,其PyTorch实现比较简单,通过LeNet为基础引出下面的VGG-Net和ResNet。 LeNet LeNet比较经典的一张图如下图 LeNet-5共有7层,不包含输入,每层都包含可训练参数;每个层有多个Feature Map,每个FeatureMap通过一种卷积滤波器提取输入的一种特征,然后每个FeatureMap有多个神经元。 1.INPUT层-输入层 输入图像的尺寸统一归一化为: 32 x 32。 2.C1层 卷积层 输入图片:32 x 32 卷积核大小:5 x 5 卷积核种类:6 输出featuremap大小:28 x 28 (32-5+1)=28 神经元数量:28 x 28 x 6 可训练参数:(5 x 5+1) x 6(每个滤波器5 x 5=25个unit参数和一个bias参数,一共6个滤波器) 连接数:(5 x 5+1) x 6 x 28 x 28=122304 3.S2层 池化层(下采样层) 输入:28 x 28 采样区域:2 x 2 采样方式:4个输入相加,乘以一个可训练参数,再加上一个可训练偏置。结果通过sigmoid 采样种类:6 输出featureMap大小:14 x14(28/2) 神经元数量:14 x 14 x 6 可训练参数:2 x 6(和的权+偏置) 连接数:(2 x 2+1) x 6 x 14 x 14

VGG卷积神经网络模型解析

僤鯓⒐⒋嵵緔 提交于 2019-11-26 00:20:38
VGG卷积神经网络模型解析 一:VGG介绍与模型结构 VGG全称是Visual Geometry Group属于牛津大学科学工程系,其发布了一些列以VGG开头的卷积网络模型,可以应用在人脸识别、图像分类等方面,分别从VGG16~VGG19。VGG研究卷积网络深度的初衷是想搞清楚卷积网络深度是如何影响大规模图像分类与识别的精度和准确率的,最初是VGG-16号称非常深的卷积网络全称为(GG-Very-Deep-16 CNN),VGG在加深网络层数同时为了避免参数过多,在所有层都采用3x3的小卷积核,卷积层步长被设置为1。VGG的输入被设置为224x244大小的RGB图像,在训练集图像上对所有图像计算RGB均值,然后把图像作为输入传入VGG卷积网络,使用3x3或者1x1的filter,卷积步长被固定1。VGG全连接层有3层,根据卷积层+全连接层总数目的不同可以从VGG11 ~ VGG19,最少的VGG11有8个卷积层与3个全连接层,最多的VGG19有16个卷积层+3个全连接层,此外VGG网络并不是在每个卷积层后面跟上一个池化层,还是总数5个池化层,分布在不同的卷积层之下,下图是VGG11 ~GVV19的结构图: 考虑到整个网络的精简结构显示,ReLU激活函数并没有被显示在上述结构中。上述结构中一些说明: conv表示卷积层 FC表示全连接层 conv3表示卷积层使用3x3 filters