卷积神经网络

转载——卷积神经网络之卷积计算、作用与思想

☆樱花仙子☆ 提交于 2020-02-25 00:40:32
目录 卷积运算与相关运算 理解卷积 卷积能抽取特征 多层卷积能抽取复杂特征 总结 参考 原文链接: https://www.cnblogs.com/shine-lee/p/9932226.html 卷积运算与相关运算 在计算机视觉领域,卷积核、滤波器通常为较小尺寸的矩阵,比如3×3、5×5等,数字图像是相对较大尺寸的2维(多维)矩阵(张量),图像卷积运算与相关运算的关系如下图所示(图片来自 链接 ),其中𝐹为滤波器,𝑋为图像,𝑂为结果。 相关是将滤波器在图像上滑动,对应位置相乘求和;卷积则先将滤波器旋转180度(行列均对称翻转),然后使用旋转后的滤波器进行相关运算。两者在计算方式上可以等价,有时为了简化,虽然名义上说是”卷积“,但实际实现时是相关。 在二维图像上,使用Sobel Gx滤波器进行卷积如下图所示。 当输入为多维图像(或多通道特征图)时,多通道卷积如下图所示,图中输入图像尺寸为6×6,通道数为3,卷积核有2个,每个尺寸为3×3,通道数为3(与输入图像通道数一致),卷积时,仍是以滑动窗口的形式,从左至右,从上至下,3个通道的对应位置相乘求和,输出结果为2张4×4的特征图。一般地,当输入为𝑚×𝑛×𝑐时,每个卷积核为𝑘×𝑘×𝑐,即每个卷积核的通道数应与输入的通道数相同(因为多通道需同时卷积),输出的特征图数量与卷积核数量一致,这里不再赘述。 理解卷积 这里提供两个理解卷积的角度

深度学习概述:从感知机到深度网络

吃可爱长大的小学妹 提交于 2020-02-24 21:08:53
  (注:本文译自一篇博客,作者行文较随意,我尽量按原意翻译,但作者所介绍的知识还是非常好的,包括例子的选择、理论的介绍都很到位,由浅入深, 源文地址 )   近些年来,人工智能领域又活跃起来,除了传统了学术圈外,Google、Microsoft、facebook等工业界优秀企业也纷纷成立相关研究团队,并取得了很多令人瞩目的成果。这要归功于社交网络用户产生的大量数据,这些数据大都是原始数据,需要被进一步分析处理;还要归功于廉价而又强大的计算资源的出现,比如GPGPU的快速发展。   除去这些因素,AI尤其是机器学习领域出现的一股新潮流很大程度上推动了这次复兴——深度学习。本文中我将介绍深度学习背后的关键概念及算法,从最简单的元素开始并以此为基础进行下一步构建。   (本文作者也是Java deep learning library的作者,可以从 此处 获得,本文中的例子就是使用这个库实现的。如果你喜欢,可以在Github上给个星~。用法介绍也可以从 此处 获得) 机器学习基础   如果你不太熟悉相关知识,通常的机器学习过程如下:     1、机器学习算法需要输入少量标记好的样本,比如10张小狗的照片,其中1张标记为1(意为狗)其它的标记为0(意为不是狗)——本文主要使用监督式、二叉分类。     2、这些算法“学习”怎么样正确将狗的图片分类,然后再输入一个新的图片时

目标分割FCN讲解

倖福魔咒の 提交于 2020-02-24 13:38:19
目标分割FCN 0、 ABSTRACT 1、 INTRODUCTION 2、 稠密预测调整分类器 3、 去卷积--上采样 4、 跳跃结构 Reference 原文: Fully Convolutional Networks for Semantic Segmentation 收录:CVPR 2015 (The IEEE Conference on Computer Vision and Pattern Recognition) 代码: FCN code 年份 模型 重要贡献 2014 FCN 在语义分割中推广使用端对端卷积神经网络,使用反卷积来进行上采样 2015 U-Net 构建了一套完整 的编码解码器 2015 SegNet 将最大池化转换为解码器来提高分辨率 2015 Dilated Convolutions 更广范围内提高了内容的聚合并不降低分辨率 2016 DeepLab v1&v2 2016 RefineNet 使用残差连接,降低了内存使用量,提高了模块间的特征融合 2016 PSPNet 2017 DeepLab V3 ※中心思想 :全卷积神经网络FCN主要使用以下三种技术: 卷积化(Convolutional) 上采样(Upsample) 跳跃结构(Skip Layer) 0、 ABSTRACT 论文核心思想 :构建 全卷积网络 ,该网络 接收任意大小的输入

图像分类(动手学深度学习)

狂风中的少年 提交于 2020-02-23 04:28:15
图像分类 本教程源代码目录在 book/image_classification , 初次使用请参考 PaddlePaddle 安装教程 ,更多内容请参考本教程的 视频课堂 。 背景介绍 图像相比文字能够提供更加生动、容易理解及更具艺术感的信息,是人们转递与交换信息的重要来源。在本教程中,我们专注于图像识别领域的一个重要问题,即 图像分类 。 图像分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。 图像分类在很多领域有广泛应用,包括安防领域的人脸识别和智能视频分析等,交通领域的交通场景识别,互联网领域基于内容的图像检索和相册自动归类,医学领域的图像识别等。 一般来说,图像分类通过手工特征或特征学习方法对整个图像进行全部描述,然后使用分类器判别物体类别,因此如何提取图像的特征至关重要。 在深度学习算法之前使用较多的是基于词袋(Bag of Words)模型的物体分类方法。 词袋方法从自然语言处理中引入,即一句话可以用一个装了词的袋子表示其特征,袋子中的词为句子中的单词、短语或字。对于图像而言,词袋方法需要构建字典。最简单的词袋模型框架可以设计为 底层特征抽取 、 特征编码 、 分类器设计 三个过程。 Now: 而基于深度学习的图像分类方法,可以通过有监督或无监督的方式 学习

YOLO V1论文理解

让人想犯罪 __ 提交于 2020-02-22 05:39:19
摘要 作者提出了一种新的物体检测方法YOLO。YOLO之前的物体检测方法主要是通过region proposal产生大量的可能包含待检测物体的 potential bounding box,再用分类器去判断每个 bounding box里是否包含有物体,以及物体所属类别的 probability或者 confidence,如R-CNN,Fast-R-CNN,Faster-R-CNN等。 YOLO不同于这些物体检测方法,它将物体检测任务当做一个regression问题来处理,使用一个神经网络,直接从一整张图像来预测出bounding box 的坐标、box中包含物体的置信度和物体的probabilities。因为YOLO的物体检测流程是在一个神经网络里完成的,所以可以end to end来优化物体检测性能。 YOLO检测物体的速度很快,标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。网络较小的版本Fast YOLO在保持mAP是之前的其他实时物体检测器的两倍的同时,检测速度可以达到155 FPS。 相较于其他的state-of-the-art 物体检测系统,YOLO在物体定位时更容易出错,但是在背景上预测出不存在的物体(false positives)的情况会少一些。而且,YOLO比DPM、R-CNN等物体检测系统能够学到更加抽象的物体的特征

卷积神经网络---CNN基础组件认识

ε祈祈猫儿з 提交于 2020-02-21 18:16:20
文章目录 卷积神经网络基础 二维卷积层 二维互相关运算 二维卷积层 互相关运算与卷积运算 特征图与感受野 填充和步幅 填充 步幅 多输入通道和多输出通道 多输入通道 多输出通道 1x1卷积层 卷积层与全连接层的对比 卷积层的简洁实现 池化 二维池化层 池化层的简洁实现 卷积神经网络基础 本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充、步幅、输入通道和输出通道的含义。 二维卷积层 本节介绍的是最常见的二维卷积层,常用于处理图像数据。 二维互相关运算 二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷积核的尺寸通常小于输入数组,卷积核在输入数组上滑动,在每个位置上,卷积核与该位置处的输入子数组按元素相乘并求和,得到输出数组中相应位置的元素。图1展示了一个互相关运算的例子,阴影部分分别是输入的第一个计算区域、核数组以及对应的输出。 图1 二维互相关运算 下面我们用 corr2d 函数实现二维互相关运算,它接受输入数组 X 与核数组 K ,并输出数组 Y 。 import torch import torch . nn as nn def corr2d ( X , K ) : H , W = X . shape h , w = K .

卷积神经网络的各种操作用途及意义

余生长醉 提交于 2020-02-21 17:44:50
【前馈神经网络】 前馈神经网络也叫做全连接网络。 缺点: 在图像识别中会将多维向量平铺成一维向量,会丢失像素点之间的距离关系。 无法将局部的权重应用到其他位置,带来的后果就是,如果在一个图像的右上角有一只猫,可以正确分类;当这只猫出现在左下角时,无法正确识别。( 没有 平移不变性 ) 【卷积神经网络】 卷积神经网络就是让权值在不同位置共享的神经网络。(卷积神经网络解决了前馈神经网络的什么问题?) 局部连接 空间共享 【局部连接】 如上图就是卷积运算,可以表示如下(两种不同的表达方式): 这是单通道、单卷积核下的计算方式。 每一次卷积运算,其实就是一次局部区域的线性组合,加上一个偏置后,得到下一层网络的一个神经元的输出。 【空间共享】 当卷积核扫到其他位置计算输出节点时, 比如y1,w1,w2,w3,w4 和b 0 是共用的 。 要注意这里的空间共享是指的在 高 和 宽 方向上的共享,在通道数上并不共享。 空间共享也就是卷积神经网络所引入的 先验知识 。 【输出表达】 在前面说,前馈神经网络时说到,如果将图片向量表示,就失去了平面结构信息,因此在输出时,卷积神经网络依然保留了矩阵的排列方式。如下图: 其实,经过一个卷积计算后得到一个神经元,比如上面蓝色的0,这个神经元叫做“Convolved Feature”或“Activation Map”或“Feature Map”

deeplearning_class5:卷积神经网络

…衆ロ難τιáo~ 提交于 2020-02-21 10:17:05
1 二维卷积层 卷积神经网络中最常见的是二维卷积层,常用与图像处理。 1.1 二维互相关运算 二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷积核的尺寸通常小于输入数组,卷积核在输入数组上滑动,在每个位置上,卷积核与该位置处的输入子数组按元素相乘并求和,得到输出数组中相应位置的元素。图1展示了一个互相关运算的例子,阴影部分分别是输入的第一个计算区域、核数组以及对应的输出。 1.2 互相关运算与卷积运算 卷积层得名于卷积运算,但卷积层中用到的并非卷积运算而是互相关运算。我们将核数组上下翻转、左右翻转,再与输入数组做互相关运算,这一过程就是卷积运算。由于卷积层的核数组是可学习的,所以使用互相关运算与使用卷积运算并无本质区别。 1.3 特征图与感受野 二维卷积层输出的二维数组可以看作是输入在空间维度(宽和高)上某一级的表征,也叫特征图(feature map)。影响元素 𝑥 的前向计算的所有可能输入区域(可能大于输入的实际尺寸)叫做 𝑥 的感受野(receptive field)。 以图1为例,输入中阴影部分的四个元素是输出中阴影部分元素的感受野。我们将图中形状为 2×2 的输出记为 𝑌 ,将 𝑌 与另一个形状为 2×2 的核数组做互相关运算

(ICASSP 18)Temporal Modeling Using Dilated Convolution and Gating for Voice-Activity-Detection

≯℡__Kan透↙ 提交于 2020-02-20 17:46:09
会议:ICASSP 2018 论文: Temporal Modeling Using Dilated Convolution and Gating for Voice-Activity-Detection 作者:Shuo-Yiin Chang, Bo Li, Gabor Simko, Tara N Sainath, Anshuman Tripathi, Aäron van den Oord, Oriol Vinyals Abstract 语音活动检测(VAD)是预测话语的哪些部分包含语音与背景噪声的任务。确定要发送到解码器的样本以及何时关闭麦克风是重要的第一步。长短期记忆神经网络(LSTM)是用于声音信号顺序建模的一种流行架构,并且已成功用于多种VAD应用程序中。然而,已经观察到,当发声时间长时(即,对于语音命令任务),LSTM遭受状态饱和问题,因此需要周期性地重置LSTM状态。在本文中,我们通过通过无状态扩张卷积神经网络(CNN)对时间变化进行建模,提出了一种不会遭受饱和问题的替代架构。所提出的体系结构在三个方面与传统的CNN不同:它使用了因果卷积,门控激活和残余连接。Google语音键入任务的结果表明,与VAD任务的最新LSTM相比,所提出的体系结构在FR为1%时实现了14%的相对FA改进。我们还包括详细的实验,以研究将建议的体系结构与常规卷积区分开的因素。

AlexNet、VGG11、NiN、GoogLeNet等网络的Pytorch实现

房东的猫 提交于 2020-02-20 07:03:42
目录 AlexNet AlexNet摘要 AlexNet代码 VGG VGG摘要 VGG的优缺点 代码 NiN NiN摘要 GoogLeNet GoogLeNet完整结构 AlexNet AlexNet摘要 由于受到计算机性能的影响,虽然LeNet在图像分类中取得了较好的成绩,但是并没有引起很多的关注。 知道2012年,Alex等人提出的AlexNet网络在ImageNet大赛上以远超第二名的成绩夺冠,卷积神经网络乃至深度学习重新引起了广泛的关注 AlexNet是在LeNet的基础上加深了网络的结构,学习更丰富更高维的图像特征。AlexNet的特点: 更深的网络结构 使用层叠的卷积层,即卷积层+卷积层+池化层来提取图像的特征 使用Dropout抑制过拟合 使用数据增强Data Augmentation(如翻转、裁剪和颜色变化)抑制过拟合 使用Relu替换之前的sigmoid的作为激活函数 多GPU训练 8层变换,其中有5层卷积和2层全连接隐藏层,以及1个全连接输出层 AlexNet首次证明了学习到的特征可以超越⼿⼯设计的特征,从而⼀举打破计算机视觉研究的前状。 (左边是LeNet的网络结构,右边是AlexNet的网络结构) AlexNet代码 !pip install torchtext import time import torch from torch import nn ,