cnn深度学习

CNN原理

萝らか妹 提交于 2019-11-28 01:07:34
卷积神经网络(Convolutional Neural Network)的结构类似于神经网络,可以看做是对其的改进。它利用 局部连接 、 权值共享 、 多核卷积 、 池化 四个手段大大降低了参数的数目,使得网络的层数可以变得更深,并且能够合理的隐式的提取特征。CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于其特征检测层通过训练数据进行学习,隐式地从训练数据中进行学习, 避免了显式的特征抽取 ;再者由于同一特征映射面上的神经元权值相同,所以 网络可以并行学习 ,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是 多维输入向量的图像 可以直接输入网络 这一特点避免了特征提取和分类过程中数据重建的复杂度它可以直接处理灰度图片,能够直接用于处理基于图像的分类。 卷积神经网络是一种带有卷积结构的深度神经网络,卷积结构可以减少深层网络占用的内存量。卷积神经网络的结构组成如下图: 其中包含有: 输入层、 卷积层 (Convolutional Layer)、 激励层 (ReLU layer) 池化层 (下采样层Pooling Layer)、 全连接层 (Fully Connected Network) 输出层 卷积神经网络层、池化层

CNN中各类卷积总结:残差、shuffle、空洞卷积、变形卷积核、可分离卷积等

回眸只為那壹抹淺笑 提交于 2019-11-27 03:52:56
CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量。我下面会对近几年一些具有变革性的工作进行简单盘点,从这些充满革新性的工作中探讨日后的CNN变革方向。 注:水平所限,下面的见解或许有偏差,望大牛指正。另外只介绍其中具有代表性的模型,一些著名的模型由于原理相同将不作介绍,若有遗漏也欢迎指出。 一、卷积只能在同一组进行吗?-- Group convolution Group convolution 分组卷积,最早在AlexNet中出现,由于当时的硬件资源有限,训练AlexNet时卷积操作不能全部放在同一个GPU处理,因此作者把feature maps分给多个GPU分别进行处理,最后把多个GPU的结果进行融合。 alexnet 分组卷积的思想影响比较深远,当前一些轻量级的SOTA(State Of The Art)网络,都用到了分组卷积的操作,以节省计算量。但题主有个疑问是,如果分组卷积是分在不同GPU上的话,每个GPU的计算量就降低到 1/groups,但如果依然在同一个GPU上计算,最终整体的计算量是否不变?找了pytorch上有关组卷积操作的介绍,望读者解答我的疑问。 pytroch github EDIT: 关于这个问题,知乎用户朋友 @蔡冠羽 提出了他的见解: 我感觉group

DNN-HMM语音识别的声学模型

一笑奈何 提交于 2019-11-26 20:14:38
基于DNN-HMM的语音识别声学模型结构如下图所示,与传统的基于GMM-HMM的声学模型相比,唯一不同点在于用DNN替换了GMM来对输入语音信号的观察概率进行建模。DNN与GMM相比具有如下优点: DNN不需要对声学特征所服从的分布进行假设; DNN的输入可以采用连续的拼接帧,因而可以更好地利用上下文的信息; DNN的训练过程可以采用随机优化算法来实现,而不是采用传统的批优化算法,因此当训练数据规模较大时也能进行非常高效的训练,显然,训练数据规模越大,所得到的声学模型就越精确,也就越有利于提高语音识别的性能; 在发音模式分类上,DNN这种区分式模型也要比GMM这种产生式模型更加合适。 DNN的输入是传统的语音波形经过加窗、分帧,然后提取出来的频谱特征,如MFCC、PLP或更底层的滤波器组(filter bank,FBK)声学特征等。FBK特征多利用Mel滤波器组在功率谱上进行滤波并计算对数能量,然后采用其规整值来表示。目前,FBK特征获得了广泛的成功,证明了原始语音频率对于基于DNN的语音识别技术的重要性。与传统的GMM采用单帧特征作为输入不同,DNN将相邻的若干帧进行拼接来得到一个包含更多信息的输入向量。研究表明,采用拼接帧作为输入是DNN相比GMM能获得明显性能提升的关键因素之一。 DNN输出向量的维度对应HMM中状态的个数,通常每一维输出对应一个绑定的triphone状态

卷积神经网络(CNN)原理

走远了吗. 提交于 2019-11-26 19:56:29
卷积神经网络的训练过程分为两个阶段。第一个阶段是数据由低层次向高层次传播的阶段,即前向传播阶段。另外一个阶段是,当前向传播得出的结果与预期不相符时,将误差从高层次向底层次进行传播训练的阶段,即反向传播阶段。训练过程如图4-1所示。训练过程为: 1、网络进行权值的初始化; 2、输入数据经过卷积层、下采样层、全连接层的向前传播得到输出值; 3、求出网络的输出值与目标值之间的误差; 4、当误差大于我们的期望值时,将误差传回网络中,依次求得全连接层,下采样层,卷积层的误差。各层的误差可以理解为对于网络的总误差,网络应承担多少;当误差等于或小于我们的期望值时,结束训练。 5、根据求得误差进行权值更新。然后在进入到第二步。 图4-1卷积神经网络的训练过程 1.1卷积神经网络的前向传播过程 在前向传播过程中,输入的图形数据经过多层卷积层的卷积和池化处理,提出特征向量,将特征向量传入全连接层中,得出分类识别的结果。当输出的结果与我们的期望值相符时,输出结果。 1.1.1卷积层的向前传播过程 卷积层的向前传播过程是,通过卷积核对输入数据进行卷积操作得到卷积操作。数据在实际的网络中的计算过程,我们以图3-4为例,介绍卷积层的向前传播过程。其中一个输入为15个神经元的图片,卷积核为2×2×1的网络,即卷积核的权值为W1,W2,W3,W4。那么卷积核对于输入数据的卷积过程,如下图4-2所示

[转帖]CNN、RNN、DNN的一般解释

邮差的信 提交于 2019-11-26 07:22:55
CNN、RNN、DNN的一般解释 https://www.jianshu.com/p/bab3bbddb06b?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation 0.0952017.10.16 19:10:36字数 3,145阅读 4,648 CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别? 转自知乎 科言君 的回答 神经网络技术起源于上世纪五、六十年代,当时叫感知机(perceptron),拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。早期感知机的推动者是Rosenblatt。 (扯一个不相关的:由于计算技术的落后,当时感知器传输函数是用线拉动变阻器改变电阻的方法机械实现的,脑补一下科学家们扯着密密麻麻的导线的样子…) 但是,Rosenblatt的单层感知机有一个严重得不能再严重的问题,即它对稍复杂一些的函数都无能为力(比如最为典型的“异或”操作)。连异或都不能拟合,你还能指望这货有什么实际用途么o(╯□╰)o 随着数学的发展,这个缺点直到上世纪八十年代才被Rumelhart、Williams、Hinton、LeCun等人(反正就是一票大牛)发明的多层感知机

【论文阅读】Material Recognition in the Wild with the Materials in Context Database

寵の児 提交于 2019-11-26 06:57:04
康奈尔大学计算机系 貌似这里的patches补丁就是图片的意思。 一、摘要 识别真实图像中的材料是一项具有挑战性的任务。真实世界的材料具有丰富的表面纹理,几何形状,照明条件和杂乱,这使得问题特别困难。在本文中,我们介绍了一个新的,大规模,开放的野外材料数据集,上下文材料数据库(MINC),并将该数据集与深度学习相结合,以实现野外图像的材料识别和分割。 MINC比以前的材料数据库大一个数量级,同时在23个类别中更加多样化和良好采样。使用MINC,我们训练卷积神经网络(CNN)用于两个任务:从pathes中分类材料;在完整图像中同时进行材料识别和分割。对于MINC上基于补丁的分类,我们发现性能最佳的CNN架构可以达到 85.2% 的平均类精度。我们将这些经过训练的CNN分类器转换为高效的全卷积框架,并结合全连接的条件随机场(CRF)来预测图像中每个像素的材料,实现 73.1% 的平均类精度( 精度下降了? )。我们的实验表明,拥有一个大型,采样良好的数据集(如MINC)对于真实世界的材料识别和分割至关重要。 二、内容 (1)介绍 材料识别在我们理解和与世界互动中起着至关重要的作用。为了判断表面是否易于行走,或者用什么样的抓握来拾取物体,我们必须识别周围的环境中的材料。 材料自动识别在各种应用中都很有用,包括机器人,产品搜索和内部设计的图像

理解CNN卷积层与池化层计算

二次信任 提交于 2019-11-26 00:25:01
概述 深度学习中CNN网络是核心,对CNN网络来说卷积层与池化层的计算至关重要,不同的步长、填充方式、卷积核大小、池化层策略等都会对最终输出模型与参数、计算复杂度产生重要影响,本文将从卷积层与池化层计算这些相关参数出发,演示一下不同步长、填充方式、卷积核大小计算结果差异。 一:卷积层 卷积神经网络(CNN)第一次提出是在1997年,杨乐春(LeNet)大神的一篇关于数字OCR识别的论文,在2012年的ImageNet竞赛中CNN网络成功击败其它非DNN模型算法,从此获得学术界的关注与工业界的兴趣。毫无疑问学习深度学习必须要学习CNN网络,学习CNN就必须明白卷积层,池化层等这些基础各层,以及它们的参数意义,从本质上来说,图像卷积都是离散卷积,图像数据一般都是多维度数据(至少两维),离散卷积本质上是线性变换、具有稀疏与参数重用特征即相同参数可以应用输入图像的不同小分块,假设有3x3离散卷积核如下: 假设有 5x5的图像输入块 步长为1(strides=1) 填充方式为VALID(Padding=VALID) 卷积核大小filter size=3x3 则它们的计算过程与输出如下 假设这个时候我们修改步长为2、填充方式为SAME,卷积核大小不变(strides=2 Padding=SAME filter size=3x3),则计算过程与输出变为如下: