cnn深度学习

Focal Loss for Dense Object Detection - 1 - 论文学习

偶尔善良 提交于 2020-03-17 13:04:18
Abstract 迄今为止,精确度最高的目标探测器是基于R-CNN推广的两阶段方法,其中分类器应用于稀疏的候选对象位置集合。相比之下,对可能的目标位置进行常规、密集采样的单级探测器有可能更快、更简单,但迄今仍落后于两阶段探测器的精度。在这篇文章中,我们研究为什么会这样。我们发现,在高密度探测器的训练过程中所遇到的极度前、后级不平衡是其主要原因。我们建议通过重塑标准的交叉熵损失来解决这类不平衡,这样它就可以降低分类良好的例子的损失。我们的新Focal loss损失集中在一组稀疏的困难例子的训练,并防止训练期间大量的容易检测的负样本压倒探测器。为了评估损失的有效性,我们设计并训练了一个简单的高密度探测器,我们称之为RetinaNet。我们的结果表明,当使用Focal loss训练时,RetinaNet能够达到以前单阶段探测器的速度,同时超过所有现有的最先进的两阶段探测器的精度。代码是:https://github.com/facebookresearch/Detectron. 1. Introduction 目前最先进的目标探测器是基于一个两阶段,proposal驱动的机制。正如R-CNN框架[11]所推广的那样,第一阶段生成一组稀疏的候选对象位置,第二阶段使用卷积神经网络将每个候选位置分类为前景类或背景类。通过一系列的改进[10,28,20,14]

卷积神经网络

不想你离开。 提交于 2020-03-16 00:09:38
本文转自 http://www.36dsj.com/archives/24006?utm_source=open-open C-层: 卷积层(Convolutional layer ) S-层: 子采样层(Subsampling layer ) 每层包含多个特征平面(Feature Map) 其中的卷积核是需要训练的,卷积层的特点是:特征增强 (映射效果), 降低噪声,平移不变性 CNN功能特性:局部特征提取(感受野,相对位置)(每一个神经元从上一层的局部接受域得到突触输人,因而迫使它提取局部特征。一旦一个特征被提取出来,只要它相对于其他特征的位置被近似地保留下来,它的精确位置就变得没有那么重要了); 特征映射(共享权值、抗变形)(网络的每一个计算层都是由多个特征映射组成的,每个特征映射都是平面形式的。平面中单独的神经元在约束下共享相同的突触权值集,这种结构形式具有如下的有益效果:a.平移不变性。b.自由参数数量的缩减(通过权值共享实现)。), 子采样(分辨率降低,变形敏感度下降)(每个卷积层跟着一个实现局部平均和子抽样的计算层,由此特征映射的分辨率降低。这种操作具有使特征映射的输出对平移和其他形式的变形的敏感度下降的作用。) 自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda

翻译与学习:基于深度卷积神经网络的ImageNet分类器

末鹿安然 提交于 2020-03-12 17:09:11
基于卷积神经网络的ImageNet分类器 作者: Alex Krizhevsky-多伦多大学(加拿大) Ilye Sutskever-多伦多大学 Geoffrey E. Hinton-多伦多大学 摘要 我们训练了一个大型的深度卷积神经网络去将2010年ILSVRC挑战杯包含的120万高分辨率图像分类成1000种不同的类别。在测试数据方面,我们取得了远超过去最佳水平的效果,分别为17%和37.5%的top-5和top-1错误率。有着6000万参数和65万神经元的神经网络由5个部分连接Max池化层的卷积层和3个全连接层连带着1000路softmax组成。为了加快训练速度。我们采用非饱和神经元和一个高效的卷积操作的GPU执行器。为了降低全连接层的过拟合,我们采用了一项近期发展的已被证明有效的名为dropout的正则化方法。 1 引言 解决物体识别的最新方法必不可少的使用机器学习方法。为了提高他们的表现,我们可以收集更大的数据集,训练更有效的模型,并且使用更先进的技术去阻止过拟合。直到近期,有标识的图像数据集相当的小——大约数万张图片的状况才改变。简单的识别任务能够被有效的解决好在这一规模的数据集上,特别是如果他们采用了数据增强。例如,MNIST数字识别任务的最新错误率(0.3%)已接近人类表现。但现实场景中的对象表现出相当大的变异性,所以为了学习识别它们,使用更大的训练集是非常必要的

CNN原理真是小儿科?

走远了吗. 提交于 2020-03-10 22:08:41
CNN原理 流程 池化(Pooling) Normalization 激活函数Relu (Rectified Linear Units) CNN 全连接层(Fully connected layers) 反向传播 (Backpropagation) 流程 CNN 一般涉及 卷积 ,池化 ,单位化,激活函数 。 其中 卷积 已经介绍。 池化(Pooling) CNN中使用的另一个有效的工具被称为“池化(Pooling)”。池化可以将一幅大的图像缩小,同时又保留其中的重要信息。池化背后的数学顶多也就是小学二年级水平。它就是将输入图像进行缩小,减少像素信息,只保留重要信息。通常情况下,池化都是2 2大小,比如对于max-pooling来说,就是取输入图像中2 2大小的块中的最大值,作为结果的像素值,相当于将原始图像缩小了4倍。(注:同理,对于average-pooling来说,就是取2*2大小块的平均值作为结果的像素值。) 对于本文的这个例子,池化操作具体如下: 不足的外面补"0": 经过最大池化操作(比如2*2大小)之后,一幅图就缩小为原来的四分之一了: 然后对所有的feature map执行同样的操作,得到如下结果: 因为最大池化(max-pooling)保留了每一个小块内的最大值,所以它相当于保留了这一块最佳的匹配结果(因为值越接近1表示匹配越好)

cnn提取基本特征的例子

感情迁移 提交于 2020-03-05 18:14:10
<div class="text-title"> <h1> 原来CNN是这样提取图像特征的。。。 <span class="article-tag"> </span> </h1> <div class="article-info"> <span class="time" id="news-time" data-val="1542969000000">2018-11-23 18:30</span> <span data-role="original-link">来源:<a href="https://www.sohu.com/?spm=smpc.content.content.1.1583387992313onUFvkL" target="_blank" data-spm-data="1">计算机视觉life</a></span> </div> 原标题:原来CNN是这样提取图像特征的。。。 阅读本文8分钟就够了吧? 对于即将到来的人工智能时代,作为一个有理想有追求的程序员,不懂深度学习(Deep Learning)这个超热的领域,会不会感觉马上就out了?作为机器学习的一个分支,深度学习同样需要计算机获得强大的学习能力,那么问题来了,我们究竟要计算机学习什么东西?答案当然是图像特征了。将一张图像看做是一个个像素值组成的矩阵,那么对图像的分析就是对矩阵的数字进行分析,而图像的特征

研一汇报第十二周【下学期】

浪尽此生 提交于 2020-02-27 19:03:36
本次汇报内容 1、论文 《Fast R-CNN》Microsoft Research 2015年 / 《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 》空间金字塔池化网络,何恺明 2014年 2、 《Fast R-CNN》Microsoft Research Fast Region-based Convolutional Network 快速的基于区域的卷积网络 概要: Fast R-CNN以之前的工作为基础,利用深度卷积网络对项目提案进行有效分类,Fast R-CNN对VGG16网络进行了9倍于R-CNN的训练,在测试时的速度是213倍,并在 PASCAL VOC 2012 上实现了更高的mAP(检测质量)。与 SPPnet 金字塔网络相比,Fast R-CNN训练VGG16 3倍快,测试10倍快。 问题:R-CNN,候选窗口的特征是借助深度神经网络进行抽取的,在VOC和ImageNet数据集上都表现出了出色的检测精度。但R-CNN的特征计算十分耗时,因为它对每张图片中的上千个变形后的区域的像素反复调用CNN,SPPnet只需要在整张图片上运行一次卷积网络层(不关心窗口的数量),然后再使用SPP-net在特征图上抽取特征。这个方法缩减了上百倍的耗时。

CNN目标检测系列算法发展脉络——学习笔记(一):AlexNet

半腔热情 提交于 2020-02-25 19:27:33
   在咨询了老师的建议后,最近开始着手深入的学习一下目标检测算法,结合这两天所查到的资料和个人的理解,准备大致将CNN目标检测的发展脉络理一理(暂时只讲CNN系列部分,YOLO和SSD,后面会抽空整理)。   目标检测的发展大致起始于2000年前后(具体我也没去深究,如果有误还请大佬们指正 ●ˇ∀ˇ● ),早期受限于算力,目标检测发展的不温不火,直到半导体技术的进步,以及Hinton团队的榜样作用,图像的目标检测才开始有了突飞猛进的发展。   就我个人理解,从2012年至今的目标检测的发展,并没有在算法上呈现出本质性的突破,更多的是将前人已经提出的算法/技巧,进行了巧妙的组合与优化,然后在高速设备上进行快速的验证与迭代,才有了目标检测如今繁荣的发展现状。(当然,也可能是因为小弟对学术界的发展所知甚少,而导致了一种以偏概全的理解🙃emm。。。)   接下来的几篇博客会按照 AlexNet --> R-CNN -->FastRCNN -->FasterRCNN --> MaskRCNN 的顺序来整理,今天的内容是ALexNet,因为我的目的在于简析目标检测发展脉络,把握算法的改进路线,所以不会特别详细的讲解算法原理(好吧,我就是懒的写怎么滴~( ̄▽ ̄)~*),只挑与“改进/发展”相关的部分内容简析,以作为我对目标检测领域的综述性学习笔记。 AlexNet    说起AlexNet

deep learning 经典网络模型之Alexnet、VGG、Googlenet、Resnet

爷,独闯天下 提交于 2020-02-25 19:01:29
CNN的发展史 上一篇回顾讲的是2006年Hinton他们的Science Paper,当时提到,2006年虽然Deep Learning的概念被提出来了,但是学术界的大家还是表示不服。当时有流传的段子是Hinton的学生在台上讲paper时,台下的机器学习大牛们不屑一顾,质问你们的东西有理论推导吗?有数学基础吗?搞得过SVM之类吗?回头来看,就算是真的,大牛们也确实不算无理取闹,是骡子是马拉出来遛遛,不要光提个概念。 时间终于到了2012年,Hinton的学生Alex Krizhevsky在寝室用GPU死磕了一个Deep Learning模型,一举摘下了视觉领域竞赛ILSVRC 2012的桂冠,在百万量级的ImageNet数据集合上,效果大幅度超过传统的方法,从传统的70%多提升到80%多。个人觉得,当时最符合Hinton他们心境的歌非《我不做大哥好多年》莫属。 这个Deep Learning模型就是后来大名鼎鼎的AlexNet模型。这从天而降的AlexNet为何能耐如此之大?有三个很重要的原因: 大量数据,Deep Learning领域应该感谢李飞飞团队搞出来如此大的标注数据集合ImageNet; GPU,这种高度并行的计算神器确实助了洪荒之力,没有神器在手,Alex估计不敢搞太复杂的模型; 算法的改进,包括网络变深、数据增强、ReLU、Dropout等,这个后面后详细介绍。

(ICASSP 18)Temporal Modeling Using Dilated Convolution and Gating for Voice-Activity-Detection

≯℡__Kan透↙ 提交于 2020-02-20 17:46:09
会议:ICASSP 2018 论文: Temporal Modeling Using Dilated Convolution and Gating for Voice-Activity-Detection 作者:Shuo-Yiin Chang, Bo Li, Gabor Simko, Tara N Sainath, Anshuman Tripathi, Aäron van den Oord, Oriol Vinyals Abstract 语音活动检测(VAD)是预测话语的哪些部分包含语音与背景噪声的任务。确定要发送到解码器的样本以及何时关闭麦克风是重要的第一步。长短期记忆神经网络(LSTM)是用于声音信号顺序建模的一种流行架构,并且已成功用于多种VAD应用程序中。然而,已经观察到,当发声时间长时(即,对于语音命令任务),LSTM遭受状态饱和问题,因此需要周期性地重置LSTM状态。在本文中,我们通过通过无状态扩张卷积神经网络(CNN)对时间变化进行建模,提出了一种不会遭受饱和问题的替代架构。所提出的体系结构在三个方面与传统的CNN不同:它使用了因果卷积,门控激活和残余连接。Google语音键入任务的结果表明,与VAD任务的最新LSTM相比,所提出的体系结构在FR为1%时实现了14%的相对FA改进。我们还包括详细的实验,以研究将建议的体系结构与常规卷积区分开的因素。

F-RCN论文阅读及难点解析

拥有回忆 提交于 2020-02-20 06:33:38
论文名称:《 R-FCN:object detection via region-based fully convolutional networks 》 论文下载:http://papers.nips.cc/paper/6465-r-fcn-object-detection-via-region-based-fully-convolutional-networks.pdf 论文代码:https://github.com/daijifeng001/r-fcn 一、概述: 1、R-FCN创新点: R-FCN要解决的根本问题是Faster R-CNN检测速度慢的问题。Faster R-CNN速度慢是因为ROI层后的结构对不同的proposal是不共享的,试想下如果有300个proposal,ROI后的全连接网络就要计算300次,耗时惊人。所以本文作者把ROI后的结构往前挪来提升速度,但光是挪动下还不行,ROI在conv5后会引起上节提到的平移可变性问题,必须通过其他方法加强结构的平移可变性,Position-sensitive score map因此而生。 归纳如下: (1)提出Position-sensitive score maps来解决目标检测的位置敏感性问题; (2)充分利用全卷积网络来减少总体计算量,提升速度比Faster-RCNN快2.5-20倍; 2、R