imagenet

AlexNet卷积神经网络

徘徊边缘 提交于 2020-01-08 02:06:24
译者按: 祖师爷Hinton 带领的小组经典之作,深度学习开山祖师 Hinton率领的谷歌团队多次夺冠 ,主力成员为 hinton 在多伦多大学的学生 Alex Krizhevsky , Ilya Sutskever , 因此他们的解决方案也叫alexnet , 这篇文章是hinton大神团队的代表性之作,CNN (卷积神经网络)已经成为图像识别处理的标准,alexnet作为CNN的代表性方案基础,开创性的GPU计算卷积 , 仿生视觉细胞的局部感受野等手段解决了图像处理的难题, 和同期的VGG、ResNet、GoogleNet等比肩,使得图像识别成为了人工智能的最成功领域。 ImageNet是一个计算机视觉系统识别项目,缔造者为斯坦福大学教授李飞飞 ,是目前图像识别最大的数据库。是美国斯坦福的计算机科学家,模拟人类的识别系统建立的。能够从图片识别物体。ImageNetLSVRC图像识别大赛素有国际“计算机视觉奥林匹克“之称。数据集包含大约1000多万张各种图片,被分为1000个分类,参赛者训练分类器,在测试数据上取得最高辨识正确率者为优胜。 原文地址: http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks 作者 : University of

Caffe ImageNet官方文档中文版

为君一笑 提交于 2020-01-04 16:39:02
文档大部分都是机翻,本人英语未过四级,所以凑合看吧 构建ImageNet 本指南旨在让您准备好根据自己的数据训练自己的模型。如果你只是想要一个ImageNet训练的网络,那么注意,由于训练需要很多电能,我们讨厌全球变暖,我们在model zoo提供如下所述训练的CaffeNet模型。 数据准备 该指南指定所有路径并假定所有命令都从根caffe目录执行。(即~/caffe) 通过“ImageNet”我们这里意味着ILSVRC12挑战,但你也可以轻松地训练整个ImageNet,只是需要更多的磁盘空间,和一个更长的训练时间。 我们假设您已经下载了ImageNet培训数据和验证数据,并且它们存储在您的磁盘上,如: /path/to/imagenet/train/n01440764/n01440764_10026.JPEG /path/to/imagenet/val/ILSVRC2012_val_00000001.JPEG 您将首先需要准备一些辅助数据进行培训。此数据可通过以下方式下载:(在caffe目录下直接执行即可) ./data/ilsvrc12/get_ilsvrc_aux.sh 训练数据和验证数据输入在文本中描述train.txt和val.txt列出所有文件及其标签。注意,我们使用不同于ILSVRC devkit的标签索引:我们按照ASCII顺序对synset名称进行排序

ILSVRC竞赛详细介绍(ImageNet Large Scale Visual Recognition Challenge)

ⅰ亾dé卋堺 提交于 2020-01-02 10:31:44
ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 是近年来机器视觉领域最受追捧也是最具权威的学术竞赛之一,代表了图像领域的最高水平。 ImageNet 数据集是 ILSVRC 竞赛使用的是数据集,由斯坦福大学李飞飞教授主导,包含了超过1400万张全尺寸的有标记图片。 ILSVRC 比赛会每年从 ImageNet 数据集中抽出部分样本,以2012年为例,比赛的训练集包含1281167张图片,验证集包含50000张图片,测试集为100000张图片。 ILSVRC 竞赛的项目主要包括以下几个问题: (1)图像分类与目标定位(CLS-LOC) 图像分类的任务是要判断图片中物体在1000个分类中所属的类别,主要采用 top-5 错误率的评估方式,即对于每张图给出5次猜测结果,只要5次中有一次命中真实类别就算正确分类,最后统计没有命中的错误率。 2012年之前,图像分类最好的成绩是26%的错误率,2012年 AlexNet 的出现降低了10个百分点,错误率降到16%。2016年,公安部第三研究所选派的“搜神”( Trimps-Soushen )代表队在这一项目中获得冠军,将成绩提高到仅有2.9%的错误率。 目标定位是在分类的基础上,从图片中标识出目标物体所在的位置,用方框框定,以错误率作为评判标准

VGG图像分割

只愿长相守 提交于 2019-12-28 05:38:34
补丁级别:VGG 在补丁级别的训练中,我们将image和ground-truth64×64像素)进行了网格化处理,每个补丁的面积为4096像素。当ground-truth中的像素值之和大于2048时,我们给相应的原始图像patch加上正的标签。否则我们就给它加上一个负号。然而,如果我们这样处理,正的图像补丁比负的图像补丁要少。为了在训练过程中平衡数据,我们通过翻转和垂直方向增加正图像patch,并在训练集中旋转90、180、270度。同时,我们通过fl增加正图像patch 在patch-level,我们在Vgg-16, incep - v3, ResNet-50网络中进行transfer learning,得到3个patch-一元分割结果和3个patch-二进制分割结果。然后我们得到了加权的补丁-一元分割结果和加权的补丁-二元分割结果。 今晚看了挺多代码有个感悟,如果想简便一些,用keras真的挺好,更多封装好的库。tf的话需要的代码行数多,不过可以根据不同需求选择吧。 关于Application Keras 的应用模块(keras.applications)提供了带有预训练权值的深度学习模型,这些模型可以用来进行预测、特征提取和微调(fine-tuning)。当你初始化一个预训练模型时,会自动下载权值到 ~/.keras/models/ 目录下。 keras内置的Model 在

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时3

可紊 提交于 2019-12-27 17:31:15
课时3 计算机视觉历史回顾与介绍下 ImageNet有5000万张图片,全部都是人工清洗过得,标注了超过2万个分类。 CS231n将聚焦于视觉识别问题,图像分类关注的是大图整体;物体检测告诉你东西具体出现在图片的哪里以及物体之间的联系是什么之类的。 CNN是深度学习架构的一种,2012年之前的imageNet,都是特征+支持向量机的,也是分层结构,但没有端到端的特征; Kunihiko Fukushima提出了一个模型,称为Neocognitron,是神经网络架构的开端。 数据本身并没有什么意义,但是在深度学习架构中,数据成了高性能架构的驱动力,来执行端到端的训练,帮助解决过拟合问题,只要有足量的数据。 愿景 :给电脑一张图片,电脑可以输出描述性文字(一句话之类的)。 来源: https://www.cnblogs.com/bxyan/p/6730138.html

RCNN (Regions with CNN) 目标物检测 Fast RCNN的基础

眉间皱痕 提交于 2019-12-26 09:45:32
Abstract: 贡献主要有两点1:可以将卷积神经网络应用region proposal的策略,自底下上训练可以用来定位目标物和图像分割 2:当标注数据是比较稀疏的时候,在有监督的数据集上训练之后到特定任务的数据集上fine-tuning可以得到较好的新能,也就是说用Imagenet上训练好的模型,然后到你自己需要训练的数据上fine-tuning一下,检测效果很好。现在达到的效果比目前最好的DPM方法 mAP还要高上20点,目前voc上性能最好。 着篇文章主要是介绍RCNN,跟后面的,Fast RCNN和Faster RCNN比较关联,这篇文章是后两个的基础 1.介绍 在开始他说到LeCun对卷积神经网络中采用的SGD(通过反向传播的随机梯度下降算法)对网络训练很有效,也直接促进了利用CNN来做检测。 其实CNN的算法在90年代就已经出现了,可惜当时被SVM取代了,主要原因就是当时训练不动。2012年的时候Krizhevsky复燃了CNN,其在Imagenet的数据集上训练达到了非常好的效果,主要是用了LeCun中的一些技巧如(rectifying non-linearities and “dropout” regularization) 后来就有了讨论说把CNN方到目标检测上能达到什么样的效果。因此RossGirshick把问题主要聚集在了2个点上:

Caffe | data augmentation by random cropping

╄→гoц情女王★ 提交于 2019-12-24 00:52:58
问题 I am trying to train my own network on Caffe, similar to Imagenet model. But I am confused with the crop layer. Till the point I understand about crop layer in Imagenet model, during training it will take random 227x227 image crops and train the network. But during testing it will take the center 227x227 image crop, does not we loose the information from image while we crop the center 227x27 image from 256x256 image? And second question, how can we define the number of crops to be taken

Convolutional ImageNet network is invariant to flipping images

一个人想着一个人 提交于 2019-12-23 22:15:33
问题 I am using Deep learning caffe framework for image classification. I have coins with faces. Some of them are left directed some of them are right. To classify them I am using common aproach - take weights and structure from pretrained ImageNet network that have already capture a lot of image patterns and train mostly the last layer to fit my training set. But I have found that netowork does not works on this set: I have taken some coin for example leftdirected , generated horizontally flipped

经典分类模型(七):ResNext(2017)

拈花ヽ惹草 提交于 2019-12-17 01:26:31
Aggregated Residual Transformations for Deep Neural Networks----2017ResNext Abstract 我们提出了一种用于图像分类的简单, 高度模块化 的网络体系结构。我们的网络是通过 重复构建模块 来构建的,该模块聚合具有相同拓扑的一组转换。我们的简单设计导致了同类的多分支架构,仅需设置几个超参数。 此策略提供了一个新维度,我们将其称为“基数”(转换集的大小),它是深度和宽度维度之外的一个重要因素。 在ImageNet-1K数据集上,我们根据经验表明,即使在保持复杂性的限制条件下, 增加基数也可以提高分类精度 。此外,当我们增加容量时,增加基数比深入或更广泛更有效。我们的模型名为 ResNeXt ,是我们进入2016年ILSVRC分类任务的基础,我们获得了第二名。我们进一步在ImageNet-5K集和COCO检测集上对ResNeXt进行了研究,其结果也比ResNet同类要好。该代码和模型可以在线公开获得1。 1.Introduction 视觉识别的研究正在经历从“功能工程”到“网络工程”的转变[25、24、44、34、36、38、14]。与传统的手工设计特征(例如,SIFT [29]和HOG [5])相反,神经网络从大规模数据中学习的特征[33]在训练过程中所需的人力最少,并且可以转移到各种识别任务中[7,10

Unsupervised Feature Learning via Non-Parametric Instance Discrimination

試著忘記壹切 提交于 2019-12-14 01:08:08
论文地址: Unsupervised Feature Learning via Non-Parametric Instance Discrimination github代码: NCE代码 摘要: 在有标签数据上训练的神经网络分类器能够很好的捕捉图片间的视觉相似性。文章假设:我们能通过训练基于实例(将每一个样本视为单独的类别)的分类器代替基于类别的分类器,得到可以捕捉视觉相似性的特征表达。我们将其总结为 非参数化实例级判别 ,并且通过**噪声对比估计(noise-contrastive estimation)**解决大量实例类别引起的计算困难。 我们的实验证明了,在无监督学习的限制下,我们的方法在ImageNet数据集上超越了当前最好方法。采用更多的训练数据和更先进的网络结构,我们的方法能够进一步提高分类准确率。通过微调学习到的特征,我们能观察到与半监督学习和目标检测任务上相当的结果。同时,我们的非参数化模型十分紧致:每张图片仅需要提取128维的特征,百万量级的图片也仅需要600MB存储空间,使得实际运行时能够很快达成近邻检索的目的。 引言 研究者在本文中提出的无监督学习的创新方法源于对监督学习物体识别结果的一些观察。在 ImageNet 上,top-5 分类误差远低于 top-1 误差 ,并且图像在 softmax 层输出中的预测值排第二的响应类更可能与真实类有视觉关联。 如图