图像深度

深度学习常用方法

吃可爱长大的小学妹 提交于 2020-03-31 05:18:56
Deep Learning的常用模型或者方法   1、AutoEncoder自动编码器 Deep Learning最简单的一种方法是利用人工神经网络的特点,人工神经网络(ANN)本身就是具有层次结构的系统,如果给定一个神经网络,我们假设其输出与输入是相同的,然后训练调整其参数,得到每一层中的权重。自然地,我们就得到了输入I的几种不同表示(每一层代表一种表示),这些表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现,自动编码器就必须捕捉可以代表输入数据的最重要的因素,就像PCA那样,找到可以代表原信息的主要成分。 具体过程简单的说明如下:   1)给定无标签数据,用非监督学习学习特征:            在我们之前的神经网络中,如第一个图,我们输入的样本是有标签的,即(input, target),这样我们根据当前输出和target(label)之间的差去改变前面各层的参数,直到收敛。但现在我们只有无标签数据,也就是右边的图。那么这个误差怎么得到呢?          如上图,我们将input输入一个encoder编码器,就会得到一个code,这个code也就是输入的一个表示,那么我们怎么知道这个code表示的就是input呢?我们加一个decoder解码器,这时候decoder就会输出一个信息

Very Deep Convolutional Networks for Large-Scale Image Recognition—VGG论文翻译

僤鯓⒐⒋嵵緔 提交于 2020-03-30 09:08:28
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan∗ & Andrew Zisserman+ Visual Geometry Group, Department of Engineering Science, University of Oxford {karen,az}@robots.ox.ac.uk 摘要 在这项工作中,我们研究了在大规模的图像识别环境下卷积网络的深度对识别的准确率的影响。我们的主要贡献是使用非常小的(3×3)卷积滤波器架构对网络深度的不断增加并进行全面评估,这表明通过将深度增加到16-19层可以实现对现有技术配置的显著改进。这些发现是我们ImageNet Challenge 2014提交的基础,我们的团队在定位和分类过程中分别获得了第一名和第二名。我们还证明了我们的研究可以很好的推广到其他数据集上,从而在其它数据集上取得了最好的结果。我们已公开了两个性能最好的ConvNet模型,以便促进对于计算机视觉中深度视觉表示的进一步研究。 1 引言 卷积网络(ConvNets)近来在大规模图像和视频识别方面取得了巨大成功(Krizhevsky等,2012;Zeiler&Fergus,2013;Sermanet等,2014;Simonyan&Zisserman

3D重建算法原理

感情迁移 提交于 2020-03-18 10:01:01
3D重建算法原理 三维重建(3D Reconstruction)技术一直是计算机图形学和计算机视觉领域的一个热点课题。早期的三维重建技术通常以二维图像作为输入,重建出场景中的三维模型。但是,受限于输入的数据,重建出的三维模型通常不够完整,而且真实感较低。随着各种面向普通消费者的深度相机(depth camera)的出现,基于深度相机的三维扫描和重建技术得到了飞速发展。以微软的Kinect,华硕的XTion以及因特尔的RealSense等为代表的深度相机造价低廉,体积适当,操作方便,并且易于研究者和工程师进行开发。三维重建技术也是增强现实(Augmented Reality,简称AR)技术的基础,经过扫描重建后的三维模型可以直接应用到AR或VR的场景中。本文将简单介绍基于深度相机的三维重建技术的基本原理及其应用。 背景 对几何3D模型不断增长的需求:电影 游戏 虚拟环境等行业 VR&AR的火爆 房地产 三维地图等领域的需求 中国古代建筑三维数字化保护 三维数字化城市 三维地图 VR&&AR游戏,电影等 医疗行业:三维心脏 教育行业等 应用 方法介绍 传统的三维重建主要是依靠昂贵的三维扫描设备,并且需要被扫描的目标保持一段时间的稳定。近年来,由于计算机硬件大规模计算能力的发展,特别是GPU和分布式计算的发展,实时高效的解决方案成为了可能。目前主流的方法主要分为以下两类:

翻译与学习:基于深度卷积神经网络的ImageNet分类器

末鹿安然 提交于 2020-03-12 17:09:11
基于卷积神经网络的ImageNet分类器 作者: Alex Krizhevsky-多伦多大学(加拿大) Ilye Sutskever-多伦多大学 Geoffrey E. Hinton-多伦多大学 摘要 我们训练了一个大型的深度卷积神经网络去将2010年ILSVRC挑战杯包含的120万高分辨率图像分类成1000种不同的类别。在测试数据方面,我们取得了远超过去最佳水平的效果,分别为17%和37.5%的top-5和top-1错误率。有着6000万参数和65万神经元的神经网络由5个部分连接Max池化层的卷积层和3个全连接层连带着1000路softmax组成。为了加快训练速度。我们采用非饱和神经元和一个高效的卷积操作的GPU执行器。为了降低全连接层的过拟合,我们采用了一项近期发展的已被证明有效的名为dropout的正则化方法。 1 引言 解决物体识别的最新方法必不可少的使用机器学习方法。为了提高他们的表现,我们可以收集更大的数据集,训练更有效的模型,并且使用更先进的技术去阻止过拟合。直到近期,有标识的图像数据集相当的小——大约数万张图片的状况才改变。简单的识别任务能够被有效的解决好在这一规模的数据集上,特别是如果他们采用了数据增强。例如,MNIST数字识别任务的最新错误率(0.3%)已接近人类表现。但现实场景中的对象表现出相当大的变异性,所以为了学习识别它们,使用更大的训练集是非常必要的

图像处理技术之六:深度图像+彩色图像=点云图像

百般思念 提交于 2020-03-04 19:45:24
#include <pcl/visualization/cloud_viewer.h> #include <iostream> #include <pcl/io/io.h> #include <pcl/io/pcd_io.h> #include <opencv2/opencv.hpp> using namespace std; #pragma comment(linker, "/subsystem:\"windows\" /entry:\"mainCRTStartup\"") int user_data; const double u0 = 319.52883; const double v0 = 271.61749; const double fx = 528.57523; const double fy = 527.57387; void viewerOneOff(pcl::visualization::PCLVisualizer& viewer) { viewer.setBackgroundColor(0.0, 0.0, 0.0); } int main() { pcl::PointCloud<pcl::PointXYZRGB> cloud_a; pcl::PointCloud<pcl::PointXYZRGB>::Ptr cloud(new pcl::PointCloud

06-01 DeepLearning-图像识别

房东的猫 提交于 2020-03-03 11:50:33
文章目录 深度学习-图像识别 人脸定位 手工提取特征的图像分类 识图认物 传统分类系统的特征提取 计算机眼中的图像 什么是图像特征? 卷积运算 利用卷积提取图像特征 基于神经网络的图像分类 传统图像分类系统和深度神经网络 深度神经网络的架构 卷积层 池化层 全连接层 归一化指数层 非线性激活层 Sigmoid函数 双曲正切函数 ReLU函数 深度神经网络的训练 反向传播算法 图像分类应用——人脸识别 人脸识别的流程 人脸识别应用场景 小结 深度学习-图像识别 人脸定位   相信你们外出游玩的时候,都不会带上你的牛逼plus诺基亚手机出门,而是带上你的智能手机给自己美美的拍上一张。当你用手机镜头对准人脸的时候,都会出现一个矩形框,如下图所示(前方高能),那么这个技术是怎么做到的呢?   相机中的人脸定位技术用的是二分类技术。该技术流程如下图所示。   如上图所示,相机首先会将照片分割成一块块的图像块,一张照片往往会有成千上万的图像块被切割出来。   然后每一个图像块都会经过人脸分类器去判别是否是人脸。人脸分类器是预先训练好的分类器,类似于我们之前讲的手写数字识别应用程序中的支持向量机分类器。如果人脸分类器预测该图像块为人脸,相机则会在这个图像块中显示出框的位置。   在人脸定位中,为了解决由于手机离人的距离不同,导致手机上显示的人脸大小不一致的问题。手机在切割图像的时候

深度学习知识系列(二) 各种卷积形式

最后都变了- 提交于 2020-03-03 08:01:43
文章目录 一、卷积的本质 二、2D卷积 三、3D卷积 四、转置卷积 五、1x1卷积 六、深度可分离卷积 七、**空洞卷积** 八、图卷积 一、卷积的本质     首先,我们先从数学和图像处理应用的意义上来看一下卷积到底是什么操作。我们先回到数学教科书中来看卷积,在泛函分析中,卷积也叫旋积或者褶积,是一种通过两个函数x(t)和h(t)生成的数学算子。其计算公式如下: 连 续 形 式 : x ( t ) ∗ h ( t ) = ∫ − ∞ ∞ x ( τ ) h ( t − τ ) d t 离 散 形 式 : x ( t ) ∗ h ( t ) = ∑ t = − ∞ ∞ x ( τ ) h ( t − τ ) 连续形式:\ \ \ \ x(t)*h(t) = \int_{-\infty}^{\infty}x(\tau)h(t-\tau)dt \\ 离散形式:\ \ \ \ x(t)*h(t) = \sum_{t=-\infty}^{\infty}x(\tau)h(t-\tau) 连 续 形 式 : x ( t ) ∗ h ( t ) = ∫ − ∞ ∞ ​ x ( τ ) h ( t − τ ) d t 离 散 形 式 : x ( t ) ∗ h ( t ) = t = − ∞ ∑ ∞ ​ x ( τ ) h ( t − τ )     从卷积公式可以看出

深度相机技术之三:原理揭秘之-双目立体视觉

元气小坏坏 提交于 2020-03-03 01:24:17
为什么非得用双目相机才能得到深度? 双目立体视觉深度相机的工作流程 双目立体视觉深度相机详细工作原理 理想双目相机成像模型 极线约束 图像矫正技术 基于滑动窗口的图像匹配 基于能量优化的图像匹配 双目立体视觉深度相机的优缺点 --------------------------------------------------- 基于双目立体视觉的深度相机类似人类的双眼,和基于TOF、结构光原理的深度相机不同,它不对外主动投射光源,完全依靠拍摄的两张图片(彩色RGB或者灰度图)来计算深度,因此有时候也被称为被动双目深度相机。比较知名的产品有STEROLABS 推出的 ZED 2K Stereo Camera和Point Grey 公司推出的 BumbleBee。 ZED 2K Stereo Camera 为什么非得用双目相机才能得到深度? 说到这里,有些读者会问啦:为什么非得用双目相机才能得到深度?我闭上一只眼只用一只眼来观察,也能知道哪个物体离我近哪个离我远啊!是不是说明单目相机也可以获得深度? 在此解答一下:首先,确实人通过一只眼也可以获得一定的深度信息,不过这背后其实有一些容易忽略的因素在起作用:一是因为人本身对所处的世界是非常了解的(先验知识),因而对日常物品的大小是有一个基本预判的(从小到大多年的视觉训练),根据近大远小的常识确实可以推断出图像中什么离我们远什么离我们近

深度学习之路(四):Fast-RCNN

ぃ、小莉子 提交于 2020-03-01 01:39:35
前文中已经讲述了R-CNN以及SPP-Net两个经典的入门级算法,下来向我们走来的是R-CNN家族的另一位优秀代表——Fast-RCNN。region proposal Fast-RCNN顾名思义,就是快速的R-CNN,其目的就是解决R-CNN训练慢、检测慢的难题。 一. 论文解读 Fast-RCNN的论文是就是《Fast R-CNN》,其作者是rbg大神,论文简单明了,目的性贼强。(百度云链接: https://pan.baidu.com/s/1fQlWVSY19kphn8X9zOyGEA ,提取码:aglm)。 Fast-RCNN是建立在以前所使用的的卷积神经网络有效地分类目标的成果上的。其采用了多项技术,从而提高训练速度和检测速速来提高检测精度。Fast-RCNN在训练VGG-16时比R-CNN 快9倍,检测时快213倍,并且还取得了较高的检测精度(在PASCAL VOC数据集上)。 论文的第一章简介中介绍了当前的图像分类与检测算法的发展已经取得了较大的成就,But,目标检测由于其复杂性检测不光慢,还检测精度差。然后论文就对就说明了产生复杂性的两个原因:其一是必须处理大量的候选区域,其二是候选框定位不准确,需要精细化以实现定位。这些问题的解决必然会造成检测速度慢,检测精度差。然后,论文就把自己的Fast-RCNN提出来了。 接下来论文又较为详细的分析R-CNN与SPP

零基础入门深度学习(三):卷积神经网络基础之初识卷积

北城余情 提交于 2020-02-27 09:27:19
课程名称 | 零基础入门深度学习 授课讲师 | 孙高峰 百度深度学习技术平台部资深研发工程师 授课时间 | 每周二、周四晚20:00-21:00 编辑整理 | 孙高峰 内容来源 | 百度飞桨深度学习集训营 出品平台 | 百度飞桨 01 导读 本课程是百度官方开设的零基础入门深度学习课程,主要面向没有深度学习技术基础或者基础薄弱的同学,帮助大家在深度学习领域实现从0到1+的跨越。从本课程中,你将学习到: 深度学习基础知识 numpy实现神经网络构建和梯度下降算法 计算机视觉领域主要方向的原理、实践 自然语言处理领域主要方向的原理、实践 个性化推荐算法的原理、实践 本周为开讲第三周,百度深度学习技术平台部资深研发工程师孙高峰,开始讲解深度学习在计算机视觉方向实践应用。今天为大家带来的是卷积神经网络基础之初识卷积。 02 计算机视觉概述 计算机视觉作为一门让机器学会如何去“看”的科学学科,具体的说,就是让机器去识别摄像机拍摄的图片或视频中的物体,检测出物体所在的位置,并对目标物体进行跟踪,从而理解并描述出图片或视频里的场景和故事,以此来模拟人脑视觉系统。因此,计算机视觉也通常被叫做机器视觉,其目的是建立能够从图像或者视频中“感知”信息的人工系统。 计算机视觉技术经过几十年的发展,已经在交通(车牌识别、道路违章抓拍)、安防(人脸闸机、小区监控)、金融(刷脸支付、柜台的自动票据识别)、医疗