图像融合

Very Deep Convolutional Networks for Large-Scale Image Recognition—VGG论文翻译

僤鯓⒐⒋嵵緔 提交于 2020-03-30 09:08:28
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan∗ & Andrew Zisserman+ Visual Geometry Group, Department of Engineering Science, University of Oxford {karen,az}@robots.ox.ac.uk 摘要 在这项工作中,我们研究了在大规模的图像识别环境下卷积网络的深度对识别的准确率的影响。我们的主要贡献是使用非常小的(3×3)卷积滤波器架构对网络深度的不断增加并进行全面评估,这表明通过将深度增加到16-19层可以实现对现有技术配置的显著改进。这些发现是我们ImageNet Challenge 2014提交的基础,我们的团队在定位和分类过程中分别获得了第一名和第二名。我们还证明了我们的研究可以很好的推广到其他数据集上,从而在其它数据集上取得了最好的结果。我们已公开了两个性能最好的ConvNet模型,以便促进对于计算机视觉中深度视觉表示的进一步研究。 1 引言 卷积网络(ConvNets)近来在大规模图像和视频识别方面取得了巨大成功(Krizhevsky等,2012;Zeiler&Fergus,2013;Sermanet等,2014;Simonyan&Zisserman

摄像头定位:ICCV2019论文解析

爱⌒轻易说出口 提交于 2020-03-29 07:54:29
摄像头定位: ICCV2019论文解析 SANet: Scene Agnostic Network for Camera Localization 论文链接: http://openaccess.thecvf.com/content_ICCV_2019/papers/Yang_SANet_Scene_Agnostic_Network_for_Camera_Localization_ICCV_2019_paper.pdf The code is available at: https://github.com/ sfu-gruvi-3dv/sanet_relocal_demo 摘要 提出了一种场景不可知的摄像机定位神经网络结构,模型参数和场景相互独立。尽管最近在基于学习的方法方面取得了进展,但大多数方法都需要对每个场景逐一进行训练,这不适用于 SLAM和机器人导航等在线应用,因为在这些应用中,模型必须建立在平面上。本文的方法学习建立分层的场景表示,并预测查询的密集场景坐标图给定任意场景的地面上的 RGB图像。利用预测出的场景坐标图可以估计出查询图像的 6D摄像机姿态。此外,稠密预测还可用于其他在线机器人和 AR应用,如避障。本文在室内和室外基准上证明了本文的方法的有效性和效率,实现了最先进的性能。 1. Introduction

图像超分辨率与天气预报

天涯浪子 提交于 2020-03-27 20:15:40
图像超分辨率与天气预报 虽然我们每天都看天气预报,但是你知道我们所看到的天气预报是怎么预测出来的吗?气象预报按天气预报的时效长短,可粗略分为:短时天气预报、短期天气预报、中期天气预报和长期天气预报。数值模式预报是天气预报的主要预测手段。 气象数值预报 数值模式预报是根据大气运动的数学模型,利用当前天气状况作为输入数据而做出天气预报的手段,通常使用超级计算机或分布式计算集群依据一系列动力学框架来完成计算。 天气数值模式的输出是矩阵形式,可以用图像的方式可视化。同一片区域矩阵数值越密集,代表这个区域预测的细致程度越高。如下图展示了全球模式和区域精细预报之间的关系图。 图片来源网络 对于局部区域来说,精细化预报结果可以提供更为丰富的信息。从应用角度,精细化预报将预报精度从城市级别提升到所在地点附近级别;从研究角度,精细化预报不仅提供了某个地点从地面到高空十几公里的气温、降水、风向、风速基本气象要素,还为进一步研究影响这一地点的云的移动轨迹、增减变化趋势提供了可能。近年来各个行业对数值预报精细化需求越来越高。 制约高精度的数值天气预报模式发展的一个重要因素就是硬件设备的计算能力以及计算时间。 虽然我们国家的派-曙光超级计算机从2018年开始便正式承担起气象业务运行及科研的重任,运算能力跃居气象领域世界第三位,但可惜的是很多气象相关科研机构和研究人员往往不具备使用超算的条件

全景影像技术综述

人盡茶涼 提交于 2020-03-26 04:55:21
1图像获取 全景图像素材的获取有两种方式:一是采用专门全景设备,如全景相机或者带有鱼眼镜头或者广角镜头的相机;二是利用普通相机拍摄局部图像,然后经过投影后拼接形成全景图。 第一种方法的优点是操作简单,无需复杂建模,非常容易的能够形成全景图,缺点是专用设备价格非常昂贵,不易普及和使用。 第二种方法对拍摄要求非常高,通常需要借助一些设备,如三角架等完成拍摄。相对前者更加复杂,但是费用低,仍然为目前的主流。 2图像投影 由于相邻局部实景图像是在相机转过了一定的角度,在不同的视角上拍摄得到的,因此它们的投影平面存在一定的夹角。如果对局部图像直接进行无缝拼接,将会破坏实际场景中视觉的一致性,比如把一曲线变成了直线等,同时也很难进行无缝拼接。为了维持实际场景中的空间约束关系,必须把拍照得到的实景图像投影到某一曲面上,图像信息以曲面的形式保存在计算机上。投影完成后,去掉了旋转关系,保留了平移关系,为图像的拼接做好了准备。通常,比较常见的全景投影方式有:球面投影、柱面投影和立方体投影。 2.1球面模型 2.2圆柱面模型 2.3立方体模型 全景图模型可以提供场景水平方向360度全方位浏览,球面全景和立方体全景还能够提供垂直方向180度的浏览,能使人们产生三维立体感,其场景能够拥有非常高的逼真度。 3图像拼接 图像拼接技术是全景技术的关键技术之一,也是全景制作环节的关键环节

全景视频拼接关键技术

心已入冬 提交于 2020-03-26 04:48:54
一、原理介绍 图像拼接(Image Stitching)是一种利用实景图像组成全景空间的技术,它将多幅图像拼接成一幅大尺度图像或360度全景图,图像拼接技术涉及到计算机视觉、计算机图形学、数字图像处理以及一些数学工具等技术。图像拼接其基本步骤主要包括以下几个方面:摄相机的标定、传感器图像畸变校正、图像的投影变换、匹配点选取、全景图像拼接(融合),以及亮度与颜色的均衡处理等,以下对各个步骤进行分析。 摄相机标定 由于安装设计,以及摄相机之间的差异,会造成视频图像之间有缩放(镜头焦距不一致造成)、倾斜(垂直旋转)、方位角差异(水平旋转),因此物理的差异需要预先校准,得到一致性好的图像,便于后续图像拼接。 相机的运动方式与成像结果之间的关系见下图。 图1:相机的运动方式与成像结果之间的关系 图像坐标变换 在实际应用中,全景图像的获得往往需要摄像机以不同的位置排列和不同的倾角拍摄。例如由于机载或车载特性,相机的排列方式不尽相同,不能保证相机在同一面上,如柱面投影不一定在同一个柱面上,平面投影不一定在同一平面上;另外为了避免出现盲区,相机拍摄的时候往往会向下倾斜一定角度。这些情况比较常见,而且容易被忽略,直接投影再拼接效果较差。因而有必要在所有图像投影到某个柱面(或平面)之前,需要根据相机的位置信息和角度信息来获得坐标变换后的图像。

PaddleSeg图像分割库再添新武器,新增压缩部署方案FLOPs降低51%

好久不见. 提交于 2020-03-25 19:56:49
3 月,跳不动了?>>> 相信很多人都看过电影《变形金刚》,电影中经常可以看到大黄蜂变身的跑车飞驰在公路之上,可是大家有没有仔细想过,大黄蜂是怎么知道马路中间是黄实线还是黄虚线,到底能不能压线,能不能掉头呢?要知道差一点没分清楚,那就是200块钱罚3分的下场。说到这里那些了解图计算机视觉的小伙伴们应该就会想到这个领域的核心研究方向之一的图像分割技术(Image Segmentation)。 什么是图像分割? 图像分割是一种将图像分成若干个特定的、具有独特性质的区域并提取出感兴趣目标的技术和过程。从数学角度来看,图像分割是将图像划分成互不相交的区域的过程。 图1 图像分割应用效果图 如图1所示,随着人工智能的发展,图像分割技术已经在交通控制、医疗影像和工业用表识别等多个领域获得了广范的应用。为了让广大开发者可以方便快捷的将图像分割技术应用到自己的业务中,飞桨开发了一整套图像分割模型库,这就是我们接下来要介绍的PaddleSeg。 什么是PaddleSeg? 早在2019年秋季的时候飞桨就已经正式发布了图像分割模型库 PaddleSeg,这是一款如同工具箱般便捷实用的图像分割开发套件,该套件具有模块化设计、丰富的数据增强、高性能、工业级部署四大特点: 模块化设计 :支持U-Net、DeepLabv3+、ICNet和PSPNet等多种主流分割网络,结合预训练模型和可调节的骨干网络

PaddleSeg图像分割库再添新武器,新增压缩部署方案FLOPs降低51%

心已入冬 提交于 2020-03-25 16:58:18
3 月,跳不动了?>>> 相信很多人都看过电影《变形金刚》,电影中经常可以看到大黄蜂变身的跑车飞驰在公路之上,可是大家有没有仔细想过,大黄蜂是怎么知道马路中间是黄实线还是黄虚线,到底能不能压线,能不能掉头呢?要知道差一点没分清楚,那就是200块钱罚3分的下场。说到这里那些了解图计算机视觉的小伙伴们应该就会想到这个领域的核心研究方向之一的图像分割技术(Image Segmentation)。 什么是图像分割? 图像分割是一种将图像分成若干个特定的、具有独特性质的区域并提取出感兴趣目标的技术和过程。从数学角度来看,图像分割是将图像划分成互不相交的区域的过程。 图1 图像分割应用效果图 如图1所示,随着人工智能的发展,图像分割技术已经在交通控制、医疗影像和工业用表识别等多个领域获得了广范的应用。为了让广大开发者可以方便快捷的将图像分割技术应用到自己的业务中,飞桨开发了一整套图像分割模型库,这就是我们接下来要介绍的PaddleSeg。 什么是PaddleSeg? 早在2019年秋季的时候飞桨就已经正式发布了图像分割模型库 PaddleSeg,这是一款如同工具箱般便捷实用的图像分割开发套件,该套件具有模块化设计、丰富的数据增强、高性能、工业级部署四大特点: 模块化设计 :支持U-Net、DeepLabv3+、ICNet和PSPNet等多种主流分割网络,结合预训练模型和可调节的骨干网络

基于RANSAC的图像全景拼接

不打扰是莪最后的温柔 提交于 2020-03-24 13:27:42
基于RANSAC的图像全景拼接 RANSAC算法 RANSAC是一种迭代算法,用来从观测数据中估算出数学模型的参数,此基础上便可以分离内群与离群数据。简单来说就是一般来讲观测的数据里经常会出现很多噪音,比如说像SIFT匹配有时就会因为不同地方有类似的图案导致匹配错误。而RANSAC就是通过反复取样,也就是从整个观测数据中随机抽一些数据估算模型参数之后看和所有数据误差有多大,然后取误差最小视为最好以及分离内群与离群数据。 全景拼接原理介绍 针对某个场景拍摄多张/序列图像 通过匹配特征(sift匹配)计算下一张图像与上一张图像之间的变换结构。 图像映射,将下一张图像叠加到上一张图像的坐标系中 变换后的融合/合成 重复上述步骤 全景图像拼接最重要的两个步骤就是: 特征点匹配 这部分主要采用SIFT算法实现,之前的博客有介绍就不再详细介绍了,主要是为了找到两幅图像相同的特征点并将其进行匹配。 图片匹配 图片匹配就是找到图像之间所有重叠的部分,将其拼接后就能得到一幅全景图。 图像配准 图像配准是对图像进行变换,使变换后的图像能够在很好的拼接在上一张图片的坐标系。为了能够进行图像对比和更精细的图像分析,图像配准是一步非常重要的操作因为图片存在歪斜或两张图片的平面与平面之间景深不同(近大远小),直接将两张图片进行映射变换会导致图片中部分物体有重影现象(鬼影)。为了尽量减小这种情况

3D重建算法原理

感情迁移 提交于 2020-03-18 10:01:01
3D重建算法原理 三维重建(3D Reconstruction)技术一直是计算机图形学和计算机视觉领域的一个热点课题。早期的三维重建技术通常以二维图像作为输入,重建出场景中的三维模型。但是,受限于输入的数据,重建出的三维模型通常不够完整,而且真实感较低。随着各种面向普通消费者的深度相机(depth camera)的出现,基于深度相机的三维扫描和重建技术得到了飞速发展。以微软的Kinect,华硕的XTion以及因特尔的RealSense等为代表的深度相机造价低廉,体积适当,操作方便,并且易于研究者和工程师进行开发。三维重建技术也是增强现实(Augmented Reality,简称AR)技术的基础,经过扫描重建后的三维模型可以直接应用到AR或VR的场景中。本文将简单介绍基于深度相机的三维重建技术的基本原理及其应用。 背景 对几何3D模型不断增长的需求:电影 游戏 虚拟环境等行业 VR&AR的火爆 房地产 三维地图等领域的需求 中国古代建筑三维数字化保护 三维数字化城市 三维地图 VR&&AR游戏,电影等 医疗行业:三维心脏 教育行业等 应用 方法介绍 传统的三维重建主要是依靠昂贵的三维扫描设备,并且需要被扫描的目标保持一段时间的稳定。近年来,由于计算机硬件大规模计算能力的发展,特别是GPU和分布式计算的发展,实时高效的解决方案成为了可能。目前主流的方法主要分为以下两类:

Low-light images enhancement/暗光/低光/微光增强系列:Attention-guided Low-light Image Enhancement(详解)

≡放荡痞女 提交于 2020-03-17 08:01:23
以下文字为博主翻译并添加了自己的理解, 斜体 为博主自己的想法,若有出错请指出。 摘要 暗光图像增强需要同时有效地处理颜色、亮度、对比度、伪影和噪声等多种因素。本文提出了一种新颖的注意力引导增强方案,并在此基础上构建了 端到端多分支(multi-branches) CNN。该方法的关键是计算两个 注意力 图来分别指导曝光增强和去噪任务。第一个注意力图区分曝光不足的区域和光照较好的区域,而第二个注意力图区分噪音和真实纹理。本论文的方法还能增强暗光图像缺失的对比度。论文还提出了一种创建暗光增强的大数据集。 Introduction 暗光图像质量退化严重,相比正常曝光图像,丢失了许多细节,颜色失真,同时拥有非常多的噪点,对于现实中的高级视觉任务性能有严重影响。基于HE(直方图均衡)的方法和基于RETINEX的传统方法都不能很好地解决暗光增强的问题,而且这些方法常常忽视 去噪 。 在之前的研究中,有先去噪,再增强的流程;也有先增强,再去噪的流程。但是前者导致图像变得模糊,后者会放大噪点。而本文的方法,将增强和去噪同时进行,能够有效地避免以上问题。 本文最主要的贡献列为三点: 设计了注意力图为引导的双向增强网络,拥有多分支结构,可以同时进行去噪和增强 设计了一套高质量的暗光图像训练流程,创建了一个大规模的成对暗光图像(合成)数据集,有助于其他研究者进行研究 研究成果表明,方法达到了SOTA