图像融合

论文阅读一(武汉加油、中国加油、不好的事必将过去)

£可爱£侵袭症+ 提交于 2020-02-08 05:13:04
一、MID-Fusion: Octree-based Object-Level Multi-Instance Dynamic SLAM A.系统概述 图2显示了我们提出的系统的流程。它由四个部分组成: segmentation, tracking, fusion and raycasting 。每个输入的RGB-D图像都由Mask R-CNN处理以执行实例分割,然后进行几何边缘分割和计算运动残差以优化蒙版边界(第IV-D节)。对于tracking,我们首先根据不包括人类蒙版区域的所有顶点计算相机位姿(第IV-B节),然后从该位姿进行光线投射,以找出哪些物体在当前帧中是可见的。这也可以帮助将局部对象蒙版与现有对象模型相关联。我们评估每个对象的运动残差以确定其是否处于运动状态,然后追踪运动物体(第IV-C节)并根据静态世界(包括当前的静态对象)改进相机的位姿(第IV-B节)。使用相机和物体的估计位姿,将深度和颜色信息以及预测的语义和前景概率融合到物体模型中(第IV-E节)。 IV-F节介绍了可见物体的检测以及射线投射。 B.RGB-D Camera tracking 计算相机位姿分为两步 1.根据除人类外的所有模型的顶点计算相机位姿。 2.根据静态场景计算相机位姿。 通过最小化密集的点到面的ICP残差eg和光度(RGB)残差ep来进行这两个步骤

你不得不了解的目标检测发展史

喜你入骨 提交于 2020-02-07 15:48:21
计算机视觉 计算机视觉中的三大类任务: 分类 Classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标 定位 Location:解决“在哪里”的问题,即定位出这个目标的位置 检测 Detection:解决“是什么?在哪里”的问题,即定位出这个目标的位置并且知道目标物是什么 分割 Segmentation:分为实例分割和场景分割,解决“每一个像素属于哪个目标物或场景”的问题。 一、目标检测 目标检测可以理解为是物体识别和物体定位的综合,不仅仅要识别物体属于哪个分类,更重要的是得到物体在图片中的具体位置。 为了完成这两个任务,目标检测模型分为两类。一类是two-stage算法;一类是one-stage算法。对于two-stage检测方法来说,它先生成了可能包含物体的候选区域Region Proposal,然后对这个候选区域做进一步的分类和校准,得到最终的检测结果,代表方法有R-CNN系列方法。而对于one-stage检测算法直接给出最终的检测结果,没有经过生成候选区域的步骤,典型代表为YOLO和SSD。 目标检测算法的3个模块: 第一个是检测窗口的选择 ; 第二个是图像特征的提取 ; 第三个是分类器的设计 。 补充基础知识之检测窗口的选择 1.滑动窗口法 首先对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动

图像金字塔

谁说我不能喝 提交于 2020-02-07 14:09:53
有两类图像金字塔:高斯金字塔和拉普拉斯金字塔 1、高斯金字塔的顶部是通过将底部图像中的连续的行和列去除得到的。顶 部图像中的每个像素值等于下一层图像中 5 个像素的高斯加权平均值。这样 操作一次一个 MxN 的图像就变成了一个 M/2xN/2 的图像。所以这幅图像 的面积就变为原来图像面积的四分之一。这被称为 Octave。连续进行这样 的操作我们就会得到一个分辨率不断下降的图像金字塔。我们可以使用函数 cv2.pyrDown() 和 cv2.pyrUp() 构建图像金字塔。 函数 cv2.pyrDown() 从一个高分辨率大尺寸的图像向上构建一个金子塔 (尺寸变小,分辨率降低) img = cv2.imread('messi5.jpg') lower_reso = cv2.pyrDown(higher_reso) 函数 cv2.pyrUp() 从一个低分辨率小尺寸的图像向下构建一个金子塔(尺 寸变大,但分辨率不会增加)。 higher_reso2 = cv2.pyrUp(lower_reso) 你要记住的是是 higher_reso2 和 higher_reso 是不同的。 因为一旦使用 cv2.pyrDown(),图像的分辨率就会降低,信息就会被丢失。 2、拉普拉金字塔的图像看起来就像边界图,其中很多像素都是 0。他们经常 被用在图像压缩中。下图就是一个三层的拉普拉斯金字塔:

小米MIUI10重磅发布!金山云KIE提供超清神器

Deadly 提交于 2020-02-06 20:18:53
近日,小米举办号称“史上最多重磅新品齐首发”的发布会。会上,包括小米8、MIUI10等在内的一系列重磅新品正式亮相。其中,有着“国产良心系统”之称的MIUI10尤其引人关注,作为小米此次发布会最先登场的新一代手机系统,MIUI10以“全面屏”为核心设计,针对全面屏操作进行了全方位支持和优化,同时全面应用AI,不但能够帮助用户轻松搞定复杂的操作,而且能够带给用户更好的高清画质体验。接下来,我们就一起探寻MIUI10背后的高清画质“神器”。 KIE:将图片变清晰的“神器” 这种将图片变清晰的“神器”,就是KIE(Kingsoft Image &AI Enhancement)。KIE是金山云近期推出的基于AI技术的画质增强产品,将其应用于移动终端或图片传输中,可为用户带来超清的图像视觉体验,或者节省3/4的图片传输带宽成本。 小米MIUI官网对于KIE的介绍 随着移动终端特别是手机分辨率的不断上升,更高分辨率图片的需求也与日俱增,这是因为低分辨率的图片,如果放到高分辨率的屏幕下,就会让视觉效果变得很差。如果720P的图片放在1080P的屏幕上,就会出现这样的问题。 高分辨率屏幕下显示低质量图片,会让视觉效果变差 而传统的解决方案——插值算法,包括双线性插值和临近插值,但这种方法往往会导致边缘出现锯齿、模糊等问题,将大幅降低图片的视觉效果。金山云KIE则基于人工智能技术

Matlab的标记分水岭分割算法

半腔热情 提交于 2020-02-02 00:18:28
1 综述 Separating touching objects in an image is one of the more difficult image processing operations. The watershed transform is often applied to this problem. The watershed transform finds "catchment basins"(集水盆) and "watershed ridge lines"(山脊线) in an image by treating it as a surface where light pixels are high and dark pixels are low. 如果图像中的目标物体是连接在一起的,则分割起来会更困难,分水岭分割算法经常用于处理这类问题,通常会取得比较好的效果。分水岭分割算法把图像看成一幅“地形图”,其中亮度比较强的区域像素值较大,而比 较暗的区域像素值较小,通过寻找“汇水盆地”和“分水岭界限”,对图像进行分割。 Segmentation using the watershed transform works better if you can identify, or "mark," foreground objects and background

对DensePose: Dense Human Pose Estimation In The Wild的理解

前提是你 提交于 2020-02-01 15:40:48
研究方法 通过完全卷积学习从图像像素到密集模板网格的映射。将此任务作为一个回归问题,并利用手动注释的面部标注来训练我们的网络。使用这样的标注,在三维对象模板和输入图像之间,建立密集的对应领域,然后作为训练的回归系统的基础。论文指出可以将来自语义分割的想法与回归网络相结合,产生高精度的“量化回归”架构 Mask R-CNN 是一个两阶段的框架,第一个阶段扫描图像并生成提议(proposals,即有可能包含一个目标的区域),第二阶段分类提议并生成边界框和掩码。 Faster R-CNN 是一个流行的目标检测框架,Mask R-CNN 将其扩展为实例分割框架。 UV纹理贴图坐标 对于三维模型,有两个最重要的坐标系统,一是顶点的位置(X,Y,Z)坐标,另一个就是UV坐标。U和V分别是图片在显示器水平、垂直方向上的坐标,取值一般都是0~1,也 就是(水平方向的第U个像素/图片宽度,垂直方向的第V个像素/图片高度。纹理映射是把图片(或者说是纹理)映射到3D模型的一个或者多个面上。纹理可以是任何图片,使用纹理映射可以增加3D物体的真实感。每个片元(像素)都有一个对应的纹理坐标。由于三维物体表面有大有小是变化的,这意味着我们要不断更新纹理坐标。但是这在现实中很难做到。于是设定了纹理坐标空间,每维的纹理坐标范围都在[0,1]中,利用纹理坐标乘以纹理的高度或宽度就可以得到顶点在纹理上对应的纹理单元位置

暗光增强论文:“EEMEFN: Low-Light Image Enhancement via Edge-Enhanced Multi-Exposure”

假装没事ソ 提交于 2020-01-30 23:36:02
暗光增强论文:“EEMEFN: Low-Light Image Enhancement via Edge-Enhanced Multi-Exposure Fusion Network” 摘要 暗光增强的目的:提高图片的亮度,找到暗区所隐藏的图片的信息。 现存的方法有如下三个问题: (1)低光照的图片一般有较高的对比度。(颜色差异较大)因此现有方法很难复原暗区或者亮区的细节。 (2)和暗光增强大多数问题一样,暗光会导致颜色失真不可复原。 (3)由于物体的边界比较模糊,pixel-wise loss会对不同的物体进行相同的处理,并导致一个模糊的结果。 本论文提出了二阶段的边缘增强的多曝光融合网络(Edge-Enhanced Multi-Exposure Fusion Network)用于极暗图像的增强。 在第一阶段,使用多曝光融合模块来解决高对比度问题和颜色的偏差。本文作者通过原始图像设置不同的曝光时间来合成多张不同的图像,并通过融合多曝光图像中曝光良好的区域重建了一张正常曝光的图像。 在第二阶段,通过边缘增强模块(edge enhancement module),通过提取到的边缘信息来精化原始的图片。 因此,作者认为本文可以重建获得sharp edge的高质量的图像,并在See-In-the-Dark的数据集上取得了不错的效果。 (很奇怪问什么不在LOL Dataset上做?)

python opencv:像素运算

流过昼夜 提交于 2020-01-27 22:49:49
以下运算两个图像的大小需要一样 算术运算: cv2.add(img1, img2) :两个图像像素相加 cv2.subtract(img1, img2) :两个图像像素相减 cv2.multiply(img1, img2) :两个图像像素相乘 cv2.divide(img1, img2) :两个图像像素相除 cv2.mean(img) :图像的均值 cv2.meanStdDev(img) :方差 逻辑运算: cv2.bitwise_and(img1, img2) :与 cv2.bitwise_or(img1, img2) :或 cv2.bitwise_not(img) :非 cv2.addWeighted :将图片以一定权重相加 这个函数最小需要6个参数。 1、第1个参数,输入图片1, 2、第2个参数,图片1的融合比例 3、第3个参数,输入图片2 4、第4个参数,图片2的融合比例 5、第5个参数,偏差 6、第6个参数,输出图片 来源: https://www.cnblogs.com/wbyixx/p/12236994.html

其他的图像融合技术

天大地大妈咪最大 提交于 2020-01-25 09:29:55
如果那一天会来到,要分享的点可能有下面的,东西。 1、尺度不变是什么。这个前文有了 2、lowe在2004年的论文说了什么,程序复现。找到这个东西 是这个东西,解决了尺度上的问题,也就是原文说的。 3、lowe( Received July 28, 2005; Accepted August 3, 2006 )全景图像拼接 链接:http://download.csdn.net/detail/shwaicy1314/7320695 然后在 后来 全景图像的拼接: http://www.docin.com/p-817312337.html 常见的匹配方法: 模板拼接,问题:尺度问题。http://www.cnblogs.com/skyseraph/archive/2011/03/29/1998681.html http://wenku.baidu.com/link?url=sAd0k4Qbrouk4IQMiqFx3-xpDPq4H7xKVl3XKfsl1aZHSQJ_wkd1SJXhe9p8XjUDc5DGV7MWcmK6lIkZMzrjPXmE8ubeGAJuaJyXoDtMRLS 这里都是 2维平面的图像融合: http://baike.baidu.com/view/1444849.htm 下面提到的都是3维平面的融合: 常见的医学融合方法: 这个 之所以要说是因为后面的展望

OpenCV基础--以图像融合为例

时间秒杀一切 提交于 2020-01-25 08:11:38
文章目录 @[toc] 安装 图像读取 三通道读取BGR 四通道读取BGRA 图像大小 图像保存 为三通道图像添加alpha通道, 设置为不透明 通道切分 alpha通道生成 通道合成 图像缩放 interpolation插值方法 反向变换公式 INTER_NEAREST最近邻插值 INTER_LINEAR双线性插值 INTER_AREA 图像融合 局部融合 微信公众号二维码 安装 pip install opencv-python 图像读取 三通道读取BGR img_jpg = cv2.imread(path+"bg.jpg") 四通道读取BGRA img_png = cv2.imread(path+"bg.png",cv2.IMREAD_UNCHANGED) 图像大小 # 输出: 高,宽,通道数 img_jpg.shape # -> (1280, 720, 3) img_png.shape # -> (1280, 720, 4) 图像保存 # cv2.imwrite(filename, img) cv2.imwrite("bg.jpg", img_jpg) 为三通道图像添加alpha通道, 设置为不透明 通道切分 b_channel, g_channel, r_channel = cv2.split(img_jpg) b_channel, g_channel, r