图像分割

CDPN论文解读

夙愿已清 提交于 2020-01-20 12:14:34
文章目录 解决什么问题 本文创新点 本文IDEA来源 方法 方法概述 Dynamic Zoom In 一句话概括 解决的点 优点 细节 旋转 坐标置信度映射 原理 操作 Masked Coordinates-Confidence Loss 解决的点 操作 Building 2D-3D Correspondences 解决的点 位移 Scale-invariant Translation Estimation 一句话概括 解决的点 训练 数据准备 实验 总结 解决什么问题 一个分离R和T的基于坐标的6D估计方法,能处理纹理缺失和遮挡的问题 本文创新点 提出CDPN 分离R和T的估计 提出Dynamic Zoom In(DZI)让位姿的估计对于检测误差更鲁棒,而且对特定的检测器不敏感 就是说什么样的size都能检测到? 答:不是,是说即使检测效果不是那么好,通过DZI也能得到一个不错的效果 实时,两阶段目标级别的坐标估计 SITE 尺度不变性的位移估计 不需要预训练就能做多种检测 意思是不是就是说和PVNet不一样,不是每个网络只能训练一个物体? 答:不是,还是一种权重对应一种物体,至于这个不需要预训练,不知道神恶魔意思 本文IDEA来源 旋转和平移具有明显不同的性质,并 受到不同因素 的影响。 例如,图像中物体的 大小和位置 对旋转的影响很小,但对平移的影响很大。 相反,图像中物体的

最新全球科技速览[2020.1.1]

落爺英雄遲暮 提交于 2020-01-17 07:24:29
全球技术报告 公众号:aihaoers cs方向,今日共计10篇 [检测分类相关]:object detection 【1】基于学习空间融合的单发目标检测 标题 :基于学习空间融合的单发目标检测 作者 :Songtao Liu, Di Huang, Yunhong Wang 概要 :金字塔形特征表示法是解决对象检测中尺度变化挑战的常用方法。但是,对于基于特征金字塔的单发检测器,不同特征尺度之间的不一致是主要限制。在这项工作中,我们提出了一种新颖的数据驱动的金字塔特征融合策略,称为自适应空间特征融合(ASFF)。它学习了在空间上过滤冲突信息以抑制不一致的方法,从而改善了特征的比例不变性,并引入了几乎免费的推理开销。借助ASFF策略和可靠的YOLOv3基线,我们在MS COCO数据集上实现了最佳的速度精度折衷,在60 FPS时报告了38.1%AP,在45 FPS时报告了42.4%AP,在29 FPS时报告了43.9%AP 源码 :https://github.com/ruinmessi/ASFF 链接 :https://arxiv.org/pdf/1911.09516v2.pdf 【2】为数不多的射击目标检测与注意力RPN和多关系检测 标题 :为数不多的射击目标检测与注意力RPN和多关系检测 作者 :旗幡,华威卓,强志堂,玉永大 概要 :用于对象检测的常规方法通常需要大量的训练数据

图像分割——ESE-Seg(Explicit Shape Encoding for Real-Time Instance Segmentation)

六眼飞鱼酱① 提交于 2020-01-15 09:13:43
Explicit Shape Encoding for Real-Time Instance Segmentation 基于显式形状分割编码的实时实例分割 论文地址:https://arxiv.org/pdf/1908.04067 1.摘要 在本文中,我们提出了一种基于形状编码的自上而下的实例分割框架,称为ESE-Seg。它通过使用张量运算显式地解码多个对象形状,大大的减少了实例分割的计算量,与对象检测的速度几乎相同,并且基于IR(内心半径)、切比雪夫多项式和强大的现代物理检测器。 2.名词解释 (1)图像分类(Image Classification) 检测图像中含有哪些分类,例如人、牛、羊。 (2)目标检测(Object Detection) 图片里有什么?分别在哪里,见下图(b) 常用的检测算法:Faster R-CNN、YOLO (3)语义分割 区分图中的每一点像素。见下图(a) (4)实例分割 是目标检测和语义分割的结合 相对于目标检测的边界框,实例分割可以精确到物体的边缘;相对于语义分割,实例分割需要标注出图上同一物体的不同个体,例如羊1,羊2,羊3…… 见下图(b) 3.方法 1)IR: 对轮廓进行参数设置 内部中心点:以轮廓上的最远点定义,可以通过距离变换获得。 2)切比雪夫多项式多项式:以少量系数来近似形状特征向量 给定IR的形状特征,可以用下式切比雪夫多项式逼近

RDSNet:一种用于交互对象检测和实例分割的新型深度体系结构

馋奶兔 提交于 2020-01-15 05:12:33
译者:蓝燕子 声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 摘要 目标检测和实例分割是计算机视觉的两项基本任务。它们密切相关,但他们之间的关系在以往的大多数工作中还没有得到充分的探讨。本文提出了一种新的用于交互目标检测和实例分割的深度结构RDSNet。为了回应这两个任务,我们设计了一个两个流结构以共同学习对象级别(即边界框)和像素级别(即实例掩码)上的特征。在这个结构中,来自两个流的信息是交替融合,即对象层的信息引入实例意识和翻译差异到像素级,像素级的信息-在对象级别细化对象的定位精度作为回报。具体地说,相关模块和裁剪模块被提议产生实例掩码,以及基于掩模的边界求精模块边界框。通过对COCO数据集的大量实验分析和比较,证明了该方法的有效性以及RDSNet的效率。源代码位于 https://github.com/wangsr126/RDSNet 。 1. 引言 目标检测和实例分割是计算机视觉中两个基本的、密切相关的任务论对象层次上的渐进图像理解像素级别。由于应用了deep神经网络,近年来见证了这两项任务的重大进展。然而,他们的关系但在之前的大部分工作中都进行了充分的探索。因此,通过利用交互来提高这两个任务的性能仍然是有意义和具有挑战性的在对象级和像素级信息之间。 目标检测的目标是用矩形边界框并将其分类为特定类别。在这项任务中,最关键的挑战之一在于对象定位

A Taxonomy of Deep Convolutional Neural Nets for Computer Vision

霸气de小男生 提交于 2020-01-14 20:01:03
A Taxonomy of Deep Convolutional Neural Nets for Computer Vision 基本信息 摘要 1. Introduction 2. Introduction to Convolutional Neural Networks 2.1. Building Blocks of CNNs 2.1.1. Why Convolutions? 2.1.2. Max-Pooling 2.1.3. Non-Linearity 2.2. Depth 2.3. Learning Algorithm 2.3.1. Gradient-Based Optimization 2.3.2. Dropout 2.4. Tricks to Increase Performance 2.5. Putting It All Together: AlexNet 2.6. Using Pre-Trained CNNs 2.6.1. Fine-Tuning 2.6.2. CNN Activations as Features 2.7. Improving AlexNet 3. CNN Flavors 3.1. Region-Based CNNs 3.2. Fully Convolutional Networks 3.3. Multi-Modal Networks 3.4.

CVPR 2018 | 商汤科技论文详解:基于空间特征调制的图像超分辨率(很重要!!语义信息加入进去)

此生再无相见时 提交于 2020-01-11 12:48:38
在底层视觉算法领域,商汤科技提出的 面向生成更自然真实纹理图像的超分辨率算法 。本文为商汤科技CVPR 2018论文解读第3期。 论文:Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform 作者:Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy 论文链接: https:// arxiv.org/abs/1804.0281 5 Project page: http:// mmlab.ie.cuhk.edu.hk/pr ojects/SFTGAN/ 简介 单帧图像超分辨率旨在基于单张低分辨率图像恢复对应的高分辨率图像。卷积神经网络近年在图像超分辨率任务中表现出了优异的重建效果,但是恢复出自然而真实的纹理依然是超分辨率任务中的一大挑战。 如何恢复出自然而真实的纹理呢?一个有效的方式是考虑语义类别先验,即使用图像中不同区域所属的语义类别作为图像超分辨率的先验条件,比如天空、草地、水、建筑、森林、山、植物等。不同类别下的纹理拥有各自独特的特性,换句话说,语义类别能够更好的约束超分辨中同一低分辨率图存在多个可能解的情况。如图1中展示的建筑和植物的例子,它们的低分辨率图像块非常类似。虽然结合生成对抗式网络(GAN)进行超分复原

《基于深度学习的图像语义分割方法综述》阅读理解

隐身守侯 提交于 2020-01-07 18:54:06
近年来,深度学习技术已经广泛应用到图像语义分割领域.主要对 基于深度学习的图像语义分割的经典 方法 与研究现状进行分类、梳理和总结.根据分割特点和处理粒度的不同,将基于深度学习的图像语义分割方法分 为 基于区域分类的图像语义分割方法 和 基于像素分类的图像语义分割方法 .把基于像素分类的图像语义分割方法 进一步细分为 全监督学习图像语义分割方法 和 弱监督学习图像语义分割方法 .对每类方法的代表性算法进行了分 析介绍,并详细总结了每类方法的基本思想和优缺点,系统地阐述了深度学习对图像语义分割领域的贡献.对图像语 义分割相关实验进行了分析对比,并介绍了图像语义分割实验中常用公共数据集和性能评价指标.最后,预测并分析 总结了该领域未来可能的研究方向及相应的发展趋势. 其中,文中提出:CNN RNN GAN 三者是并列的。 ISSbRC 方法取得了一定的分割效果,但也存在图像分割精度不高和分割速度不够快等问题,因此,一些研究者提出直接在像素级别上进行图像语义分割,产生了基于像素分类的图像语义分割方法。从时间上来看bPC比bRC要晚。 ISSbPC 方法利用 DNN 从带有大量标注的图像数据中提取出图像特征和语义信息,再根据这些信息来学习、推理原始图像中像 素的类别,通过端到端训练的方式对每个像素进行分类,以像素分类的方式达到语义分割的目标.这是下一步研究方向。 ENet

语义分割数据扩充(图像和标签同步扩充)

纵饮孤独 提交于 2019-12-31 17:11:24
发现一个python包Augmentor,专门用于数据扩充,链接: https://augmentor.readthedocs.io/en/master/userguide/install.html ,就是开发手册,里面包含了安装,包内函数的介绍、扩展性等,这个模块主要包括了:随机旋转、随机裁剪、镜像、随机变形、随机亮度、随机颜色、随机对比度、随机擦除等等。应该能够满足要求了,不满足还可以自己加函数用它的壳子套上自己用。 1.这个包的使用比较简单,参数的具体解释可以在链接手册上查看,网上已经有很多介绍的了,下面copy一些代码来稍作说明 #导入数据增强工具 import Augmentor p = Augmentor.Pipeline("test1") #test1为图像文件路径,最后的输出会在这个文件下新建一个output文件夹并存入 p.ground_truth("test2") #test2为标签文件路径 #图像旋转: 按照概率0.8执行,最大左旋角度10,最大右旋角度10 p.rotate(probability=0.8, max_left_rotation=10, max_right_rotation=10) #图像左右互换: 按照概率0.5执行 p.flip_left_right(probability=0.5) #图像放大缩小: 按照概率0.8执行,面积为原始图0

OpenCV图像分割Grabcut算法

荒凉一梦 提交于 2019-12-31 11:07:59
前言 1.OpenCV图像分割Grabcut算法主要功能是分割和抠图,就是把框着的目标抠出来,比如要分割出一个证件照的人的图像,只需要在目标外面画一个框,把目标框住,它就可以完成良好的分割。 2.算法运行的效果如下,如果想 代码 # include <iostream> # include <opencv2/highgui/highgui.hpp> # include <opencv2/imgproc/imgproc.hpp> bool mouse_down = false , mouse_up = false ; cv :: Point corner1 , corner2 ; cv :: Rect rect ; cv :: Mat src ; static void mouseCallback ( int event , int x , int y , int , void * ) { cv :: Mat bg_model , fg_model , mask ; if ( event == cv :: EVENT_LBUTTONDOWN ) { mouse_down = true ; corner1 . x = x ; corner1 . y = y ; } if ( event == cv :: EVENT_LBUTTONUP ) { if ( abs ( x -

VGG图像分割

只愿长相守 提交于 2019-12-28 05:38:34
补丁级别:VGG 在补丁级别的训练中,我们将image和ground-truth64×64像素)进行了网格化处理,每个补丁的面积为4096像素。当ground-truth中的像素值之和大于2048时,我们给相应的原始图像patch加上正的标签。否则我们就给它加上一个负号。然而,如果我们这样处理,正的图像补丁比负的图像补丁要少。为了在训练过程中平衡数据,我们通过翻转和垂直方向增加正图像patch,并在训练集中旋转90、180、270度。同时,我们通过fl增加正图像patch 在patch-level,我们在Vgg-16, incep - v3, ResNet-50网络中进行transfer learning,得到3个patch-一元分割结果和3个patch-二进制分割结果。然后我们得到了加权的补丁-一元分割结果和加权的补丁-二元分割结果。 今晚看了挺多代码有个感悟,如果想简便一些,用keras真的挺好,更多封装好的库。tf的话需要的代码行数多,不过可以根据不同需求选择吧。 关于Application Keras 的应用模块(keras.applications)提供了带有预训练权值的深度学习模型,这些模型可以用来进行预测、特征提取和微调(fine-tuning)。当你初始化一个预训练模型时,会自动下载权值到 ~/.keras/models/ 目录下。 keras内置的Model 在