rcnn

RCNN论文翻译

爱⌒轻易说出口 提交于 2020-01-24 15:22:57
用于目标检测和语义分割的丰富特征层次结构的提取 1、摘要 过去几年,在权威数据集PASCAL上,物体检测的效果已经达到一个稳定水平。效果最好的方法是融合了多种图像低维特征和高维上下文环境的复杂结合系统。在这篇论文里,我们提出了一种简单并且可扩展的检测算法,可以将mAP在VOC2012最好结果的基础上提高30%以上,也就是达到了53.3%。我们的方法结合了两个关键的因素: 为了实现目标检测和语义分割,将大型卷积神经网络用于图像的候选区域。 由于带标签数据稀少,我们先针对辅助任务使用了监督性的预训练,然后再对特征任务进行微调,实验证明产生了明显的性能提升。 因为我们采用了带CNN的候选区域筛选法,我们就把我们的方法叫做R-CNN:Regions with CNN features.我们也把RCNN效果跟Overfit比较了下(OverFeat是最近提出的在与我们相似的CNN特征下采用滑动窗口进行目标检测的一种方法),结果发现RCNN在200类ILSVRC2013检测数据集上性能明显优于OVerFeat。本文完整系统源码在:http://www.cs.berkeley.edu/˜rbg/rcnn。 2、介绍 特征很重要。在过去几十年,不同视觉检测任务基本都建立在对SIFT和HOG特征的使用。但是如果我们回看在权威视觉检测任务比赛PASCAL VOC的性能变化,我们必须得承认在2010

RCNN (Regions with CNN) 目标物检测 Fast RCNN的基础

眉间皱痕 提交于 2019-12-26 09:45:32
Abstract: 贡献主要有两点1:可以将卷积神经网络应用region proposal的策略,自底下上训练可以用来定位目标物和图像分割 2:当标注数据是比较稀疏的时候,在有监督的数据集上训练之后到特定任务的数据集上fine-tuning可以得到较好的新能,也就是说用Imagenet上训练好的模型,然后到你自己需要训练的数据上fine-tuning一下,检测效果很好。现在达到的效果比目前最好的DPM方法 mAP还要高上20点,目前voc上性能最好。 着篇文章主要是介绍RCNN,跟后面的,Fast RCNN和Faster RCNN比较关联,这篇文章是后两个的基础 1.介绍 在开始他说到LeCun对卷积神经网络中采用的SGD(通过反向传播的随机梯度下降算法)对网络训练很有效,也直接促进了利用CNN来做检测。 其实CNN的算法在90年代就已经出现了,可惜当时被SVM取代了,主要原因就是当时训练不动。2012年的时候Krizhevsky复燃了CNN,其在Imagenet的数据集上训练达到了非常好的效果,主要是用了LeCun中的一些技巧如(rectifying non-linearities and “dropout” regularization) 后来就有了讨论说把CNN方到目标检测上能达到什么样的效果。因此RossGirshick把问题主要聚集在了2个点上:

Mask RCNN 简单使用

北城余情 提交于 2019-12-21 04:05:48
涉及到的知识点补充: FasterRCNN: https://www.cnblogs.com/wangyong/p/8513563.html RoIPooling、RoIAlign: https://www.cnblogs.com/wangyong/p/8523814.html FPN: https://www.cnblogs.com/wangyong/p/8535044.html 首先,先看两张图(第一张图来源于论文,第二张图来源于网络),如下: (图 1) (图 2) 图 1:可以看出 MaskRCNN在有效检测目标的同时输出高质量的实例分割 mask 图2:可以看出MaskRCNN的网络结构,作为FasterRCNN的扩展 1):用RolAlign代替了RoIPooling,RoIPooling使用取整量化,导致特征图RoI映射回原图RoI时空间不对齐明显,造成误差;RolAlign不使用取整量化而是采用双线性插值,完成像素级的对齐; 2):FasterRcnn为每个候选对象ROI提供两个输出,一个类标签,一个边界框偏移量,为此,MaskRCNN并行添加了第三个分割mask的分支,mask分支是应用到每一个ROI上的一个小的FCN(Fully Convolutional Network),以pix2pix的方式预测分割mask。 MaskRCNN具有很好的泛化适应能力

转:SSD详解

梦想的初衷 提交于 2019-12-21 03:01:25
原文:http://blog.csdn.net/a8039974/article/details/77592395,   http://blog.csdn.net/jesse_mx/article/details/74011886 另外一篇很详细的解析:https://www.cnblogs.com/xuanyuyt/p/7222867.html SSD github : https://github.com/weiliu89/caffe/tree/ssd SSD paper : https://arxiv.org/abs/1512.02325 SSD eccv2016 slide pdf : http://download.csdn .NET /download/zy1034092330/9940054 SSD pose estimation paper : http://download.csdn .net /download/zy1034092330/9940059 图1 缩进SSD,全称Single Shot MultiBox Detector,是Wei Liu在ECCV 2016上提出的一种目标检测 算法 ,截至目前是主要的检测框架之一,相比Faster RCNN有明显的速度优势,相比YOLO又有明显的mAP优势(不过已经被CVPR 2017的YOLO9000超越)

faster-rcnn

时间秒杀一切 提交于 2019-12-18 20:36:19
转载链接: http://blog.csdn.net/zy1034092330/article/details/62044941 参考博客:http://blog.csdn.net/WoPawn/article/details/52223282?locationNum=7 进经过RCNN和Fast RCNN的积淀,Ross B. Girshick在2016年提出了新的Faster RCNN,在结构上,Faster RCN已经将特征抽取(feature extraction),proposal提取,bounding box regression(rect refine),classification都整合在了一个网络中,使得综合性能有较大提高,在检测速度方面尤为明显。 图1 Faster CNN基本结构(来自原论文) 缩进依作者看来,如图1,Faster RCNN其实可以分为4个主要内容: Conv layers。作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。 Region Proposal Networks。RPN网络用于生成region proposals

Faster RCNN框架

≡放荡痞女 提交于 2019-12-17 01:03:41
欢迎访问我的个人主页 刚接触物体检测领域,学习了Faster RCNN的论文及Tensorflow版本的源码,不得不说,读源码真的过瘾…不过确实能够帮助理解框架,下面按照Faster RCNN的预测过程介绍其整体流程 整体框架 转载:https://blog.csdn.net/littlehaes/article/details/83344007 Faster RCNN整体框架包括4部分: 一. 使用VGG16或者其他成熟的图片分类模型提取 图片特征(feature map) 二. 将 图片特征 喂入RPN(Region Proposal Network)网络得到 proposals (包含第一次回归) 三. 将上两步的结果: 图片特征 和 proposals 喂入RoI Pooling层得到综合的 proposals特征 四. 根据 poposals特征 预测 物体的bounding box 和 物体的类别 (包含第二次回归) 对应下图: 图中conv(3,3,512,1,1)对应conv(filter_height,filter_width,output_channels,stride_height,stride_width) 接下来分别介绍这四部分对应的网络结构,以预测过程为例(训练过程涉及ground truth的构建,会在之后的博客中具体介绍) 一.获取图片特征

keras Mask Rcnn代码走读(七)-mask生成

喜你入骨 提交于 2019-12-11 00:49:42
获取了待检测图片的分类回归信息,我们将回归信息(即待检测目标的边框信息)单独提取出来,结合金字塔特征mrcnn_feature_maps,进行Mask生成工作(input_image_meta用于提取输入图片长宽,进行金字塔ROI处理 # Detections # output is [batch, num_detections, (y1, x1, y2, x2, class_id, score)] in # normalized coordinates detections = DetectionLayer(config, name="mrcnn_detection")( [rpn_rois, mrcnn_class, mrcnn_bbox, input_image_meta]) # Create masks for detections detection_boxes = KL.Lambda(lambda x: x[..., :4])(detections) mrcnn_mask = build_fpn_mask_graph(detection_boxes, mrcnn_feature_maps, input_image_meta, config.MASK_POOL_SIZE, config.NUM_CLASSES, train_bn=config.TRAIN_BN) def

Cascade R-CNN 集联RCNN最全论文解析!只需一文!全面掌握!

邮差的信 提交于 2019-12-10 09:43:12
Cascade R-CNN 文章目录 Cascade R-CNN @[toc] 概述 相关工作 IoU及阈值关系 Cascade R-CNN 级联结构分析 Stage过程的分布变化 Cascade R-CNN Detection实现 实验分析 Quality Mismatch Ablation Experiments Comparison with *Iterative BBox* and *Intergral Loss* Comparison with the state-of-the-art 总结 红色字体部分解析 概述 本文主要针对的是目标检测问题中IoU阈值选择的问题,提出了一种muti-stage的architecture,称之为Cascade,主要思路为:在R-CNN结构系列的train和inference阶段,利用不断提高的IoU阈值,在保证样本数不减少的情况下,用一个stage的输出去训练下一个stage ,每个stage做重采样保证高质量低噪声的数据样本,提高检测器的训练质量。 IoU阈值*u*设置的对抗性: 1) u 设置得太高,虽然正样本proposals包含较少的background,但是相应的训练样本的数量也会减少,容易引发过拟合; 2) u 设置得太低,虽然样本数量有了保证,但是正样本proposals包含更多的background

faster rcnn新的理解

北慕城南 提交于 2019-12-10 03:33:54
本篇文章结合了源码解读记忆对于faster rcnn进行一些新的看法 精髓就是:使用深度卷积网络选出候选框,fast rcnn选出候选区域,attention,RPN告诉fast rcnn 到底应该关注哪里。 首先faster rcnn在定义网络结构的时候,是在原来的特征提取网络的基础上进行微调的,所以网络结构主要分为 Extrator:利用CNN进行特征提取,网路结构可以采用VGG16也可以采用resnext,或者直接使用与训练模型,可以将conv5-3的输出作为图片的特征输入到RPN中,因为这一层的感受野为16,相当于原始图片的大小。 RPN。候选区域网络,为ROIhead模块提取候选区域,是一个完全的卷积网络,可端到端的训练,产生检测区域,anchor就是多尺度宽高比 ROIhead:负责ROI的微调 RPN可以使用反向传播算法和SGD进行端到端的训练,作者遵循image-centric采样原则,训练网络,每个mini-batch都是从一个image中产生,包含很多正anchor和负anchor的例子。这样优化损失函数是可能的,但是由于负anchor按主导地位,可能会产生偏差。因此,一个mini-batch中随机抽选了一个image中的256个anchor来计算损失函数,其中正负比为1:1,如果一个image中正样本少于128,则使用负样本补足。 新的层权重都使用均值0

MASK-RCNN(1)

只谈情不闲聊 提交于 2019-12-06 05:34:17
MASK-RCNN是一个多用途的网络,可以用来做目标检测,实例分割或者人体姿态识别.主要结构如下. 简单的说,就是首先用Faster-RCNN获得ROI,再进行ROI Align,然后输出ROI的分类,同时输出分割掩码. 1. Faster-RCNN和ROI Align Faster-RCNN是一个两阶段检测器,第一阶段(即RPN)提出候选ROI,再过滤掉一部分,第二阶段对剩下的ROI进行分类. MASK-RCNN对Faster-RCNN做了修改,获得ROI以后并没有马上输出分类,而是进行了ROI Align.ROI Align通过双线性插值获得准确的特征图,而不是四舍五入以后的特征图.例如,如果输出的ROI坐标是[x/16],其中16是特征图步幅,[⋅]表示四舍五入,这样获得的特征图和ROI的坐标并没有完全对端,虽然对分类影响不大,但是对掩码的输出影响较大.ROI Align通过双线性插值获得准确的特征图,如下图所示. 来源: https://www.cnblogs.com/mstk/p/11964150.html