CVPR论文阅读:《D2Det: Towards High Quality Object Detection and Instance Segmentation》

十年热恋 提交于 2020-09-28 17:30:17

创新点

1、提出一种新的 Two-stage 检测方法——D2Det;
2、引入稠密局部回归(dense local regression),并通过二值重叠预测策略(binary overlap prediction strategy)进一步将其改进。解决了精确定位问题;
3、引入一种判别型 Rol pooling 方案,解决了精准分类的问题。

摘要撰写

1、提出了什么方法;
2、陈列并简述方法的创新点,不给予扩展;
3、说明数据集出处➡将新方法与就方法对比➡摆出实验数据➡套话结束。

1 我们的方法(第三部分)

给出总体框架,有逻辑性的陈述理论工作
D2Det 总体框架
新方法的原型是 Faster R-CNN,与 Faster R-CNN 不同的是:

  • 采用独立的分类与回归方案;
  • 用稠密局部回归代替 Faster R-CNN 的框偏置回归(精确定位目标);
  • 用discriminative Rol pooling改进proposal方案的分类(精确分类目标)。

1.1 稠密局部回归

稠密局部回归方法将k×k维的 RoI 特征视为k^2个空间相邻的局部特征其中一个局部特征(我的想法是对k×k个像素点都有对应的一个局部特征,而且这个k×k的框就是经过RPN的,所以背景占比极少,大部分pi都能进行微调)。对应下图的右下角到右上角
在这里插入图片描述
但是,局部特征的数量取决于 candidate proposal P 和 G 的重合度,但是即使重合度高的时候,也会有非目标特征(例如背景特征)出现在这 k^2个局部特征中。

为了避免这个情况,运用二元重叠预测来对每个局部特征进行分类:
在这里插入图片描述
在这里插入图片描述
训练期间, the binary overlap prediction mi使用 sigmoid归一化。如果 σ(m^i)>0.5,它就是1。(对应上图的右下角到左下角)


与Faster R-CNN相比:传统 Faster R-CNN 回归使用全连接网络预测给定候选目标的单一全局偏移量(▲x,▲y,▲w,▲h)。锚框更难于偏移。与传统回归不同,稠密局部回归使用全卷积网络,产生多个位置敏感的框偏移。此外,二元重叠预测减少了背景区域对最终盒回归的影响。
在这里插入图片描述

1.2 区别 Rol Pooling(Discriminative RoI Pooling)

先使用一种轻量级的偏移量预测,与可变形 RoI pooling 中的标准偏移量预测相比,大约需要四分之一的参数。标准偏移量预测是采用 RoI Align 操作从k×k子区域中获取特征,并将这些特征通过三个全连接层。而轻量级偏移预测只需要四分之一大小的RoIAlign,然后后面添加全连接层。
在这里插入图片描述
在这里插入图片描述
在偏移量预测之后,采用加权 pooling ,得以自适应地分配更高的权值区别的采样点。例如上图中,不同的采样点s1~s4被赋予不同的权值w1~w4。


在这里插入图片描述
⨀表示哈达玛积(Hadamard),即对应位置相乘

F 表示Weighted RoI feature(加权ROI特征)

1.3 实例分割

通过修改密集局部回归分支,本文方法很容易扩展到实例分割。

在下面公式中,使用实例分割中可用的 ground-truth mask 来标注局部特征 pi∈P,而不是假设 gt 边框 G 内的所有区域都属于对象。基于 mask 的 gt 用来训练二值重叠预测和密集回归分支中的偏移预测。在推理过程中,二值重叠预测来提供实例分割预测 mask。
在这里插入图片描述
此外,方法利用两个反卷积层将输出空间分辨率提高4倍(即从7×7到28×28)和两个全连接层来有效地进行掩模评分。本文方法提供了一个高效的实例分割框架并具备很强的分割性能。

2 实验

2.1 数据集和实现细节

  • 在 MS COCO 和 UAVDT 两个目标检测基准上进行了广泛的实验。
  • 在训练和测试期间,调整输入图像的大小,使较短的边缘为800像素。
  • 采用 ResNet 模块 (ResNet50和ResNet101),以 FPN 为 Backbone。
  • 所有与gt重叠大于0.5的roi为阳性样本。在每幅图像中,以1:3的正负比抽取512个roi,并利用这些样本进行分类分支训练。稠密局部回归分支只使用正样本进行训练。

在 MS COCO test-dev 数据集上与现有先进的目标检测算法进行比较。当使用带有 FPN 的 ResNet101 主干网络时,D2Det 达到了最好的单模型性能,总体 AP 为45.4,超过了所有现有的、使用相同主干网络和 FPN 的两阶段的方法(TridentNet 和 Auto-FPN 虽然不使用 FPN,但它们引入了类似的替代方法)。

此外,当使用相同的方法时,D2Det 比 DCN v2 高3.4%。且在多尺度训练和推理的情况下,我们的 D2Det*总体AP为50.1。
在这里插入图片描述

2.2 MS COCO 数据集

D2Det在COCO测试dev上的定性结果:
在这里插入图片描述

误差分析图显示了D2Det(第二行)与Grid R-CNN Plus(第一行)在所有80个类别中的总体(左边)和较大的对象(右边)的比较。在每个子图像的图中显示一系列不同评价设置的精确召回曲线。
在这里插入图片描述
以DLR和DRP为基线(MS COCO minival),本文方法在性能上取得了一定的提高,整体比基线提高了4.7%。

在这里插入图片描述

2.3 UAVDT 数据集

在这里插入图片描述

3 实例分割方法比较

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 结论

  • 提出了一个二阶段的检测方法,解决精确目标定位和精确分类。
  • 为了精确定位,引入了稠密局部回归来预测多个稠密锚框偏移。
  • 为了精准分类,提出一种区别 RoI pooling。先是从一个proposal的各个子区域中采样,然后用一种基于自适应加权的区域识别算法获得discriminative feature;
  • D2Det在 MS COCO 和 UAVDT 数据集上实现了最先进的检测结果。此外,在 MS COCO 和 iSAID 上给出了分割的结果,与现有的方法相比,取得了很好的结果。

第一次写博客,虽然是精读,但是依旧有很多基础的、应当深挖的地方一知半解,希望大牛们对错误的解读,尤其是对方法理解的逻辑进行指正,谢谢

参考

https://blog.csdn.net/yuansiming0920/article/details/108102054
https://blog.csdn.net/bryant_meng/article/details/108175375

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!