本次汇报内容
1、论文 《Fast R-CNN》Microsoft Research 2015年 / 《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 》空间金字塔池化网络,何恺明 2014年
2、
《Fast R-CNN》Microsoft Research
Fast Region-based Convolutional Network 快速的基于区域的卷积网络
概要:
Fast R-CNN以之前的工作为基础,利用深度卷积网络对项目提案进行有效分类,Fast R-CNN对VGG16网络进行了9倍于R-CNN的训练,在测试时的速度是213倍,并在PASCAL VOC 2012上实现了更高的mAP(检测质量)。与SPPnet金字塔网络相比,Fast R-CNN训练VGG16 3倍快,测试10倍快。
问题:R-CNN,候选窗口的特征是借助深度神经网络进行抽取的,在VOC和ImageNet数据集上都表现出了出色的检测精度。但R-CNN的特征计算十分耗时,因为它对每张图片中的上千个变形后的区域的像素反复调用CNN,SPPnet只需要在整张图片上运行一次卷积网络层(不关心窗口的数量),然后再使用SPP-net在特征图上抽取特征。这个方法缩减了上百倍的耗时。
【多尺度特征可以提取出固定大小的特征向量】
因为使用的是Pascal voc 2012数据集,算背景是21类,也就有了下面的计算输出
黑色图片代表卷积层之后的特征图,随后我们以不同大小的块来提取特征,分别是4*4,2*2,1*1,将这三张网格放到下面这张特征图上,
就可以得到16+4+1=21种不同的块(Spatial bins).我们从这21个块中,每个块提取出一个特征,这样刚好就是我们要提取的21维特征向量。这种以不同的大小格子的组合方式来池化的过程就是空间金字塔池化(SPP)。
比如,要进行空间金字塔最大池化,其实就是从这21个图片块中,分别计算每个块的最大值,从而得到一个输出单元,最终得到一个21维特征的输出。
输出向量大小为Mk,M=bins(块数), k=filters(卷积核个数),作为全连接层的输入。例如上图,Conv5计算出的feature map是任意大小的,经过SPP之后,变成固定大小的输出了,以上图为例,共输出(16+4+1)*256的特征。(有256个卷积核)
SSP-net 模型概览
问题是SSP-net微调算法不能更新空间金字塔池之前的卷积层。毫无疑问,这种限制(固定的卷积层)限制了非常深的网络的准确性。
于是提出一种单阶段联合学习的目标建议分类和空间定位的训练算法-F ast R-CNN
优势贡献是什么?
1、更高的检测质量;
2、单阶段训练,多任务损失;
3、训练时全网络更新;
4、特性缓存不需要磁盘存储
本来想自己总结的,发现前辈已经总结了,而且总结归纳的很不错。传送门:
【目标检测】Fast R-CNN论文详解(Fast R-CNN)
【目标检测】SPPnet论文详解(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)
对比R-CNN网络 【目标检测】R-CNN论文详解(Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation)
来源:CSDN
作者:GoogleNovto
链接:https://blog.csdn.net/qq_44287129/article/details/104510763