Faster R-CNN

【深度学习】目标检测算法总结(R-CNN、Fast R-CNN、Faster R-CNN、FPN、YOLO、SSD、RetinaNet)

旧巷老猫 提交于 2021-02-11 20:40:40
目标检测是很多计算机视觉任务的基础,不论我们需要实现图像与文字的交互还是需要识别精细类别,它都提供了可靠的信息。本文对目标检测进行了整体回顾,第一部分从RCNN开始介绍基于候选区域的目标检测器,包括Fast R-CNN、Faster R-CNN 和 FPN等。第二部分则重点讨论了包括YOLO、SSD和RetinaNet等在内的单次检测器,它们都是目前最为优秀的方法。 一、基于候选区域的目标检测器 1.1 滑动窗口检测器   自从 AlexNet 获得 ILSVRC 2012 挑战赛冠军后,用 CNN 进行分类成为主流。 一种用于目标检测的暴力方法是从左到右、从上到下滑动窗口,利用分类识别目标 。为了在不同观察距离处检测不同的目标类型,我们使用不同大小和宽高比的窗口。 滑动窗口(从右到左,从上到下)   我们根据滑动窗口从图像中剪切图像块。由于很多分类器只取固定大小的图像,因此这些图像块是经过变形转换的。但是,这不影响分类准确率,因为分类器可以处理变形后的图像。 将图像变形转换成固定大小的图像   变形图像块被输入 CNN 分类器中,提取出 4096 个特征。之后,我们使用 SVM 分类器识别类别 和该 边界框的另一个线性回归器 。 滑动窗口检测器的系统工作流程图   下面是伪代码。我们创建很多窗口来检测不同位置的不同目标。要提升性能,一个显而易见的办法就是减少窗口数量。 for

目标检测之R-CNN系列

可紊 提交于 2021-02-11 20:39:54
Object Detection,在给定的图像中,找到目标图像的位置,并标注出来。 或者是,图像中有那些目标,目标的位置在那。这个目标,是限定在数据集中包含的目标种类,比如数据集中有两种目标:狗,猫。 就在图像找出来猫,狗的位置,并标注出来 是狗还是猫。 这就涉及到两个问题: 目标识别,识别出来目标是猫还是狗,Image Classification解决了图像的识别问题。 定位,找出来猫狗的位置。 R-CNN 2012年AlexNet在ImageNet举办的ILSVRC中大放异彩,R-CNN作者受此启发,尝试将AlexNet在图像分类上的能力迁移到PASCAL VOC的目标检测上。这就要解决两个问题: 如何利用卷积网络去目标定位 如何在小规模的数据集上训练出较好的网络模型。 对于问题,R-CNN利用候选区域的方法(Region Proposal),这也是该网络被称为R-CNN的原因:Regions with CNN features。对于小规模数据集的问题,R-CNN使用了微调的方法,利用AlexNet在ImageNet上预训练好的模型。 R-CNN目标检测的思路: 给定一张图片,从图片中选出2000个独立的候选区域(Region Proposal) 将每个候选区域输入到预训练好的AlexNet中,提取一个固定长度(4096)的特征向量 对每个目标(类别)训练一SVM分类器

Faster R-CNN 目标检测体验篇

时光毁灭记忆、已成空白 提交于 2021-02-11 19:56:04
本文建议阅读时间 12 min 上次我们分享了目标检测 One-Stage 的代表 YOLO,从体验、理论到代码实战。其实 One-Stage 还有一个代表是 SSD ,这个等到下一次我们再讲解,因为 SSD 涉及到部分 Two-Stage 目标检测的知识。 本期我们分享的是 Two-Stage 的代表作 Fater R-CNN ,这是属于 R-CNN 系列中比较经典的一个,目前比较流行。今天我们就带大家体验一把 Faster R-CNN 的检测,代码不多。 代码说明 我们代码使用的是 Pytorch 提供的目标检测模型 fasterrcnn_resnet50_fpn model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained= True ) 模型预测后得到的结果是 Bounding boxes [x0, y0, x1, y1] 边框的四个值 Labels 所有预测的标签 Scores 所有标签的分数 以下就是本次内容的所有代码: import torchvision # 0.3.0 version 这里指的是所使用包的版本 from torchvision import transforms as T import cv2 # 4.1.1 version import matplotlib

【AI in 美团】深度学习在OCR中的应用

心不动则不痛 提交于 2021-02-10 16:36:01
AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人、无人配送等多个领域,帮助美团3.2亿消费者和400多万商户改善服务和体验,帮大家吃得更好,生活更好。 基于AI技术,美团搭建了世界上规模最大,复杂度最高的多人、多点实时智能配送调度系统;基于AI技术,美团推出了业内第一款大规模落地的企业应用级语音交互产品,为50万骑手配备了智能语音系统;基于AI技术,美团构建了世界上最大的菜品知识库,为200多万商家、3亿多件商品绘制了知识图谱,为2.5亿用户提供了精准的用户画像,并构建了世界上用户规模最大、复杂度最高的O2O智能推荐平台。 美团这个全球最大生活服务互联网平台的“大脑”是怎么构建的?从本周起,我们将连续发表“AI in 美团”系列文章,给大家全面揭开各项技术的内幕。 另外,业界第一部全面讲述互联网机器学习实践的图书《美团机器学习实践》也即将上市,敬请期待,本文选自书中第十五章。 背景 计算机视觉是利用摄像机和电脑代替人眼,使得计算机拥有类似于人类的对目标进行检测、识别、理解、跟踪、判别决策的功能。以美团业务为例,在商家上单、团单展示、消费评价等多个环节都会涉及计算机视觉的应用,包括文字识别、图片分类

ResNet、Faster RCNN、Mask RCNN是专利算法吗?盘点何恺明参与发明的专利

爱⌒轻易说出口 提交于 2021-02-08 13:22:39
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 前段时间OpenCV正式将SIFT算法的实现从Non-free模块移到主库,因SIFT专利到期了(专利授权后,从申请日开始有20年的保护期)。 美国林肯总统称" 专利制度是给天才之火浇上利益之油 ",专利保护了申请人的利益,促进了科技的进步,但现在也有越来越多的滥用专利权对产业机构敲诈的案例出现。 SIFT 专利权的终结让我们不得不思考,还有哪些著名的算法被申请了专利?对于做研究的朋友来说不需要考虑这个问题,专利算法依然可以参考、复现、对比,但对于产业界朋友就不得不确认清楚:项目中有没有可能使用了别人专利保护算法。 作为计算机视觉领域当今翘楚,两度获得CVPR 最佳论文奖的何恺明大佬有很多论文都具有重大影响力。其部分论文引用数据: 残差网络 ResNet 被引用 51939 次、目标检测算法 Faster RCNN 被引用 20291 次、实例分割算法 Mask RCNN 被引用 7249 次,暗通道去雾被引用 4274 次,这些知名的算法有成百上千的开源实现,也肯定被大量的商业公司使用,有没有被申请专利? 想想 ResNet 如果被申请专利,那恐怕大多数使用深度学习的商业公司都在侵权了!价值难以估计! 带着这样的疑问,CV君检索了所有与“ Kaiming He ”相关的已经公开的授权专利和专利申请

经典神经网络 | Faster R-CNN 论文解析

喜欢而已 提交于 2021-02-01 11:29:08
点击上方“ 计算机视觉cv ”即可“进入公众号” 重磅干货第一时间送达 论文题目:Faster R-CNN: T owards Real-Time Object Detection with Region Proposal Networks 论文链接:https://arxiv.org/abs/1506.01497 作者及单位 研究目标 Faster R-CNN是为了改进Fast R-CNN而提出来的。因为在Fast R-CNN文章中的测试时间是不包括search selective时间的,而在测试时很大的一部分时间要耗费在候选区域的提取上。所以作者提出了 RPN 来提取候选框,使时间大大的减少了。 Faster R—CNN网络介绍 Faster R—CNN结构 Faster R—CNN具体可分为四个结构: Conv layers:作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的 feature maps 。该feature maps被共享用于后续RPN层和全连接层。 Region Proposal Networks:RPN网络用于生成region proposals。该层通过softmax判断anchors属于 positive或者 negative,再利用bounding box

目标检测算法之YOLOv1与v2

有些话、适合烂在心里 提交于 2021-01-30 14:05:13
YOLO:You Only Look Once(只需看一眼) 基于深度学习方法的一个特点就是实现端到端的检测,相对于其他目标检测与识别方法(如Fast R-CNN)将目标识别任务分成目标区域预测和类别预测等多个流程,YOLO将目标区域预测和类别预测整合到单个神经网络中,将目标检测任务看作目标区域预测和类别预测的回归问题。速度非常快,达到每秒45帧,而在快速YOLO(Fast YOLO,卷积层更少),可以达到每秒155帧。 与当前最好系统相比,YOLO目标区域定位误差更大,但是背景预测的假阳性(真实结果为假,算法预测为真)优于当前最好的方法。 一、YOLO的核心思想 1. YOLO的核心思想就是利用整张图作为网络的输入,直接在输出层回归bounding box(边界框)的位置及其所属类别 2. Faster R-CNN中也直接用整张图作为输入,但是Faster R-CNN整体还是采用了RCNN那种proposal + classifier的思想,只不过将提取proposal的步骤放在CNN中实现,而YOLO则采用直接回归的思路。 二、YOLO的实现方法 1. YOLO首先将图像分为SxS个网格(grid cell)。如果一个目标的中心落入格子,该格子就负责检测其目标。每一个网格中预测B个Bounding box和置信值(confidence score)

ResNet、Faster RCNN、Mask RCNN 是专利算法吗?盘点何恺明参与发明的专利

大憨熊 提交于 2021-01-05 18:01:24
点击上方“ 迈微AI研习社 ”,选择“ 星标★ ”公众号 重磅干货,第一时间送达 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:我爱计算机视觉,52CV君 AI博士笔记系列推荐 周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接 前段时间OpenCV正式将SIFT算法的实现从Non-free模块移到主库,因SIFT专利到期了(专利授权后,从申请日开始有20年的保护期)。 美国林肯总统称 "专利制度是给天才之火浇上利益之油" ,专利保护了申请人的利益,促进了科技的进步,但现在也有越来越多的滥用专利权对产业机构敲诈的案例出现。 SIFT 专利权的终结让我们不得不思考,还有哪些著名的算法被申请了专利?对于做研究的朋友来说不需要考虑这个问题,专利算法依然可以参考、复现、对比,但对于产业界朋友就不得不确认清楚:项目中有没有可能使用了别人专利保护算法。 作为计算机视觉领域当今翘楚,两度获得CVPR 最佳论文奖的何恺明大佬有很多论文都具有重大影响力。其部分论文引用数据: 残差网络 ResNet 被引用 51939 次、目标检测算法 Faster RCNN 被引用 20291 次、实例分割算法 Mask RCNN 被引用 7249 次,暗通道去雾被引用 4274 次,这些知名的算法有成百上千的开源实现,也肯定被大量的商业公司使用,有没有被申请专利? 想想 ResNet

转:图像分类、物体检测、物体分割、实例分割、语义分割

被刻印的时光 ゝ 提交于 2020-11-27 03:51:51
0001,常识1 计算机视觉的任务很多,有图像分类、目标检测、语义分割、实例分割和全景分割等,那它们的区别是什么呢? 1、Image Classification(图像分类) 图像分类(下图左)就是对图像判断出所属的分类,比如在学习分类中数据集有人(person)、羊(sheep)、狗(dog)和猫(cat)四种,图像分类要求给定一个图片输出图片里含有哪些分类,比如下图的例子是含有person、sheep和dog三种。 2、Object detection(目标检测) 目标检测(上图右)简单来说就是图片里面有什么?分别在哪里?(把它们用矩形框框住) 目前常用的目标检测算法有Faster R-CNN和基于YOLO的目标检测的算法 3、semantic segmentation(语义分割) 通常意义上的目标分割指的就是语义分割 语义分割(下图左)就是需要区分到图中每一点像素点,而不仅仅是矩形框框住了。但是同一物体的不同实例不需要单独分割出来。对下图左,标注为人,羊,狗,草地。而不需要羊1,羊2,羊3,羊4,羊5等。 4、Instance segmentation(实例分割) 实例分割(上图右)其实就是目标检测和语义分割的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注出图上同一物体的不同个体(羊1,羊2,羊3...)