Faster R-CNN

机器学习在交通标志检测与精细分类中的应用

守給你的承諾、 提交于 2020-05-07 16:20:18
导读 数据对于地图来说十分重要,没有数据,就没有地图服务。用户在使用地图服务时,不太会想到数据就像冰山一样,用户可见只是最直接、最显性的产品功能部分,而支撑显性部分所需要的根基,往往更庞大。 地图数据最先是从专业采集来的,采集工具就是车、自行车、飞机和卫星影像等,近两年有了利用智能硬件的众包采集。采集之后,就是把数据更新的速度和精准度都无限提升。因为地面上变化太快了,用户越来越依赖于地图应用。所以数据更新的速度和数据的准确度就是在乎用户体验的地图公司的第一要务了。而数据更新的第一步,就是交通标志检测。 本文将主要介绍机器学习技术在高德的地图数据生产的具体应用,这些技术方案和设计都已经过验证,取得了不错的效果,并且为高德地图数据的快速更新提供了基础的技术保证。 “交通标志检测”定义 交通标志检测,特指在普通街景图像上通过自动化手段检测出各种类型的交通标志,如限速、禁止掉头、人行横道和电子眼等。这些检测结果将作为生产数据交付给地图数据制作流程,最终演变为服务于广大用户的地图数据。 难点与挑战 交通标志检测的主要难点有样式繁杂,且在拍摄过程中受自然环境的影响较大。此外,为满足数据更新的速度和数据准确度的要求,对于算法的性能要求也格外严格。 样本形态差异大 交通标志的形态差异主要体现在: 类型繁多:国标定义的交通标志有几百个类型; 形状多样:常见交通标志的形状有三角形、圆形、方形、菱形

FAIR开源Detectron:整合全部顶尖目标检测算法

霸气de小男生 提交于 2020-05-07 14:02:39
昨天,Facebook AI 研究院(FAIR)开源了 Detectron,业内最佳水平的目标检测平台。 昨天,Facebook AI 研究院(FAIR)开源了 Detectron,业内最佳水平的目标检测平台。据介绍,该项目自 2016 年 7 月启动,构建于 Caffe2 之上,目前支持大量机器学习算法,其中包括 Mask R-CNN(何恺明的研究,ICCV 2017 最佳论文)和 Focal Loss for Dense Object Detection,(ICCV 2017 最佳学生论文)。Facebook 称,该工具包已被应用与公司内部很多团队应用于各类应用中,一旦训练完成,这些计算机视觉模型可被部署在云端或移动设备上。 项目地址:https://github.com/facebookresearch/Detectron Detectron Detectron 是 Facebook AI Research 实现顶尖目标检测算法(包括 Mask R-CNN)的软件系统。该系统是基于 Python 和深度学习框架 Caffe 2 而构建的。 在 FAIR 实验室,Detectron 目前已经支持很多研究项目的实现,包括: Feature Pyramid Networks for Object Detection (https://arxiv.org/abs/1612.03144

CS231n笔记 Lecture 11, Detection and Segmentation

蹲街弑〆低调 提交于 2020-05-07 14:02:13
Other Computer Vision Tasks Semantic Segmentation. Pixel level, don't care about instances. Classification + Localization. Single object. Object Detection. Multiple object. Instance Segmentation. Multiple object. Semantic Segmentation Simple idea: sliding window, crop across the whole image, and ask what the center pixel is. Expensive. Fully Convoltional (Naive) : let the network to learning all the pixels at once, keep the spacial size, convolutions at original image resolution, expensive. Fully convolutional: Design network as a bunch of convolutional layers, with downsampling and upsampling

OCR场景文本识别:文字检测+文字识别

ε祈祈猫儿з 提交于 2020-05-06 02:38:32
一. 应用背景 OCR(Optical Character Recognition)文字识别技术的应用领域主要包括:证件识别、车牌识别、智慧医疗、pdf文档转换为Word、拍照识别、截图识别、网络图片识别、无人驾驶、无纸化办公、稿件编辑校对、物流分拣、舆情监控、文档检索、字幕识别文献资料检索等。OCR文字识别主要可以分为:印刷体文字识别和手写体文字识别。文字识别方法的一般流程为:识别出文字区域、对文字区域矩形分割成不同的字符、字符分类、识别出文字、后处理识别矫正。 二. 文字检测 文字检测是文字识别过程中的一个非常重要的环节,文字检测的主要目标是将图片中的文字区域位置检测出来,以便于进行后面的文字识别,只有找到了文本所在区域,才能对其内容进行识别。 1.【CTPN】 CTPN,全称是“Detecting Text in Natural Image with Connectionist Text Proposal Network”,将文本行在水平方向解耦成slices进行检测,再将slices区域合并成文本框。CTPN结构与Faster R-CNN类似,但加入了RNN(LSTM层)用于序列的特征识别来提高检测精度,目前CTPN针对水平长行文本的检测是工业级的,算法鲁棒。 算法流程: Feature Map:N(images) - C(channels) - H(height) - W

【论文笔记】Side-Aware Boundary Localization for More Precise Object Detection

雨燕双飞 提交于 2020-05-06 01:59:21
& 论文概述 获取地址: https://arxiv.org/abs/1912.04260 代码地址: https://github.com/open-mmlab/mmdetection & 总结与个人观点 本文提出Side-Aware Boundary Localization(SABL)以取代传统的bbox回归。提取关注于边界内容的边缘感知特征用来定位。提出使用该特征的轻量级two-step bucketing方法以精确定位目标。同时引入重打分(rescore)机制,利用bucket的置信度来保留高质量的bbox。在各种目标检测流程中,SABL均展现了一致且重大的性能提升。 本文通过对回归方法的分析,观察到更简单精确回归到边界框的方法,设计的整体框架很精巧,思路很清晰,而且每个方法的提出都很明确,值得一观。 & 贡献 使用Side-Aware Boundary Localization(SABL)取代之前的bbox regression分支,对bbox的每条边分别定位,提高了定位的精度; 使用Bucketing scheme进行细粒度目标定位以及对分类进行rescore,降低高精度bbox的抑制率; 在COCO数据集中,在Faster R-CNN、RetinaNet以及Cascade R-CNN的基础上替换回归分支,最终分别提升了3.0、1.6以及0.9个点。 & 拟解决的问题

『计算机视觉』目标检测前沿及回顾(2018)

梦想的初衷 提交于 2020-05-01 06:00:46
资料来源: 人工智能前沿讲习 表格资料来源: hoya012的Github Detector VOC07 (mAP@IoU=0.5) VOC12 (mAP@IoU=0.5) COCO (mAP@IoU=0.5:0.95) Published In R-CNN 58.5 - - CVPR'14 SPP-Net 59.2 - - ECCV'14 MR-CNN 78.2 (07+12) 73.9 (07+12) - ICCV'15 Fast R-CNN 70.0 (07+12) 68.4 (07++12) 19.7 ICCV'15 Faster R-CNN 73.2 (07+12) 70.4 (07++12) 21.9 NIPS'15 YOLO v1 66.4 (07+12) 57.9 (07++12) - CVPR'16 G-CNN 66.8 66.4 (07+12) - CVPR'16 AZNet 70.4 - 22.3 CVPR'16 ION 80.1 77.9 33.1 CVPR'16 HyperNet 76.3 (07+12) 71.4 (07++12) - CVPR'16 OHEM 78.9 (07+12) 76.3 (07++12) 22.4 CVPR'16 MPN - - 33.2 BMVC'16 SSD 76.8 (07+12) 74.9 (07++12) 31.2

【论文笔记】Object detection with location-aware deformable convolution and backward attention filtering

江枫思渺然 提交于 2020-04-25 05:24:58
& 论文概述 获取地址: http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_Object_Detection_With_Location-Aware_Deformable_Convolution_and_Backward_Attention_Filtering_CVPR_2019_paper.pdf & 总结与个人观点 本文提出了 location-aware deformable convolution 以及 backward attention filtering 模块以提高自动驾驶中多类别多尺度目标检测的性能。其中location-aware deformable convolution能够 自适应提取不均匀分布的上下文特征 ,与标准卷积特征结合以搭建为复杂场景中检测目标的健壮的、更具表征力的特征。Backward attention filtering模型利用深层卷积层中的高级语义特征以 增强有信息的高分辨率特征同时抑制分散特征 ,提高了性能同时减少了需要的RoIs。通过在前向-后向网络中结合两个方法,在KITTI以及PASCAL VOC数据集中速度和性能均达到顶尖水准。 本文主要关注两个方面:上下文信息以及空间信息的精炼。分别使用位置感知的可变形卷积以及注意力机制,均是增强特征方面的操作

论文阅读:Deformable ConvNets v2

微笑、不失礼 提交于 2020-04-25 02:01:43
论文地址: http://arxiv.org/abs/1811.11168 作者:pprp 时间:2019年5月11日 0. 摘要 DCNv1引入了可变形卷积,能更好的适应目标的几何变换。但是v1可视化结果显示其感受野对应位置超出了目标范围,导致特征不受图像内容影响(理想情况是所有的对应位置分布在目标范围以内)。 为了解决该问题:提出v2, 主要有 扩展可变形卷积,增强建模能力 提出了特征模拟方案指导网络培训:feature mimicking scheme 结果:性能显著提升,目标检测和分割效果领先。 1. 简介 Geometric variations due to scale, pose, viewpoint and part deformation present a major challenge in object recognition and detection. 目标检测一个主要挑战: 尺度 , 姿势 , 视角 和 部件变形 引起的几何变化 v1 引入两个模块: Deformable Convolution : 可变形卷积 通过相对普通卷积基础上添加的偏移解决 Deformable RoI pooling : 可变形 RoI pooling 在RoI pooling 中的bin学习偏移 为了理解可变形卷积,进行了可视化操作: samples for an

PaddlePaddle/PaddleDetection

风格不统一 提交于 2020-04-17 03:42:32
【推荐阅读】微服务还能火多久?>>> English | 简体中文 PaddleDetection PaddleDetection的目的是为工业界和学术界提供丰富、易用的目标检测模型。不仅性能优越、易于部署,而且能够灵活的满足算法研究的需求。 目前检测库下模型均要求使用PaddlePaddle 1.7及以上版本或适当的develop版本。 简介 特性: 易部署: PaddleDetection的模型中使用的核心算子均通过C++或CUDA实现,同时基于PaddlePaddle的高性能推理引擎可以方便地部署在多种硬件平台上。 高灵活度: PaddleDetection通过模块化设计来解耦各个组件,基于配置文件可以轻松地搭建各种检测模型。 高性能: 基于PaddlePaddle框架的高性能内核,在模型训练速度、显存占用上有一定的优势。例如,YOLOv3的训练速度快于其他框架,在Tesla V100 16GB环境下,Mask-RCNN(ResNet50)可以单卡Batch Size可以达到4 (甚至到5)。 支持的模型结构: ResNet ResNet-vd 1 ResNeXt-vd SENet MobileNet HRNet Res2Net Faster R-CNN ✓ ✓ x ✓ ✗ ✗ ✗ Faster R-CNN + FPN ✓ ✓ ✓ ✓ ✗ ✓ ✓ Mask R-CNN ✓ ✓

百度云智峰会Workshop技术干货第1弹 ——文本目标检测实验介绍

北城以北 提交于 2020-04-13 21:48:28
【今日推荐】:为什么一到面试就懵逼!>>> 本文作者:HelloDeveloper 8 月29日下午,在热烈的气氛中,2019百度云智峰会在北京顺利举办。活动现场,百度开发者中心联手百度云智学院,为开发者及学生们,提供了展示自己的舞台,输出百度沉淀的优质技术。百度开发者中心(developer.baidu.com)专注于为开发者打造一个有温度的技术交流社区,一直伴随着中国开发者的成长,通过分享知识、交流。自成立以来,坚持为广大开发者提供优质服务。百度云智学院(abcxueyuan.baidu.com)作为百度对外知识赋能的平台,依托百度ABC战略,整合内外部优质教育培训资源,定义满足产业需求的人才标准和培训体系,以“AI引领未来,茁壮科技人才”为使命,致力于为ABC时代的人才培养、技术分享等问题提供全新的解决思路。 为了帮助大家更好地理解Workshop中亮相的6大技术,我们特将技术内容进行梳理总结,出品6篇技术干货文章,在近期于百度开发者中心公众号(ID:baidudev)上逐一分享给大家,请大家持续关注。以下是第一期内容《文本目标检测实验介绍》。 BML平台简介 BML是一款企业级的机器学习平台,提供一站式人工智能建模与推理预测服务。面向用户提供机器学习和深度学习服务能力,实现从数据集管理、数据预处理、数据源、模型训练,到模型管理、预测服务、服务监控等全AI工作周期的管理