视觉检测

语义SLAM综述

*爱你&永不变心* 提交于 2020-02-28 03:49:28
语义SLAM综述 摘要 SLAM技术在计算机视觉和机器人领域中占有重要地位。传统的SLAM框架采用了较强的静态世界假设,便于分析。大多基于小区域静态环境。在大规模的动态环境下,它们大多难以获得较好的性能,系统的准确性、快速性仍需加强。如何应对动态环境是一个非常重要而又备受关注的问题。现有的面向动态场景的SLAM系统要么只利用语义信息,要么只利用几何信息,要么以松散耦合的方式天真地组合它们的结果。近年来,一些研究集中在语义信息与视觉SLAM的结合上。 当前现状 视觉 SLAM(visual SLAM)是以图像作为主要环境感知信息源的SLAM系统,可应用于无人驾驶、增强现实等应用领域,是近年来的热门研究方向。典型视觉SLAM算法以估计摄像机位姿为主要目标,通过多视几何理论来重构3D地图。为提高数据处理速度,部分视觉 SLAM算法是首先提取稀疏的图像特征,通过特征点之间的匹配实现帧间估计和闭环检测,如基于SIFT(scaleinvariant feature transform)特征的视觉 SLAM和 基于ORB(oriented FAST and rotated BRIEF)特征的视觉。SIFT 和 ORB 特征凭借其较好的鲁棒性和较优的区分能力以及快速的处理速度,在视觉 SLAM 领域受到广泛应用。 但是,人工设计的稀疏图像特征当前有很多局限性

阿里云上线“人脸口罩检测”算法服务,助力智能化疫情防控!

ε祈祈猫儿з 提交于 2020-02-26 03:22:26
面对来势汹汹的肺炎疫情,行人是否佩戴口罩是关键的疫情防控点,口罩佩戴检测则是一项核心工作。 据有关统计,当前线下超市等公共场所出现的人员口罩佩戴率只有70%-90%,仍有大量行人暴露在易感环境中,还有部分行人口罩佩戴不规范。但是,以人盯人的方式去监督管理较为耗费人力并且存在疏漏的可能。近期,阿里云视觉智能平台( vision.aliyun.com )推出“人脸口罩检测”算法服务,并结合阿里云客流分析平台、钉钉小程序及天猫精灵,共同打造一站式公共场所出行人员口罩佩戴检测及统计预警系统。   阿里云视觉智能开放平台( vision.aliyun.com )是基于阿里巴巴视觉智能技术实践经验,面向视觉智能技术的开发与应用用户,为其提供好用、易用、普惠的视觉智能API服务,帮助企业、开发者快速建立视觉智能技术的应用能力的综合性视觉AI能力平台。疫情当前,平台紧急推出了基于视觉AI分析的“人脸口罩检测”算法服务,通过对接该服务可快速构建监控系统并可统计人员的口罩佩戴情况,实现疫情防控的AI化,数字化。   那么“人脸口罩检测”能力是如何让佩戴口罩落到实处,并协助监测系统实现闭环的发现、告警、监督以及管理的呢?   这里我们用到了通过API接口方式对接的“人脸识别”和“口罩检测”两种能力。当系统拿到人物画面的时候首先会使用人脸定位功能,识别普通人群图片获取相应的人脸坐标

单镜头视觉系统检测车辆的测距方法

生来就可爱ヽ(ⅴ<●) 提交于 2020-02-02 02:05:00
以前提过单目测距的问题,检测的障碍物2-D框加上摄像头的姿态和路面假设。以下根据公开发布的论文讨论具体的算法。 注:深度学习直接估计深度图不属于这个议题。其中标题加黑的是重点掌握的。 Vision-based ACC with a Single Camera: Bounds>著名的Mobileye论文,先看成像几何如图: 本车A,前方车B和C,摄像头P焦距f,高度H,和障碍物B/C距离Z1/Z2,B/C检测框着地点在图像的投影是y1/y2。那么y=fH/Z,所以Z=fH/y。下面是三个不同距离的估计结果: 精度测量得到:90米误差大约10%, 44米误差约为5%。 Integrated Vehicle and Lane Detection with Distance Estimation 算法流程如下: 先是从3个消失点估算摄像头焦距,然后6个2D-3D对应点得到摄像头姿态: 来源: CSDN 作者: yangdashi888 链接: https://blog.csdn.net/yangdashi888/article/details/104133829

目标检测基于中心点:CenterNet Keypoint Triplets for Object Detectiontection

血红的双手。 提交于 2020-01-18 00:15:26
参考文献:https://arxiv.org/abs/1904.08189 代码实现:https://github.com/Duankaiwen/CenterNet 截至目前2019.04.19,CenterNet应该是one-stage目标检测方法中性能(精度)最好的方法! CenterNet: Keypoint Triplets for Object Detectiontection 摘要 在目标检测中,基于关键点的方法经常会遇到大量不正确的边界框,主要是由于缺少对裁剪区域的额外监督造成的。本文提出了一种有效的解决方案,以最小的成本探索每个裁剪区域内的视觉模式。 本文提出的CenterNet是一个单阶段的关键点检测模型,将每个目标物看作是一个三个关键点,而不是一对关键点,从而提高了精确度和召回率。相应地,我们设计了两个模块cascade corner pooling和center pooling,分别起到丰富左上角、右下角收集的信息和在中心区域提供更多可识别信息的作用 。在MS-COCO数据集上,CenterNet实现了47%的AP,其性能优于现有的单阶段检测器至少4.9%。同时,CenterNet具有更快的推理速度,其性能与排名第一的两阶段检测器相当。 1 引言 基于锚框的目标检测算法缺点 : 借助于深度学习中的卷积神经网络(CNNs),目标检测得到了显著的改进和提高[11]

A Taxonomy of Deep Convolutional Neural Nets for Computer Vision

霸气de小男生 提交于 2020-01-14 20:01:03
A Taxonomy of Deep Convolutional Neural Nets for Computer Vision 基本信息 摘要 1. Introduction 2. Introduction to Convolutional Neural Networks 2.1. Building Blocks of CNNs 2.1.1. Why Convolutions? 2.1.2. Max-Pooling 2.1.3. Non-Linearity 2.2. Depth 2.3. Learning Algorithm 2.3.1. Gradient-Based Optimization 2.3.2. Dropout 2.4. Tricks to Increase Performance 2.5. Putting It All Together: AlexNet 2.6. Using Pre-Trained CNNs 2.6.1. Fine-Tuning 2.6.2. CNN Activations as Features 2.7. Improving AlexNet 3. CNN Flavors 3.1. Region-Based CNNs 3.2. Fully Convolutional Networks 3.3. Multi-Modal Networks 3.4.

vslam优化方法(激光 VS 视觉)

二次信任 提交于 2019-12-15 05:24:57
转载 https://cloud.tencent.com/developer/article/1436532 。 最近在做基于激光信息的机器人行人跟踪发现如果单独利用激光信息很难完成机器人对行人的识别、跟踪等功能,因此考虑与视觉融合的方法,这样便可以充分利用激光雷达提供的精确位置信息及视觉提供的丰富纹理、颜色等场景信息。以下是最近调研视觉SLAM中的实现方法的总结,包括三方面内容:姿态计算、闭环检测、BA优化。 姿态计算 一、通过提取图像的特征描述子,如ORB、SURF和SIFT等特征描述子,然后通过RANSAC算法进行图像匹配去除匹配点中的外点,再通过将二维点对映射到三维之后,便可以利用PnP或ICP算法计算相机位姿。基于特征提取的位姿计算算法对场景有一定的要求,在无纹理场景会出现位姿计算失败的情形。 二、直接图像匹配方法:直接图像匹配并不对图片进行特征提取,核心思想是在旋转坐标系下,基于相机一致性的假设,在相机的刚体变换已知的情况下,利用相机变换矩阵将目标图片投影到当前图片上,其像素之间的差异应该最小,将姿态计算转换为加权最小二乘问题。直接图像匹配算法的计算效率很高,不依赖GPU,具有很高的理论和商用价值。 闭环检测 闭环检测算法指的是通过检测算法检测出之前访问过的场景。如图1所示,当机器人在移动过程中,特别是在探索大面积的场景时,由于模型的不确定性以及设备的噪声

高德地图首席科学家任小枫:视觉智能在高德地图的应用

白昼怎懂夜的黑 提交于 2019-12-01 12:15:51
2019杭州云栖大会上,高德地图技术团队向与会者分享了包括视觉与机器智能、路线规划、场景化/精细化定位、时空数据应用、亿级流量架构演进等多个出行技术领域的热门话题。现场火爆,听众反响强烈。我们把其中的优秀演讲内容整理成文并陆续发布在「高德技术」公众号上,本文为其中一篇。 高德地图首席科学家任小枫在高德技术专场分享了题为 《视觉智能连接真实世界》 的演讲,本文根据现场内容整理而成(在不影响原意的情况下对文字略作编辑),更多视觉智能技术的实现细节请关注本微信号的后续系列文章。 以下为演讲内容的简版实录: 我今天主要给大家介绍视觉及相关技术如何在高德落地,如何帮助连接真实世界。连接真实世界这句话并不只是我个人的想法,而是高德地图的使命,我们的使命是 “连接真实世界,让出行更美好” 。 首先,简单介绍下高德地图,有超过1亿的日活用户,超过4亿的月活用户,高德地图不光提供导航,也提供出行相关的其他服务,涵盖了信息服务、驾车导航、共享出行、智慧公交、智慧景区、骑行、步行、长途出行等应用场景。 高德地图做的事情是建立人和真实世界的关系,人要跟真实世界建立联系,地图是基础,地图之上还有更多的信息可以获取。 视觉是连接真实世界的桥梁 视觉是连接真实世界的桥梁。为什么?从人的信息获取角度来看,80%的内容是通过视觉获取到的。从人的信息处理来看,人的大脑30%-60%用于视觉感知。从机器的角度