kitti

kitti 数据集解析

蓝咒 提交于 2019-12-23 02:07:57
1、KITTI数据集采集平台: KITTI数据采集平台包括2个灰度摄像机,2个彩色摄像机,一个Velodyne 3D激光雷达,4个光学镜头,以及1个GPS导航系统。坐标系转换原理参见 click 。KITTI提供的数据中都包含三者的标定文件,不需人工转换。 2、KITTI数据集,label文件解析: Car 0.00 0 -1.84 662.20 185.85 690.21 205.03 1.48 1.36 3.51 5.35 2.56 58.84 -1.75 第1个字符串:代表物体类别 'Car', 'Van', 'Truck','Pedestrian', 'Person_sitting', 'Cyclist','Tram', 'Misc' or 'DontCare' 注意:’DontCare’ 标签表示该区域没有被标注,比如由于目标物体距离激光雷达太远。为了防止在评估过程中(主要是计算precision),将本来是目标物体但是因为某些原因而没有标注的区域统计为假阳性(false positives),评估脚本会自动忽略’DontCare’ 区域的预测结果。 第2个数:代表物体是否被截断,从0(非截断)到1(截断)浮动,其中truncated指离开图像边界的对象 第3个数:代表物体是否被遮挡,整数0,1,2,3表示被遮挡的程度 0:完全可见 1:小部分遮挡 2:大部分遮挡 3

计算机视觉经典任务分类

匿名 (未验证) 提交于 2019-12-03 00:22:01
一、经典任务 计算机视觉领域中和目标有关的经典任务有三种:分类、检测和分割。其中分类是为了告诉你「是什么」,后面两个任务的目标是为了告诉你「在哪里」,而分割任务将在像素级别上回答这个问题。 二、几种专业名词的含义 目标检测,搜索系统感兴趣的目标区域; 目标跟踪,捕获感兴趣区域的运动轨迹; 目标分类,将被跟踪目标分为人,汽车或其他移动物体; 目标行为识别,对跟踪目标进行行为识别。 立体视觉匹配,是一种从平面图像中恢复深度信息的技术。 光流,是指图像灰度模式的表面运动,是三维运动场在二维图像平面上的投影。 场景流,是空间中场景运动形成的三维运动场。两者在视频跟踪与监控,自主机器人导航,三维视频压缩与显示等领域有着广泛的应用。 三、KITTI数据集(非常重要) 对于KITTI数据集,该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。 四、几种深度学习算法含义 FCNN:全卷积网络:并行,迭代 CNN:FCNN基础上加入空间结构参数共享 RNN:FCNN基础上加入时间结构参数共享 五、论文汇总总结 六、论文以及源码常用网站 CVPR2017 http://openaccess.thecvf.com

CVPR2017部分论文简介

匿名 (未验证) 提交于 2019-12-03 00:22:01
文献 概述 研究内容 数据集 年份 运动物体检测内容 Learning Motion Patterns in Videos 学习视频中的运动模式,建立运动模式网络输入图像光流图输出视频中运动的物体,即使相机是移动的 运动相机检测运动物体 DAVIS 2017 Learning Features by Watching Objects Move 我们在视频中使用无监督的基于模式的分割来获取片段,我们将其用作“伪地真相”来训练一个卷积网络从一个帧中分割对象 运动物体检测 Optical Flow in Mostly Rigid Scenes 自然场景的光流是观察者运动和物体独立运动的结合,现有的算法通常侧重于在纯静态世界或一般无约束场景的光流的假设下恢复运动和结构。此文章从外观和物理约束中对移动对象进行显式的分割,在静态区域,我们利用强大的约束条件,在多个帧上联合估计摄像机的运动和场景的三维结构。https://www.youtube.com/watch?v=N7a3AZEi-c4视频 光流法估计运动物体 KITTI CVPR2017 MODNet: Moving Object Detection Network with Motion and Appearance for Autonomous Driving 无人驾驶中的目标检测。提出了一种新的多任务学习系统,它结合了外观和运动提示

【论文阅读】一些常用的学术类网站推荐

孤街浪徒 提交于 2019-12-02 14:56:36
论文类 arxiv 来自康奈尔大学,每天都会更新各个行业最新发表的论文,对每个类别和学科的论文做了详细分类和索引,搜索起来很方便。 https://arxiv.org/ 谷歌学术 适用于文献查找,比较方便看一篇论文的被引用量,也可以直接连接到引用的论文上,并且可以对文章进行自定义排序和筛选。 https://scholar.google.ro/ Paper With Code 网站上对深度学习各个领域的论文做了归纳,可以看到该领域目前的SOTA论文,同时列出了其中作者有开源的项目。 https://paperswithcode.com/ Semantic Scholar 免费的论文搜索引擎,这个个人用的不多,不过看到过不少人有推荐。 https://www.semanticscholar.org/ 机器之心SOTA 机器之心推出的一款网页版搜索引擎,可以查找到相关领域目前的SOTA论文。 https://www.jiqizhixin.com/sota Google AI Research publications 前排围观谷歌大佬们的论文 https://ai.google/research/pubs/ CV实用类 Computer Vision Algorithm Implementations 收录了计算机视觉中基于传统算法实现的开源项目,实现任务包括特征检测和匹配、光流

KITTI数据集

谁都会走 提交于 2019-12-01 12:24:48
目的 使用雷达点云提供的深度信息 如何实现 将雷达的三维点云投影到相机的二维图像上 kitti数据集简介 kitti的数据采集平台,配置有四个摄像机和一个激光雷达,四个摄像机中有两个灰度摄像机,两个彩色摄像机。 从图中可看出,关于相机坐标系(camera)的方向与雷达坐标系(velodyne)的方向规定: ​ camera: x = right, y = down, z = forward velodyne: x = forward, y = left, z = up 那么velodyne所采集到的点云数据中,各点的x轴坐标,即为所需的深度信息。 更多详细的简介网络上都能搜索到,这里只列举了与当前目的相关的必要信息。 kitti数据集的raw_data raw_data对于每个序列都提供了同步且校准后的数据、标定数据。 同步且校准后的数据: ./imageXX 包含有各个摄像机采集到的图像序列 ./velodyne_points 包含有雷达扫描到的数据,点云形式,每个点以 (x,y,z,i) 格式存储,i为反射值 (雷达采集数据时,是绕着竖直轴旋转扫描,只有当雷达旋转到与相机的朝向一致时会触发相机采集图像。不过在这里无需关注这一点,直接使用给出的同步且校准后的数据即可,它已将雷达数据与相机数据对齐,也就是可以认为同一文件名对应的图像数据与雷达点云数据属于同一个场景。) 标定数据:

安装evo工具----评估SLAM轨迹

筅森魡賤 提交于 2019-12-01 01:51:32
1、下载evo github 地址:https://github.com/MichaelGrupp/evo 下载速度20kb,很慢,可用网址解决,即上一篇解决git下载慢的问题 2、解压后,进入cd evo cd evo pip install --user . --upgrade 3、测试:运行example时 cd test/data evo_traj kitti KITTI_00_ORB.txt KITTI_00_SPTAM.txt --ref=KITTI_00_gt.txt -p --plot_mode=xz 问题如下: [ERROR] evo module evo.main_traj crashed - no logfile written (disabled) 解决:pip install numpy --upgrade --user 再测试没问题。 借鉴网址和查看相关使用例子可参看:https://blog.csdn.net/A_L_A_N/article/details/88708979 https://www.cnblogs.com/indulge-code/p/11134235.html 来源: https://www.cnblogs.com/rjjhyj/p/11646791.html

How to understand the KITTI camera calibration files?

拈花ヽ惹草 提交于 2019-11-27 16:05:56
问题 I am working on the KITTI dataset. I have downloaded the object dataset (left and right) and camera calibration matrices of the object set. I want to use the stereo information. But I don't know how to obtain the Intrinsic Matrix and R|T Matrix of the two cameras. And I don't understand what the calibration files mean. The contents of a calibration file: P0: 7.070493000000e+02 0.000000000000e+00 6.040814000000e+02 0.000000000000e+00 0.000000000000e+00 7.070493000000e+02 1.805066000000e+02 0