转自https://zhuanlan.zhihu.com/p/45331609
无人驾驶技术涵盖了感知、决策、控制等领域的方方面面。感知层面对目标识别跟踪、障碍物检测、精确定位等技术的需求,使得深度学习等人工智能技术得到广泛应用。深度学习模型非常依赖无人车行驶环境的数据,而这些数据在工程中非常难获得。无人驾驶数据的获取,需要一定的财力、物力、人力的支持,而一般的个人、小团队通常没法应对。幸运的是,这个世界上有一部分团队将其在无人驾驶研发过程中收集到的数据公开出来,供无人驾驶技术研究者免费使用,这些数据在一定程度上大大推进了无人驾驶技术的研发进程。为免于赘述,我们直接罗列出目前世界上无人驾驶研发过程中可用的公开数据集:
截止到2017年,已公开的数据集如下(参考文献Hang Yin, Christian Berger. When to use what data set for your self-driving car algorithm: An overview of publicly available driving datasets):
1) Automotive multi-sensor dataset (AMUSE): 瑞典Linkoping大学提供,使用全景摄像头手机车辆四周的信息,数据中包括冬天下雪场景。
2) Caltech Pedestrian Detection Benchmark (Caltech): 加州理工学院提供,包含大量的行人及行人标注信息。
3) Cambridge-driving Labeled Video Database (CamVid): 英国剑桥大学提供
4) CCSAD数据集:墨西哥数学研究中心提供,包含发展中国家的双目视觉视频数据。
5) Cheddar Gorge Dataset: 英国BAE提供,包含单目、双目、红外摄像头,使用Velodyne 64线LiDAR,GPS/IMU数据等,数据丰富
6) Cityscapes dataset:包含戴姆勒在内的三家德国单位联合提供,包含50多个城市的立体视觉数据;像素级标注;提供算法评估接口;
7) CMU Visual Localization Dataset (CMU): 卡耐基梅隆大学提供,包含各种天气、光照条件下的数据
8) Comma.ai driving dataset (comma.ai): comma.ai提供,包含高速公路交通数据
9) Daimler Pedestrian Benchmarks (Daimler pedestrian): 戴姆勒以及阿姆斯特丹大学联合提供,包含行人检测、目标分类、场景分割、基于单目和双目图像的路径预测等,还包含自行车数据集
10) Daimler Urban segmentation (Daimler urban): 德国6D-Vision提供,包含城市交通的双目视频序列,像素级标注
11) DIPLECS Autonomous Driving Datasets (DIPLECS): 悉尼大学提供
12) Dr(eye)ve: 意大利ImageLab提供,可用于研究司机意图、行人意图等,属首次
13) EISATS:包含戴姆勒在内的多家单位联合提供,包含双目视频信息
14) Elektra:西班牙两所大学联合提供
15) ETH pedestrian dataset: 苏黎世理工学院ETH提供,交通拥堵市中心的双目图像信息,包含很多行人
16) Ford Campus Vision and Lidar Data Set (Ford): 密歇根大学提供,使用了高精度定位设备、多个LiDAR、全景摄像头等,包含软件开发包
17) German Traffic Sign Detection Benchmark (German traffic sign): 德国鲁尔大学提供,为大量含有交通信号灯的静态图像
18) Heidelberg benchmarks (Heidelberg): 德国海德堡大学提供
19) Joint Attention for Autonomous Driving Dataset (JAAD): 加拿大约克大学提供
20) Karlsruhe Dataset: Labeled Objects: MPI-IS(我也不知道这是哪家单位,有会翻译的请留言)提供,包含车辆和行人的标注信息,甚至包含目标的姿态信息。
21) Karlsruhe Dataset: Stereo Video Sequences + rough GPS Poses (Karlsruhe stereo): MPI-IS提供,双目视频图像序列
22) KITTI Vision Benchmark (KITTI): 德国卡尔斯鲁赫理工学院和美国丰田技术研究中心联合提供,目前为止最受欢迎的数据集,包含了双目视觉、激光雷达、GPS等自动驾驶感知所需要的几乎所有的数据。
23) Malaga Stereo and Laser Urban Data Set (Malage): 马拉加大学提供, 文档全,工具丰富,网页提供了留言交流版块
24) Oxford robotcar dataset (Oxford): 英国牛津大学提供,包含了某些特定路段长达一年的数据信息,属首次
25) Stanford track collection (Stanford): 斯坦福大学提供,包含Velodyne 64线激光雷达点云数据,已经完成了目标注释,而且还包含GPS/IMU数据
26) Ground Truth Stixel Dataset (Stixel): 德国6D-Vision提供,包含高速路上的大雨场景
27) Udacity dataset: 优达学城提供,开源项目
截止到目前2018年,又有一些可用的无人驾驶数据集,主要包括:
28) ApolloScape: 中国百度提供,可用于研究三维车辆识别、车道识别、车辆定位,国内数据下载速度很快,国内开发者的福音
29) BDD100K:加州大学伯克利分校提供,包含100000个视频,每一个大约时长40秒,720p,自称是ApolloScape的800倍大(意味着更长的下载时间)
30) nuScenses:nuTonomy与Scale联合提供,数据集中包含1000多个场景, 共有140万张图片,激光雷达扫描次数达40万次(旨在判定目标物间的距离),包含110万个3D边界盒(bounding boxes)(利用RGB摄像头、雷达及激光雷达探查目标物),并利用Scale的传感器融合注释API进行细致的标注
目前为止,最受欢迎(根据已发表文献数量)的数据集为三个:KITTI、Caltech、Daimler pedestrian。