机器学习数据集
外国自媒体 mlmemoirs 根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,量子位为大家分享一下~ 提前说两个须知: 寻找数据集の奥义 根据CMU的说法,寻找一个好用的数据集需要注意一下几点: 数据集不混乱,否则要花费大量时间来清理数据。 数据集不应包含太多行或列,否则会难以使用。 数据越干净越好,清理大型数据集可能非常耗时。 应该预设一个有趣的问题,而这个问题又可以用数据来回答。 去哪里找数据集 Kaggle :爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,拉面评级、篮球数据、甚至西雅图的宠物许可证。 https://www.kaggle.com/ UCI机器学习库 :最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。 http://mlr.cs.umass.edu/ml/ VisualData :分好类的计算机视觉数据集,可以搜索~ https://www.visualdata.io/ 好了,下面就是那50个数据集了,由于后期加上了一些补充,所以总数已经超过了50。 机器学习数据集 图片 Labelme:带注释的大型图像数据集。 http://labelme.csail.mit.edu/Release3.0