Papers With Code新增数据集检索功能:3000+经典数据集,具备多种过滤功能

|▌冷眼眸甩不掉的悲伤 提交于 2021-02-04 08:28:16
机器之心报道
作者:陈萍
转载自:机器之心
原文链接:


Papers With Code新增数据集检索功能:3000+经典数据集,具备多种过滤功能mp.weixin.qq.com图标
Papers with Code 现在已经集成了 3044 个机器学习数据集,点点鼠标就能检索需要的数据集。

在机器学习中,数据集占据了重要的一部分。研究人员除了需要开发先进的算法外,其实数据集的建立才是最基础也是最重要的部分。在过往的研究中,机器学习从业者也建立了许多可用的数据集。

在哪里可以找到比较好的数据集呢?

近日,查找论文对应开源代码的神器 Papers with Code 官网发布,Datasets 已经实现了 3044 个机器学习数据集的汇总,并且按照不同的类型进行归类,还具有过滤功能,值得一看。



我们现在正在索引 3000 + 来自机器学习的数据集。使用者可以按照任务分类和模式进行数据集查找,还可以按照时间比较数据集的使用情况、浏览基准等要素进行查找。

网站地址:https://www.paperswithcode.com/datasets

覆盖范围众多的数据集

在这 3044 个机器学习数据集里,不乏我们常用的经典数据集,例如,ImageNet、COCO、CIFAR-10、MNIST 等。

快速检索

如果你想搜索指定的数据集,该网站也具备检索功能,例如从事计算机视觉的研究者,比较关心的是人脸数据集,这时就可以在搜索框敲入要搜索的内容,如果数据集的全拼你没有记住,也不用担心,只需键入几个字母,搜索栏就会出现相应的数据集。


键入 cele,检索区域会出现相关的数据集

对数据集进行归纳整理

该 Datasets 对数据集进行了归纳整理,包含图像类、文本类、视频类等多个类别。以文本数据集为例,点击「Texts」选项,右侧页面会显示和文本相关的数据集,从检索结果可以看出,符合要求的有 828 个数据集。

按任务进行数据集过滤

机器学习研究分为不同的任务,我们都了解做自然语言推理任务的数据集不能用来进行机器翻译。怎样才能找到适合的数据集呢?Papers with Code 的 Datasets 具有该功能,该研究对 3044 个数据集根据任务进行了分类。包括问答、语言模型、视觉问答等。

以左侧栏红框中标出的「Named Entity Recognition」为例,点击「Named Entity Recognition」,右侧页面检索出来有 28 个相关数据集,但它的检索条件是「Named Entity Recognition」以及「Texts」,如绿色框所示。如果你不想要这个检索条件,可以在设置「Texts」条件功能区内,将该条件取消,取消方式是点击「clear」。

根据语言进行过滤

此外,使用者还可以根据语言类型进行数据集的过滤,包括中文、英文等,根据自己的需求选择合适的数据集。以中文为例,检索出 88 个数据集,在检索结果里,除了显示符合条件的数据集外,还显示了检索条件,如图中的红框所示「Chinese」,如果检索条件有多个,该条目会显示多个检索条件。


机器学习/深度学习算法/自然语言处理交流群

已建立机器学习算-自然语言处理微信交流群!想要进交流群进行学习的同学,可以直接加我的微信号:HIT_NLP。加的时候备注一下:知乎+学校+昵称 (不加备注不会接受同意,望谅解),想进pytorch群,备注知乎+学校+昵称+Pytorch即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学,交流氛围非常好。

强烈推荐大家关注机器学习算法与自然语言处理账号和机器学习算法与自然语言处理微信公众号,可以快速了解到最新优质的干货资源。

推荐阅读

ACL-2021交流群

NAACL2021-交流群

【招人】腾讯广告业务线

赛尔笔记 | 篇章级机器翻译简介

GPT“高仿”系列开源了!最大可达GPT-3大小,还能自主训练

ACL 2021投稿避坑指南

我,大学没毕业,在OpenAI搞AI,想教教你如何提升“研究品味”

推荐几本经典AI书籍!

赛尔原创@AAAI 2021 | 纠结于联合学习中的建模方法?快来看看图网络显式建模!

如何提高PyTorch“炼丹”速度?这位小哥总结了17种方法,可直接上手更改的那种

斯坦福CS224W《图机器学习》2021开课!Jure Leskovec大牛主讲,附课程PPT下载

ICLR2021放榜!录取860篇,接受率为28.7%!

计算机视觉中的Transformer

第二十届中国计算语言学大会(CCL 2021)技术评测任务征集

完全图解GPT-2:看完这篇就够了(二)

完全图解GPT-2:看完这篇就够了(一)

IJCAI 2020今日开幕,杰出论文奖、卓越研究奖、约翰·麦卡锡奖等8项大奖公布!

研究品味锻炼!

一份Python线性代数讲义

全面回顾2020年图机器学习进展,12位大神论道、寄望2021年大爆发!

第二十届中国计算语言学大会(CCL 2021) 征稿启事

NTU-Xavier Bresson 图神经网络入门视频

2020年arXiv十大热门论文来了!不止GPT-3、SimCLR、YOLOv4...

每日论文速递:自然语言处理相关(1月7日更新版)

权值衰减和L2正则化傻傻分不清楚?

斯坦福大学——人工智能本科4年课程清单

超过500个附代码的AI/机器学习/深度学习/计算机视觉/NLP项目

Awesome Transformer for Vision Resources List库

2020 Top10计算机视觉论文总结:论文,代码,解读,还有demo视频!

摘要数据整理仓库,6个数据集!

156个参考文献!Visual Transformer 调研survey

NLP生成任务痛点!58页generation评价综述

机器学习画图模板ML Visuals更新

谷歌最新28页高效 Transformer 模型综述

Papers with Code 2020 全年回顾

最新14页《图神经网络可解释性》综述论文

陶大程等人编写!最新41页深度学习理论综述

使用PyTorch时,最常见的4个错误

加拿大蒙特利尔大学助理教授刘邦招收2021/2022年博士生

【EMNLP2020】基于动态图交互网络的多意图口语语言理解框架

一文搞懂 PyTorch 内部机制

AAAI 2021论文接收列表放出!!!

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!