ICML 2020最全数据分析:超半数接收论文来自美国,中国大陆、英国仅为其1/6

孤街浪徒 提交于 2020-07-29 05:07:03
近日,机器学习顶会 ICML 2020 已正式放榜。一位名叫 Sergei Ivanov 的 Medium 博主对本次大会的论文接收数据进行了详细整理,为我们揭示了顶会背后的更多规律。

选自Medium,作者:Sergei Ivanov,机器之心编译,参与:小舟、蛋酱。

6 月 3 日,国际机器学习顶会 ICML 2020 放出了论文接收结果。

据官方统计,ICML 2020 共提交 4990 篇论文,最后接收论文 1088 篇,接收率达 21.8%。与往年相比,接收率逐年走低。

ICML 是机器学习领域最重要的会议之一,因此在该会议上发表论文的研究者也会备受关注。受到疫情影响,今年的 ICML 大会已经改为在 2020 年 7 月 13 日至 18 日线上举行。

一位名叫 Sergei Ivanov 的 Medium 博主详细梳理了了 ICML 2020 的论文接收情况,并分析了今年参加会议的作者、机构和国家或地区等相关数据。作者也在 GitHub 上公布了相关代码,项目地址:https://github.com/nd7141/icml2020

论文作者

首先来关注下排名靠前的论文作者。

在 ICML 上发表论文是很困难的,因此能够一次性发表多篇论文的作者会让人印象深刻。来自日本理化学研究所(RIKEN)和东京大学的 Masashi Sugiyama 有 11 篇论文被接收,成为大会中被接收论文数量最多的作者。

在他之后是 Michal Valko(DeepMind)、Michael Jordan(UC Berkeley)以及 Dale Schuurmans(Google / U. of Alberta),三人均有 8 篇文章被接收。

接下来我们看下全球机构组织的排行榜,对于每个机构,本文作者都统计了其参与的论文集,在此给出了 top-30 的机构组织。

谷歌以 114 篇的论文接收数量占据榜首,这大约占据了在 ICML 上发表论文的 1/10。接下来的 3 个机构是 MIT、Stanford 和 Berkeley。同属 Alphabet 的 DeepMind 占据了 Top-5 的位置。

请注意:由于许多论文是合作完成的,因此说 Google+DeepMind 发表了 114+51 篇论文是不够准确的,稍后会提到这一点。

国家和地区

这一部分展示的是论文作者与其所在国家或地区之间的关联,以便查看哪个国家或地区发表论文数量最多。

作为免责声明,作者也提到了,这种关联数据的统计可能会有偏差,主要是因为无法辨认的人名缩写、不同人对同一机构的不同叫法、错别字等问题。作者尽最大的努力做了统计,如果你发现有所缺失,可以在 GitHub 链接里找到可编辑文件。

让我们来看看按国家或地区进行详细分类的统计结果:

毫不意外,美国承包了绝大多数论文。美国研究者参与的论文有 728 篇,大约是论文总数的 3/4,与其他国家和地区相比具有巨大的优势。

排在第二位的是英国(123 篇),第三位是中国大陆(122 篇),二者在接收论文数量上相差无几,但同样仅为美国的六分之一左右。

需要注意的是,国家或地区是根据组织机构的总部所在地而定,而非论文作者所在位置。因此,如果一位论文作者在 Google 苏黎世工作,那么该论文被计入美国,而不是瑞士。

尽管如此,统计数量和实际情况也相差不多。如果仅按照大学分类(全球只有一个从属国家和地区的组织),那么将得到下图:

也就是说,即使不考虑企业机构的因素,美国研究者仍然参与了 ICML 发表论文的一半以上。如果加上所有在美国工作的工业界研究者,数量可能和之前的图很接近。

值得一提的是,英国和中国大陆大约发表了相同数量的文章。DeepMind 发表的文章大约占英国文章总数的 40%。

让我们分别来看下排名靠前的几个国家和地区的情况:

美国在工业和学术领域都有多个机构组织,并且有大量的论文。而英国发表情况基本由 DeepMind 主导,其次是一些大学。

中国内地大学的地位比较强大,但是像华为、阿里巴巴和百度这样的公司正在赶超它们。在加拿大,几乎所有的论文都是大学发表的。

似乎除了美国和中国大陆,大多数国家和地区发表论文的顶级机构都是大学。从全球范围看,大学发表的论文数量是公司的 3 倍。

在美国以外,只有来自英国(DeepMind)、法国(Criteo)、中国大陆(华为、百度、阿里巴巴)、俄罗斯(Yandex)以及韩国(Samsung)的某些机构发表了 5 篇以上的论文。

协作

本文还研究了不同组织之间的协作方式。本文对不同组织之间的协作构建了一张图,图中共有 426 个节点和 1206 条边。如果绘制这张图,将会看到一堆由边连接的点。

点代表组织机构,中间的连接代表协作。每个节点的大小和颜色取决于所发表的论文数量。边的宽度取决于协作的数量。

如果仅取一个有至少 30 个协作的节点的子图,那么将得到一张更具吸引力的图。

有至少 30 个协作的组织的协作网络子图。节点的大小和颜色取决于发表论文的数量,边的宽度取决于协作的数量。

也可以查看单个公司的情况,例如,查看谷歌和 MIT:

有趣的是,你会发现谷歌与其它公司的协作并不像其与大学之间的协作那么多。而 MIT 有许多工业领域的协作伙伴。

最后,来看一下每篇论文的作者和组织的总数。

大多数论文有 3-4 个作者,但是也有一些例外情况,比如 15 个作者。

有 15 个作者的两篇论文分别是:由来自谷歌、牛津大学、剑桥大学、哥伦比亚大学和伯克利大学 15 位研究者发表的论文《Stochastic Flows and Geometric Optimization on the Orthogonal Group》和来自天津大学、阿里巴巴、清华大学以及上海交大的 15 位研究者发表的论文《Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential Advertising》。

参与每篇论文的组织数统计如下:

大多数论文有 1 或 2 个组织,但有些论文的撰写有 7 个组织的参与。

两篇有 7 个组织参与的论文分别是:由谷歌、微软、华沙大学、阿姆斯特丹大学、加州大学欧文分校、苏黎世联邦理工学院以及伦敦帝国理工学院的研究者协作完成的《How Good is the Bayes Posterior in Deep Neural Networks Really?》和由蒙特利尔大学、IIIT Hyderabad、麻省理工学院、Mila、特拉华大学以及 LinkedIn 等机构的研究者协作完成的《Learning To Navigate The Synthetically Accessible Chemical Space Using Reinforcement Learning》。

参考链接:https://medium.com/criteo-labs/icml-2020-comprehensive-analysis-of-authors-organizations-and-countries-c4d1bb847fde

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!