过去几天中,有关OpenAI的新语言模型的讨论很多。OpenAI做出了一个不寻常的决定,即不发布其训练有素的模型(AI社区对于共享它们通常非常开放)。总体而言,这种反应既令人惊讶又令人关注,并且已经在媒体上进行了广泛讨论,例如《The Verge》中这一周到而透彻的报道。另一方面,学术NLP社区的反应在很大程度上(但不仅限于)是负面的,声称:
- 这不应该在媒体上报道,因为没什么特别的
- OpenAI没有理由保留该模型,只是通过声称其模型如此特殊以至于必须对其保密,以试图引起媒体的炒作。
在(1)中,虽然确实没有进行真正的算法飞跃(该模型主要是同一团队几个月前发布的内容的较大版本),但学术界的“没什么可看的”反应忽略了这一点完全。尽管学术出版(至少在该领域中)在很大程度上受到特定技术创新的推动,但更广泛的社区利益却受到社会影响,惊喜,叙述和其他非技术问题的推动。我谈到这项新工作的每个外行都惊呆了。而且,显然有一种工具可能对社会产生影响的讨论,该工具可能能够将虚假信息运动扩大几个数量级,尤其是在我们当前的环境中,即使没有此类工具,此类运动也会破坏民主。
另外,技术历史已经反复表明,困难的事情通常不是解决特定的工程问题,而是表明可以解决问题。因此,表明可行的方法也许是技术开发中最重要的一步。一段时间以来,我一直在警告可能会滥用预先训练的语言模型,甚至还帮助人们开发了人们现在用来构建该技术的一些方法。但是直到OpenAI真正表明在实践中可以做些什么之后,整个社区才意识到了一些问题。
但是第二个问题呢:OpenAI应该发布他们的预训练模型吗?这似乎要复杂得多。我们已经从“反模型发布”的观点中听到过,因为这是OpenAI发布并与媒体讨论的内容。凯瑟琳·奥尔森(Catherine Olsson)(曾在OpenAI工作)曾在Twitter上问是否有人对替代视图有令人信服的解释:
您最喜欢的*当面* *专业版* OpenAI GPT-2需要什么(在Twitter或其他地方)?
-凯瑟琳·奥尔森(@catherineols)2019年2月17日
我现在正在寻找关于赞成释放(或反媒体注意?)立场的明确善意解释,而不是聪明的蛇行。
我已经阅读了很多有关此方面的知识,但尚未找到真正符合条件的知识。出于真诚的解释,需要与OpenAI研究人员的实际话语打交道,这需要大量的工作,因为他们的团队针对AI的社会影响(无论是在OpenAI还是在其他地方)进行了大量研究。关于这一主题的最深入的分析是论文《人工智能的恶意使用》。本文的主要作者现在在OpenAI上工作,并且大量参与了有关模型发布的决策。让我们看一下该论文的建议:
- 政策制定者应与技术研究人员密切合作,以调查,预防和减轻AI的潜在恶意使用
- 人工智能的研究人员和工程师应认真对待工作的双重用途,允许与滥用相关的考虑因素影响研究优先级和规范,并在可预见的有害应用程序时主动与相关参与者联系。
- 应在研究领域确定最佳实践,并采用更成熟的方法来解决双重用途问题,例如计算机安全性,并在适用于AI的情况下引入最佳实践。
- 积极寻求扩大参与这些挑战讨论的利益相关者和领域专家的范围。
这里重要的一点是,对潜在的AI恶意使用进行适当的分析需要跨职能团队和对相关领域历史的深刻理解。我同意。因此,以下只是我对这一讨论的一点投入。我还没有准备好声称我对“ OpenAI应该发布该模型”这个问题有答案。我还将尝试着眼于“专业发布”方面,因为那是尚未得到很多考虑的输入。
释放模型的案例
OpenAI表示,他们的发布策略是:
由于担心会使用大型语言模型大规模生成欺骗性,偏见性或辱骂性语言,因此我们只发布了更小的GPT-2版本以及示例代码。
因此,具体地说,我们需要讨论规模。他们声称,较大规模的模型可能会造成重大损害,而没有时间让广大社区考虑。有趣的是,即使他们也不声称对此担心有信心:
这个决定以及我们对此的讨论是一个实验:虽然我们不确定今天是否是正确的决定,但我们认为AI社区最终将需要在某些方面以深思熟虑的方式解决出版规范问题研究领域。
让我们具体一点。我们实际上在谈论多少规模?我没有在他们的博客文章中明确提到这一点,但是我们可以做出合理的猜测。根据该论文,新的GPT2模型具有的参数是以前的GPT模型的十倍。他们以前的模型花了1个月的时间来训练8个GPU。人们可能希望他们现在可以更快地训练模型,因为他们有足够的时间来改进算法,但是另一方面,他们的新模型可能需要花费更多的时间来训练。让我们假设这两个平衡,所以我们剩下的参数相差10倍。
如果您急于要在一个月内完成这项工作,那么您将需要80个GPU。您可以从AWS现货市场上以每小时7.34美元的价格购买带有8个GPU的服务器。大约一个月$ 5300。您将需要十台这样的服务器,因此一个月内训练模型的费用约为5万美元。OpenAI已经提供了它们的代码,并描述了如何创建必要的数据集,但是在实践中仍然会有大量的试验和错误,因此在实践中它的成本可能是后者的两倍。
如果您不着急,则可以购买8个GPU。通过一些谨慎的内存处理(例如,使用Gradient checkpointing),您可能可以以每张$ 500的价格购买RTX 2070卡,否则,您将需要每张$ 1300 的RTX 2080 ti。因此,对于八张卡,GPU的价格在$ 4k到$ 10,000之间,再加上一盒放入它们的框(带有CPU,HDD等),可能还需要$ 10,000左右。因此,在10个月内训练模型大约需要2万美元(再次,您将需要一些额外的时间和金钱进行数据收集,并且需要反复试验)。
大多数从事AI的组织已经拥有8个或更多的GPU,并且经常可以访问更多的GPU(例如,AWS在其AWS Activate计划中为初创企业提供了高达10万美元的信用,Google为符合条件的任何研究组织提供了数十个TPU他们的研究计划)。
因此,实际上,不发布模型的决定有两个结果:
- 另一个组织成功复制它可能至少需要几个月,所以我们有喘息的空间来讨论在更广泛的情况下该怎么做。
- 负担不起10万美元左右费用的小型组织无法以演示的规模使用此技术。
点(1)似乎是一件好事。如果突然将这项技术扔给任何人使用而没有任何警告,那么根本就没有人准备。(理论上,人们可能已经做好准备,因为语言建模社区中的人们已经警告过这种潜在问题,但实际上,人们只有在他们实际看到它发生之前,才倾向于认真对待它。)例如,在计算机安全社区中,如果您发现缺陷,则期望可以帮助社区为此做准备,然后才发布完整的详细信息(可能是漏洞利用)。如果这种情况没有发生,则称为零日攻击或利用,它可能会造成巨大的破坏。
我不确定我是否要推广一个规范,即AI中零日威胁是可以的。
另一方面,点(2)是一个问题。最严重的威胁最有可能来自那些有资源花10万美元左右的人们(例如)进行虚假宣传活动以试图改变民主选举的结果。实际上,最有可能的利用是(在我看来)是外国势力花费这笔钱来急剧升级现有的虚假信息战役,例如美国情报界广泛记录的那些。
(据我所知),针对此类攻击的唯一实际防御措施是使用相同的工具来尝试识别并阻止此类虚假信息。当更广泛的受影响者使用这些防御措施时,这些防御措施可能会更加强大。正如我们在诸如Wikipedia或开放源代码软件等项目中所看到的那样,一大群人的力量一再被证明在创建而不是在破坏方面更强大。
此外,如果这些工具在无法访问大型计算资源的情况下不是在人们手中,那么它们仍然是抽象而神秘的。他们实际上能做什么?他们的约束是什么?为了使人们做出明智的决定,他们需要对这些问题有真正的了解。
结论
那么,OpenAI是否应该发布他们训练有素的模型?坦白说,我不知道。在我看来,毫无疑问,他们已经展示出了与之前所展示的内容在本质上根本不同的东西(尽管没有显示出任何重大的算法或理论突破)。而且我确信它将被恶意使用;它将是一个强大的工具,可以用于虚假信息和大规模影响话语,大概只需要花费10万美元即可创建。
通过发布模型,这种恶意使用将更早发生。但是,如果不发布模型,则可用的防御措施将更少,对受影响问题的了解也将更少。那些听起来对我来说都是不好的结果。