gpt-2

独家 | 最新的AI会“杀死”编码吗?

余生颓废 提交于 2020-09-28 10:25:27
作者:Frederik Bussler 翻译:方星轩 校对:陈丹 本文 约1800字 ,建议阅读 5 分钟 本文围绕GPT 等AI技术是否将取代编码工作进行探讨,作者给出了自己的意见和看法。 标签:AI 编程 自动化 (照片来自Scott Rodgerson) 现在,AI可以使用任何语言进行编码,而无需额外的培训。 2017年,有研究人员问:人工智能能否在2040年之前编写出大多数代码?测试人员现在正在使用OpenAI的GPT-3已经可以使用任何语言进行编码。机器主导的编码几乎就差临门一脚了。 GPT-3接受了数千亿个单词的训练,或者说基本上整个互联网都参与了训练,这就是为什么它可以使用CSS,JSX,Python等任何你能说出名字的语言进行编码的原因。 此外,GPT-3无需对各种语言任务进行“训练”,因为其训练数据包罗万象。相反,当你给出琐碎的指令时,网络会被手头上的任务限制住。 GPT-n的演变 GPT通过将有监督学习与无监督的预训练相结合(或将无监督步骤的参数用作有监督步骤的起点),实现了语言任务的最先进水平。与下一代相比,GPT很小。它仅利用了一台8CPU机器在几千本书上进行训练。 GPT-2极大地扩展了内容,包含10倍的参数,并加入了10倍以上的训练数据。尽管如此,该数据集还是相对有限的,它专门使用“至少运用了3个karma的Reddit出站链接”进行训练。GPT

程序员欢乐送(第10期)

非 Y 不嫁゛ 提交于 2020-09-27 13:10:32
程序员欢乐送(第10期) 收录于话题 #程序员欢乐送 59个 对于我来说,我一直保持的追求有三点:技术、快乐、财富。因此,从此三点出发,记录过去一周,我所看到的,值得分享的内容,每周五把欢乐送达。 由于微信不允许外部链接,你需要点击页尾左下角的“阅读原文”,才能访问文章的链接,文中的所有链接已使用蓝色字体标记。 「 技术 Technology 」 1、AI肖像生成 一位来自 Uber 的软件工程师Philip Wang利用英伟达去年发布的StyleGAN研究成果创作了源源不断的假人物头像。每次你刷新这个网站,网络就会从头开始生成新的人脸图像。 以下这些异常逼真的肖像都是算法生成的,并不是真实的人。 体验地址:点击查看 StyleGAN项目地址在《程序员欢乐送(第9期)》中推送过,可以去上篇推送中查看。 2、Remove.bg一键抠图 现在,抠图已经不再是专业设计师才会的技能,其应用的技术图像分割也不是一个新课题了,很早之前就有很多研究成果出现,按照是否使用深度学习的方法可分成传统方法(Blue Screen Matting、Poisson Matting、Bayes Matting、Closed form Matting 与 KNN Matting 等)和基于深度学习的方法(CNN、FCN 和 UNet)等,而深度学习方法的发展也大大提高了抠图的精度。

一天star量破千,特斯拉AI总监写了个GPT的Pytorch训练库

你离开我真会死。 提交于 2020-08-19 13:12:20
  机器之心报道    编辑:魔王、张倩    如果说 GPT 模型是所向披靡的战舰,那么 minGPT 大概算是个头虽小但仍能乘风破浪的游艇了吧。   最近,「史上最大 AI 模型」GPT-3 风靡全球。   GPT 系列可以说是人工智能领域「暴力美学」的代表作了。2018 诞生的 GPT,1.17 亿参数;2019 年 GPT-2,15 亿参数;2020 年 GPT-3,1750 亿参数。短短一年时间,GPT 模型的参数量就呈指数级增长。   GPT-3 发布后不久,OpenAI 即向社区开放了商业 API,鼓励大家使用 GPT-3 尝试更多的实验。然而,API 的使用需要申请,而且你的申请很有可能石沉大海。那么,除了使用官方 API 以外,我们还有没有其他方法能上手把玩一下这个「最大模型」呢?   近日,特斯拉人工智能研究负责人、前 OpenAI 研究科学家 Andrej Karpathy 进行了尝试。   他基于 PyTorch,仅用 300 行左右的代码就写出了一个小型 GPT 训练库,并将其命名为 minGPT。      Karpathy 表示,这个 minGPT 能够进行加法运算和字符级的语言建模,而且准确率还不错。不过,在运行 demo 后,Andrej Karpathy 发现了一个有趣的现象:2 层 4 注意力头 128 层的 GPT 在两位数加法运算中,将

GPT-3诞生,Finetune也不再必要了!NLP领域又一核弹!

徘徊边缘 提交于 2020-08-13 16:04:24
一只小狐狸带你解锁 炼丹术& NLP 秘籍 2018年10月推出的BERT一直有着划NLP时代的意义,然而还有一个让人不能忽略的全程陪跑模型——OpenAI GPT(Generative Pre-Training)在以它的方式坚持着,向更通用的终极目标进发。 最初的GPT只是一个12层单向的Transformer,通过预训练+精调的方式进行训练,BERT一出来就被比下去了。之后2019年初的GPT-2提出了meta-learning,把所有NLP任务的输入输出进行了整合,全部用文字来表示,比如对于翻译任务的输入是“英翻法:This is life”,输出是“C'est la vie”。直接把任务要做什么以自然语言的形式放到了输入中。通过这种方式进行了大规模的训练,并用了15亿参数的大模型,一举成为当时最强的生成模型。 遗憾的是,GPT-2在NLU领域仍并不如BERT,且随着19年其他大模型的推出占据了下风,年初微软推出的Turing-NLG已经到达了170亿参数,而GPT-2只有15亿。这些模型的尺寸已经远远超出了大部分公司的预算和调参侠们的想象。。。已经到极限了吗? 不,“极限挑战”才刚刚开始,OpenAI在十几个小时前悄然放出了GPT第三季——《 Language Models are Few-Shot Learners 》。 paper链接:https://arxiv.org

火爆全球的GPT-3,到底凭什么砸大家的饭碗

生来就可爱ヽ(ⅴ<●) 提交于 2020-08-11 23:32:49
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! GPT-3是指第三代生成式预训练Transformer,它由旧金山AI公司OpenAI开发。该程序历经数年的发展,最近在AI文本生成领域内掀起了一波的创新浪潮。 从许多方面来看,这些进步与自2012年以来AI图像处理的飞跃相似。 计算机视觉技术促进了、无人驾驶汽车到、面部识别、无人机的发展。因此,有理由认为GPT-3及其同类产品的新功能可能会产生类似的深远影响。 与所有深度学习系统一样,GPT-3也是数据模式。它在庞大的文本集上进行了训练,并根据统计规律进行了挖掘。 重要的是,此过程中无需人工干预,程序在没有任何指导的情况下查找,然后将其用于完成文本提示。 海量训练数据 GPT-3的与众不同之处在于它的运行规模和完成一系列令人难以置信的任务。 第一版GPT于2018年发布,包含1.17亿个参数。2019年发布的GPT-2包含15亿个参数。 相比之下,GPT-3拥有1750亿个参数,比其前身多100倍,比之前最大的同类NLP模型要多10倍。 GPT-3的训练数据集也十分庞大。整个英语维基百科(约600万个词条)仅占其训练数据的0.6%。 训练数据的其他部分来自数字化书籍和各种网页链接。不仅包括新闻文章、食谱和诗歌之类的内容,还包括程序代码、科幻小说

1750亿参数,史上最大AI模型GPT-3上线:不仅会写文章、答题,还懂数学

北慕城南 提交于 2020-08-11 12:26:03
「我们训练了 GPT-3,一种具有 1750 亿参数的自回归语言模型,这个数字比以往任何非稀疏语言模型都多 10 倍。我们在 few-shot 情况下测试了它的性能。」 本周五,OpenAI 提出的 GPT-3 在社交网络上掀起了新一阵风潮。它的参数量要比 2 月份刚刚推出的、全球最大深度学习模型 Turing NLP 大上十倍,而且不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。这样强大的深度学习,不禁让人产生一种错觉:真正的 AI 要来了吗? 首先,GPT-3 最令人惊讶的还是模型体量,它使用的最大数据集在处理前容量达到了 45TB。根据 OpenAI 的算力统计单位 petaflops/s-days,训练 AlphaGoZero 需要 1800-2000pfs-day,而 OpenAI 刚刚提出的 GPT-3 用了 3640pfs-day,看来 拥有微软无限算力 的 OpenAI,现在真的是为所欲为了。 研究者们希望 GPT-3 能够成为更通用化的 NLP 模型,解决当前 BERT 等模型的两个不足之处:对领域内有标记数据的过分依赖,以及对于领域数据分布的过拟合。GPT-3 致力于能够使用更少的特定领域,不做 fine-tuning 解决问题。 和往常一样,GPT-3 立即放出了 GitHub 项目页面,不过目前仅是一些生成样本和数据集,还没有代码: https:

“万物就只是5万亿个参数”,AI模型GPT-3让人怀疑人生

流过昼夜 提交于 2020-08-11 11:52:57
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 这几天轰动硅谷的 GPT-3 是什么来头? 相信不太了解 AI 的朋友这几天也或多或少看到了一些关于 GPT-3 的重磅消息,甚至有媒体称其为 “继比特币之后又一个轰动全球的现象级新技术”。 请注意,现在站在你面前的是:互联网原子弹,人工智能界的卡丽熙,算力吞噬者,黄仁勋的新 KPI ,下岗工人制造机,幼年期的天网 —— 最先进的 AI 语言模型 GPT-3。 1750 亿参数组成的训练模型 言归正传,OpenAI 的研究人员在上个月发表了一篇论文,描述了 GPT-3 的开发,正式发布了这个由 1750 亿个参数组成的 AI 语言模型。 在 NLP 领域中,通常采用 ELMo 算法的思想,即通过在大量的语料上预训练语言模型,然后再将预训练好的模型迁移到具体的下游NLP任务,从而提高模型的能力。GPT 模型是 OpenAI 在 2018 年提出的一种新的 ELMo 算法模型,该模型在预训练模型的基础上,只需要做一些微调即可直接迁移到各种 NLP 任务中,因此具有很强的业务迁移能力。 GPT 模型主要包含两个阶段。第一个阶段,先利用大量未标注的语料预训练一个语言模型,接着,在第二个阶段对预训练好的语言模型进行微改,将其迁移到各种有监督的 NLP 任务,并对参数进行 fine

迁移学习的魔法:任何人都将能使用深度学习

蹲街弑〆低调 提交于 2020-08-11 07:58:29
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 一年前,我和几个小伙伴一起开始在构建机器学习API的开源平台Cortex上工作。起初,我们假设所有用户,包括所有把机器学习(ML)运用于生产的公司,都是拥有成熟数据科学团队的大公司。 但我们大错特错了。 一年中,我们看见学生、独立工程师以及小型团队纷纷把模型投入生产。出乎意料,他们提供的通常都是最先进的大型深度学习模型,可用于日常应用程序。一个两人组成的团队最近建立了一个500个GPU推理集群,以支持其应用程序的1万个并发用户。 仅仅在不久之前,只有预算高、数据量大的公司才能做到这样的事情。现在,任何团队都可以做到。这种转变是多种因素共同作用的结果,但其中一个重要因素是迁移学习。 什么是迁移学习 广义上讲,迁移学习是指将经过一项任务训练的深度神经网络的知识“迁移”到训练相关任务的另一个网络的技术。例如,可以使用迁移学习来获取用于对象检测模型,然后使用少量数据对其进行“微调”来检测更具体的事物。 这些技术之所以能起作用是因为深度神经网络的体系结构。网络的低层负责更多的基础知识,而特定任务知识则通常在顶层: 较低层训练完后,可以用少量数据微调较高的层。例如,对象检测模型(比如说YOLOv4)进行微调后可以识别具有很小数据集的特定事物(例如车牌)。 在网络之间迁移知识的技术各不相同

困扰人工智能50多年的常识问题,是否迎来“破局”?

只愿长相守 提交于 2020-08-11 02:17:03
     文 | 丛末   编 | 贾伟   一堆木柴加上一根火柴,能得到什么?人类会自然而然地得出答案:火。然而对于机器而言,这并不容易,因而它们缺乏这种常识推理能力。   人工智能要变得像人一样聪明,常识推理能力是其必备的能力之一。   这,迄今为止已是一个困扰了人工智能 50 多年的难题。   当下,随着人工智能界对该问题的日益重视和研究上的不断精进,现在是否迎来“破局”了呢?   大家可能最先想到的就是OpenAI 于去年初发布的GPT-2,但很遗憾,它在常识上的表现尚且比较“生涩”。      发布之初,GPT-2这个具有15亿参数的通用语言模型,一时引起了轰动——成为《经济学人》第一个被采访的人工智能系统,《纽约客》也专门为它做了一篇特写。该模型生成的句子流畅度惊人,几乎可以假乱真,以至于OpenAI 公开表示,担心它太过优秀带来隐患而没有将模型完全公开。   不过,以批判人工智能炒作闻名的人工智能研究者Gary Marcus 对于GPT-2所呈现出来的“优秀”不以为然。   对此,去年10月份的一个夜晚,他对GPT-2进行了一次突击测试,在 GPT-2中输入了以下内容:    当你把引火柴和木头堆在壁炉里,然后往里面扔几根火柴时,你一般是要......   如果系统足够聪明,会很轻易地想到“fire(生火)”这个词,然而GPT-2的回答是:“ick”。再一次的尝试后

OpenAI第三代超强NLP模型,能设计网页能写邮件,看看图灵测试它能闯几关?

旧街凉风 提交于 2020-08-10 13:45:57
      AI 又进化了。   你正在设计网页,我要一个“长得像西瓜的按钮”——   然后机器就自动生成了这个:      还可以做其它制定:   大字写:欢迎来到我的通讯页,底下一个蓝色的订阅按钮。      对黑字不满意?可以加一个“in red”(large text in red),就变成红色字体。      你跟它说:我要一个彩虹色的按钮!   它就能给你集齐七种颜色。      做到这些,一行代码都不要写! 只需要讲人能听懂的话,机器就可以理解你的意思,然后生成代码,最终实现效果。   实现这个功能的程序员,自己都忍不住惊呼:简直太酸爽了!      AI 能如此理解人话,善解人意,是因为大名鼎鼎的研究机构 Open AI 又开发了第三代语言模型 GPT3,并开放了申请使用。    GPT-3,1750 亿参数,45TB 训练数据   2020 年 5 月 29 日,知名 AI 研究机构 OpenAI 公布了其下一代文本生成神经网络 GPT-3(Generative Pretrained Transformer 3)的研究论文。   这是一款无监督式 Transformer 语言模型,作为 GPT-2 的后继,GPT-3 完整版的训练规模包含了 1750 亿个参数,是前者的 117 倍,是今年 2 月份微软刚刚推出全球最大深度学习模型 Turing NLP 的几十倍