OpenAI

乘风破浪的马里奥!这个AI带你一口气通29关,你猜连AI都过不去的是哪3关?

久未见 提交于 2020-08-12 14:42:04
大数据文摘出品 作者:牛婉杨 马里奥的系列游戏自打诞生以来就风靡全球,同时也陪伴了无数人的童年。 人工智能出现后,不少技术咖都开始尝试,能不能利用AI完成马里奥的一次通关梦? 比如,这里有一位马里奥游戏疯狂爱好者uvipen就在GitHub上贡献了两种不同的方法,都能让马里奥轻松游走在障碍之间!去年6月,uvipen从2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中得到了启发,用异步优势Actor-Critic算法(A3C)让马里奥顺利通过了32关中的9关。 显然,他对之前的方法不够满意,于是经过一年多的钻研,他带着新方法来了!这次,他用 OpenAI 公布的近端策略优化 (Proximal Policy Optimization,简称PPO) 算法, 成功助力马里奥通过32关中的29关 ,近乎通关! 效果大概是这样 强迫症表示这也太舒适了吧,快来和文摘菌一起看看uvipen是如何做到的吧~ 用PPO算法顺利通过29关!如果不行,那就换一个学习率 这个PPO是何来头?文摘菌也去了解了一下。 PPO全称是近端策略优化,听这个名字你可能觉得陌生,但是在人工智能圈,这个算法可是早就用于各种游戏对抗中了。 早在2017年,OpenAI 2017年提出的用于训练OpenAI Five的算法就是PPO

火爆全球的GPT-3,到底凭什么砸大家的饭碗

生来就可爱ヽ(ⅴ<●) 提交于 2020-08-11 23:32:49
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! GPT-3是指第三代生成式预训练Transformer,它由旧金山AI公司OpenAI开发。该程序历经数年的发展,最近在AI文本生成领域内掀起了一波的创新浪潮。 从许多方面来看,这些进步与自2012年以来AI图像处理的飞跃相似。 计算机视觉技术促进了、无人驾驶汽车到、面部识别、无人机的发展。因此,有理由认为GPT-3及其同类产品的新功能可能会产生类似的深远影响。 与所有深度学习系统一样,GPT-3也是数据模式。它在庞大的文本集上进行了训练,并根据统计规律进行了挖掘。 重要的是,此过程中无需人工干预,程序在没有任何指导的情况下查找,然后将其用于完成文本提示。 海量训练数据 GPT-3的与众不同之处在于它的运行规模和完成一系列令人难以置信的任务。 第一版GPT于2018年发布,包含1.17亿个参数。2019年发布的GPT-2包含15亿个参数。 相比之下,GPT-3拥有1750亿个参数,比其前身多100倍,比之前最大的同类NLP模型要多10倍。 GPT-3的训练数据集也十分庞大。整个英语维基百科(约600万个词条)仅占其训练数据的0.6%。 训练数据的其他部分来自数字化书籍和各种网页链接。不仅包括新闻文章、食谱和诗歌之类的内容,还包括程序代码、科幻小说

1750亿参数,史上最大AI模型GPT-3上线:不仅会写文章、答题,还懂数学

北慕城南 提交于 2020-08-11 12:26:03
「我们训练了 GPT-3,一种具有 1750 亿参数的自回归语言模型,这个数字比以往任何非稀疏语言模型都多 10 倍。我们在 few-shot 情况下测试了它的性能。」 本周五,OpenAI 提出的 GPT-3 在社交网络上掀起了新一阵风潮。它的参数量要比 2 月份刚刚推出的、全球最大深度学习模型 Turing NLP 大上十倍,而且不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。这样强大的深度学习,不禁让人产生一种错觉:真正的 AI 要来了吗? 首先,GPT-3 最令人惊讶的还是模型体量,它使用的最大数据集在处理前容量达到了 45TB。根据 OpenAI 的算力统计单位 petaflops/s-days,训练 AlphaGoZero 需要 1800-2000pfs-day,而 OpenAI 刚刚提出的 GPT-3 用了 3640pfs-day,看来 拥有微软无限算力 的 OpenAI,现在真的是为所欲为了。 研究者们希望 GPT-3 能够成为更通用化的 NLP 模型,解决当前 BERT 等模型的两个不足之处:对领域内有标记数据的过分依赖,以及对于领域数据分布的过拟合。GPT-3 致力于能够使用更少的特定领域,不做 fine-tuning 解决问题。 和往常一样,GPT-3 立即放出了 GitHub 项目页面,不过目前仅是一些生成样本和数据集,还没有代码: https:

“万物就只是5万亿个参数”,AI模型GPT-3让人怀疑人生

流过昼夜 提交于 2020-08-11 11:52:57
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 这几天轰动硅谷的 GPT-3 是什么来头? 相信不太了解 AI 的朋友这几天也或多或少看到了一些关于 GPT-3 的重磅消息,甚至有媒体称其为 “继比特币之后又一个轰动全球的现象级新技术”。 请注意,现在站在你面前的是:互联网原子弹,人工智能界的卡丽熙,算力吞噬者,黄仁勋的新 KPI ,下岗工人制造机,幼年期的天网 —— 最先进的 AI 语言模型 GPT-3。 1750 亿参数组成的训练模型 言归正传,OpenAI 的研究人员在上个月发表了一篇论文,描述了 GPT-3 的开发,正式发布了这个由 1750 亿个参数组成的 AI 语言模型。 在 NLP 领域中,通常采用 ELMo 算法的思想,即通过在大量的语料上预训练语言模型,然后再将预训练好的模型迁移到具体的下游NLP任务,从而提高模型的能力。GPT 模型是 OpenAI 在 2018 年提出的一种新的 ELMo 算法模型,该模型在预训练模型的基础上,只需要做一些微调即可直接迁移到各种 NLP 任务中,因此具有很强的业务迁移能力。 GPT 模型主要包含两个阶段。第一个阶段,先利用大量未标注的语料预训练一个语言模型,接着,在第二个阶段对预训练好的语言模型进行微改,将其迁移到各种有监督的 NLP 任务,并对参数进行 fine

史上最大,人工智能算法模型GPT-3问世,这意味着什么?

独自空忆成欢 提交于 2020-08-11 09:34:39
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 编者按:本文来自微信公众号“亲爱的数据”(ID:deardata),作者 谭婧,36氪经授权发布。 2020年,年中。 人类历史上最大的人工智能模型,来到人间。 这个体格巨大的北鼻,哭声嘹亮,告知全世界:“我写的作文,几乎通过了图灵测试。” 那些第一次听说参数数量的人, 那些第一次翻看实验结果的人, 那些第一次口算增长速度的人, 在彼此确认了眼神之后,一致的反应是: “哦漏,我大概是疯了吧。不,是人工智能模型疯了吧。” 同行迈出的步子,似乎要扯烂裤裆。 墙内的人,捡起惊掉的下巴。 墙外的人,他们只觉得婴儿的哭声吵闹。 “不仅会写短文,而且写出来的作文挺逼真的,几乎可以骗过人类,可以说几乎通过了图灵测试。” 如果没有后两个半句,你可能会误认为这是老师对文科生学霸的评语。 理科也超级擅长,还能辅导别人编程。 “以前都是人类去写程序,现在是人类写一个人工智能算法,算法自己从数据中推导出程序。新的人工智能技术路线已经跑通。” 学渣,看破红尘,敲敲木鱼,念出乔布斯的名言: 做个吃货,做个蠢货 (Stay hungry,Stay foolish)。 反正养老托付给人工智能了。而这样的人工智能,需要巨额的资金,需要顶级的技术。 科技巨头微软大笔一挥,千万美金的支票,拿走不谢。 据测算

迁移学习的魔法:任何人都将能使用深度学习

蹲街弑〆低调 提交于 2020-08-11 07:58:29
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 一年前,我和几个小伙伴一起开始在构建机器学习API的开源平台Cortex上工作。起初,我们假设所有用户,包括所有把机器学习(ML)运用于生产的公司,都是拥有成熟数据科学团队的大公司。 但我们大错特错了。 一年中,我们看见学生、独立工程师以及小型团队纷纷把模型投入生产。出乎意料,他们提供的通常都是最先进的大型深度学习模型,可用于日常应用程序。一个两人组成的团队最近建立了一个500个GPU推理集群,以支持其应用程序的1万个并发用户。 仅仅在不久之前,只有预算高、数据量大的公司才能做到这样的事情。现在,任何团队都可以做到。这种转变是多种因素共同作用的结果,但其中一个重要因素是迁移学习。 什么是迁移学习 广义上讲,迁移学习是指将经过一项任务训练的深度神经网络的知识“迁移”到训练相关任务的另一个网络的技术。例如,可以使用迁移学习来获取用于对象检测模型,然后使用少量数据对其进行“微调”来检测更具体的事物。 这些技术之所以能起作用是因为深度神经网络的体系结构。网络的低层负责更多的基础知识,而特定任务知识则通常在顶层: 较低层训练完后,可以用少量数据微调较高的层。例如,对象检测模型(比如说YOLOv4)进行微调后可以识别具有很小数据集的特定事物(例如车牌)。 在网络之间迁移知识的技术各不相同

NLP:GPT-3的简介、安装、使用方法之详细攻略

女生的网名这么多〃 提交于 2020-08-11 02:15:15
NLP:GPT-3的简介、安装、使用方法之详细攻略 目录 GPT-3的简介 关于GPT-3 的影响 关于GPT-3 的评价 关于GPT-3 的开源——为什么 OpenAI 决定发布 API,而不是开源整个模型? GPT-3的安装 GPT-3的使用方法 1、GPT-3的官方demo—原生能力,强到爆炸 (1)、OpenAI 开发了一款浏览器搜索插件 GPT-3的简介 GPT-3 是著名人工智能科研公司 OpenAI 开发的文字生成 (text generation) 技术,相关论文5月份已经发表,当时就以天文数字级别的1750亿参数量引发学界轰动。 关于GPT-3 的影响 OpenAI 这次一反之前死守基础研究的思路,将 GPT-3 做成了一个服务,提供可以调用的 OpenAI API,并且向开放了少量体验资格,学术机构、商业公司和个人开发者都可以申请。 Latitude 透露,随着 GPT-3 的集成和新模式的推出,文字游戏内容的生成,和游戏系统对玩家输入文字所作出的反应,变得更加自然和连贯了,显著提高了玩家参与度,日活跃在2到2.5万人作用,也带动了高级版付费用户增长了大约25%。 关于GPT-3 的评价 程序员 Arram Sabeti 看来,GPT-3 最让他感到惊讶的不是写出来的内容有多“以假乱真”,而是它能够掌握几乎所有的文体和内容格式: 从歌词到剧本

OpenAI第三代超强NLP模型,能设计网页能写邮件,看看图灵测试它能闯几关?

旧街凉风 提交于 2020-08-10 13:45:57
      AI 又进化了。   你正在设计网页,我要一个“长得像西瓜的按钮”——   然后机器就自动生成了这个:      还可以做其它制定:   大字写:欢迎来到我的通讯页,底下一个蓝色的订阅按钮。      对黑字不满意?可以加一个“in red”(large text in red),就变成红色字体。      你跟它说:我要一个彩虹色的按钮!   它就能给你集齐七种颜色。      做到这些,一行代码都不要写! 只需要讲人能听懂的话,机器就可以理解你的意思,然后生成代码,最终实现效果。   实现这个功能的程序员,自己都忍不住惊呼:简直太酸爽了!      AI 能如此理解人话,善解人意,是因为大名鼎鼎的研究机构 Open AI 又开发了第三代语言模型 GPT3,并开放了申请使用。    GPT-3,1750 亿参数,45TB 训练数据   2020 年 5 月 29 日,知名 AI 研究机构 OpenAI 公布了其下一代文本生成神经网络 GPT-3(Generative Pretrained Transformer 3)的研究论文。   这是一款无监督式 Transformer 语言模型,作为 GPT-2 的后继,GPT-3 完整版的训练规模包含了 1750 亿个参数,是前者的 117 倍,是今年 2 月份微软刚刚推出全球最大深度学习模型 Turing NLP 的几十倍

PageRank算法的思想

时间秒杀一切 提交于 2020-08-09 15:45:35
基于胜率矩阵的PageRank排序   在做博弈模型评估的时候,遇到一个问题是如何评价多个模型的优劣。例如我有训练好的三个围棋模型A,B,C,两两之间对打之后有一个胜负关系,如何对这三个模型进行排序呢?通常对于人类选手这种水平有波动的情形,棋类比赛通常计算选手Elo得分按分值排序,足球篮球等通过联赛积分或胜场进行排序,但对于固定不变的AI模型,我认为用类似PageRank的方式计算更方便也更加准确。   这篇文章先从问题来源讲起,再讲解PageRank算法的思想,最后编程实现排序方法并指出一些需要注意的地方。 目录 一、问题来源 二、PageRank算法 算法思想 数学原理 三、实例分析 对角线取值 构造不可约且正常返 完整代码及示例 一、问题来源   现在,深度强化学习更多的用在博弈模型的训练当中,比如围棋的AlphaZero,星际争霸的AlphaStar,DOTA的OpenAI FIVE。比如我们已经训练好了三个模型A,B,C,并且可以相互对打很多局,我们需要一个方法排出谁第一,谁第二。之前NeurIPS2019多智能体竞赛设计的排序方法就存在明显的bug,出现了A能胜过B,且A对C的胜率高于B对C的胜率,最后算出的排名却是B更靠前。主办方也承认了计算方式有缺陷并表示会在之后的比赛中修正,但是当前排名维持不变。   那为什么成熟的Elo值计算方式没有用在这类模型评估上面呢

机器人是如何模仿动物行为,执行更复杂的动作?谷歌这样说

我是研究僧i 提交于 2020-08-09 05:04:53
自本田于2000年发布ASIMO机器人以来,在过去的二十年中,人类机器人大大提高了其执行功能的能力,例如抓取物体和使用计算机视觉来检测事物。尽管有这些改进,但它们的行走,跳跃和执行其他复杂功能的能力像人类一样流畅的腿动作一直是机器人专家的挑战。 近年来,网络安全专家、东方联盟创始人郭盛华透露:“人工智能机器人学习和设计的新进展是利用动物行为的数据和见解,使有腿机器人能够以更像人类的方式运动。“ 谷歌和加州大学伯克利分校的研究人员在今年早些时候发表了研究成果,展示了一种机器人通过模仿来模仿狗的动作来学习如何走路。单独的工作表明,使用深度强化学习算法,机器人可以成功地通过反复试验来学习自我行走。 模仿学习尤其已经在机器人技术中用于各种用例,例如OpenAI 致力于通过模仿来帮助机器人抓取物体的工作,但是它在机器人运动中的使用是新颖且令人鼓舞的。它可以使机器人获取执行要学习的动作的专家生成的输入数据,并将其与深度学习技术结合使用,以更有效地学习动作。 近期使用模仿和更广泛的深度学习技术进行的许多工作都涉及小型机器人,将相同功能应用于真人大小的机器人将面临许多挑战,但是这些进步为改善机器人运动性提供了创新的新途径。 动物行为的灵感也已扩展到机器人设计,诸如敏捷机器人公司和波士顿动力公司等公司采用了力建模技术并集成了全身传感器,以帮助他们的机器人更紧密地模仿动物如何执行复杂的动作。