Ernie

百度大脑EasyDL专业版最新上线自研超大规模视觉预训练模型

痴心易碎 提交于 2021-02-18 06:03:24
在学习与定制AI模型的过程中,开发者会面对各种各样的概念,在深度学习领域,有一个名词正在被越来越频繁地得到关注:迁移学习。它相比效果表现好的监督学习来说,可以减去大量的枯燥标注过程,简单来说就是在大数据集训练的预训练模型上进行小数据集的迁移,以获得对新数据较好的识别效果,因其能够大量节约新模型开发的成本,在实际应用中被更广泛地关注。EasyDL专业版在最新上线的版本中,就引入了百度超大规模视觉预训练模型,结合迁移学习工具,帮助开发者使用少量数据,快速定制高精度AI模型。 在训练一个深度学习模型时,通常需要大量的数据,但数据的采集、标注等数据准备过程会耗费大量的人力、金钱和时间成本。为解决此问题,我们可以使用预训练模型。以预训练模型A作为起点,在此基础上进行重新调优,利用预训练模型及它学习的知识来提高其执行另一项任务B的能力,简单来说就是在大数据集训练的预训练模型上进行小数据集的迁移,以获得对新数据较好的识别效果,这就是迁移学习(Transfer Learning)。迁移学习作为一种机器学习方法,广泛应用于各类深度学习任务中。在具体实现迁移学习时,有多种深度网络迁移方法,其中的Fine-tune(微调)是最简单的一种深度网络迁移方法,它主要是将已训练好的模型参数迁移到新的模型来帮助新模型训练。 在实际应用中,针对一个任务,我们通常不会从头开始训练一个模型,因为这非常耗时耗力

PTMs| 2020最新NLP预训练模型综述

点点圈 提交于 2020-12-25 17:17:41
本篇文章主要介绍邱锡鹏老师在2020年发表的一篇预训练模型的综述: 「Pre-trained Models for Natural Language Processing: A survey」 [1] 。 该综述系统地介绍了nlp中的预训练模型。主要的贡献包括: 1.深入盘点了目前主流的预训练模型 ,如word2vec,ELMo,BERT等。 2. 提出了一种预训练模型的分类体系 ,通过四种分类维度来划分目前已有的预训练模型。包括: 表征的类型,即:是否上下文感知 编码器结构,如:LSTM、CNN、Transformer 预训练任务类型,如:语言模型LM,带掩码的语言模型MLM,排列语言模型PLM,对比学习等 针对特定场景的拓展和延伸。如:知识增强预训练,多语言预训练,多模态预训练和模型压缩等 3. 如何将PTMs学到的知识迁移到下游的任务中。 4. 收集了目前关于PTMs的学习资料。 5. 指明PTMs未来的研究方向 ,如:局限、挑战、建议。 由于篇幅原因,本文主要针对前面两点进行梳理,即 「目前主流的预训练模型」 和 「预训练模型的分类体系」 。 我们建立了 自然语言处理、机器学习等 讨论组,欢迎大家加入讨论。人数达到上限,添加下方好友手动邀请,注意一定要 备注 ,不然无法通过。 1. 背景 「nlp、cv领域的传统方法极度依赖于手动特征工程」 。例如nlp中的log

百度NLP十年布局:翻越认知智能高山,架起通往现实世界的桥

Deadly 提交于 2020-12-17 01:27:47
在NLP应用落地的话题上,百度从来都不是一成不变的守旧者,而是根据行业现状不断变通,通过持续性的场景落地,逐步唤醒外界对NLP的价值认可。 撰文 / Alter 编辑 / 胖爷 自然语言处理(NLP)是人工智能皇冠上的一颗明珠。 这样的说法在人工智能领域流传许久,现实中发生的却是这样一幕: 计算机视觉、语音识别等领域纷纷跑出了多个独角兽,冲刺IPO的消息也时常出现。可作为“皇冠上的明珠”的NLP领域,却难见独角兽的影子,大多数创业者还停留在A轮或B轮融资。 NLP如何走出困局? 在NLP领域深耕十年,被称作“中国NLP灯塔”的百度给出了切实的答案。 8月25日举行的百度大脑语言与知识技术峰会上,伴随着一系列语言与知识产品的发布与升级,百度NLP的全景布局和钻研了十几年的核心技术一一亮相。 (百度CTO王海峰) 01 翻越认知智能的高山 把时间调回一个多月前的ACL 2020。 作为NLP领域最负盛名的国际顶会,ACL 2020收到了3429 篇论文投稿,其中被接收的779篇论文中有185 篇来自中国大陆,占比仅次于美国。距离2010年首次有中国科技企业的论文入选ACL,仅仅过去了10年时间。 除了论文数量的逐年增长,中国NLP学者的面孔也陆续在ACL上出现。 2013年,百度CTO王海峰成为ACL历史上首位华人主席;2014 年,同样来自百度的吴华出任 ACL 程序委员会主席

大佬云集!百度NLP-ERNIE团队招聘算法小伙伴啦!

戏子无情 提交于 2020-11-19 02:52:16
来百度NLP-文心(ERNIE)团队做 最强 的预训练,发 最好 的 paper,支持 最核心 的业务(搜索、广告),做三项全能的 NLP 弄潮儿。 我们是负责百度NLP语义理解技术与平台文心(ERNIE) 研发团队。 ERNIE 致力于预训练语义理解技术研发与应用,提升NLP任务效果,深度支持百度核心业务线。 近一年来,文心( ERNIE )取得多项荣誉: 2019年12月,我们首次突破 90 分大关登顶通用语言理解评估基准GLUE; 2020年1月,我们提出的预训练语言生成技术 ERNIE -GEN 在多个语言生成任务取得 SOTA; 2020年3月,我们在 SemEval-2020 上取得了5项世界冠军; 2020年7月,我们提出的多模态语义理解技术 ERNIE -ViL登顶视觉常识推理权威榜单VCR; 2020年7月9日,我们荣获2020世界人工智能大会最高奖。 在这里,你可以利用中国自主研发的 飞桨 ( PaddlePaddle )深度学习平台,进行高效的多机多卡训练,千亿级别的数据等待你的挖掘。这里有良好的团队氛围和资深、耐心的指导人带你探索新一代NLP技术。在这里,我们在使用业界领先的预训练语言理解技术提升真实工业场景的应用效果。 现在,我们在招人。 欢迎应届毕业 1~2 年的同学(社招)投递简历 (校招同学也可以转简历喔), base 北京 。 工作职责

自然语言处理动手学Bert文本分类

坚强是说给别人听的谎言 提交于 2020-10-20 16:51:01
自然语言处理动手学Bert文本分类 Bert作为目前自然语言处理领域最流行的技术之一,文本分类作为自然语言处理领域最常见的任务之一,Pytorch作为目前最流程的深度学习框架之一,三者结合在一起将会产生什么样的花火,本套课程基于Pytorch最新1.4版本来实现利用Bert实现中文文本分类任务,延续动手学系列课程风格,全程手敲代码,跟着老师一行一行代码撸起来。 章节1:课程简介 章节2:Seq2Seq相关理论 章节3:Attention机制 章节4:Bert理论系列基础 章节5:基于Bert的文本分类实战 章节6:基于Bert+CNN的文本分类实战 章节7:基于Bert+RNN的文本分类实战 章节8:基于Bert+RCNN的文本分类实战 章节9:基于Bert+DPCNN的文本分类实战 章节10:基于ERNIE的文本分类实战 来源: oschina 链接: https://my.oschina.net/u/4323266/blog/4681101

演讲实录丨王海峰:AI 新基建加速产业智能化

前提是你 提交于 2020-09-29 10:56:09
  7月25日-26日,在中国科学技术协会、中国科学院、中国工程院、浙江省人民政府、杭州市人民政府、浙江省人工智能发展专家委员会指导下,由中国人工智能学会、杭州市余杭区人民政府主办,浙江杭州未来科技城管理委员会承办的2020全球人工智能技术大会在“数字之都”——杭州,成功举办。在7月25日举办的 大会主旨报告 环节 , 百度首席技术官、ACL/CAAI Fellow 王海峰 为我们带来了题为 “AI 新基建加速产业智能化” 的精彩演讲。      王海峰 百度首席技术官、ACL/CAAI Fellow    以下是王海峰的演讲实录:   我今天与大家分享的主题是《AI 新基建加速产业智能化》。   新基建通过建设新型基础设施,促进经济高质量发展。具体来讲,新型基础设施包括信息基础设施、融合基础设施和创新基础设施。这些新型基础设施以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展,提供数字转型、智能升级和融合创新等服务。AI 既是新基建重点建设的新型基础设施,同时也与其他新型基础设施有重要的协同效应。   现阶段,AI 已经成为新一轮科技革命和产业变革的重要驱动力量,正在引领人类社会进入第四次工业革命。从人类历史上的历次工业革命来看,其核心技术都有很强的通用性。例如第一次工业革命的机械技术,第二次工业革命的电气技术,以及第三次的信息技术,都是如此

百度飞桨开发者超190万,国内首个量子机器学习开发工具"量桨"面世

瘦欲@ 提交于 2020-08-14 10:27:10
  机器之心报道    参与:蛋酱、张倩、泽南    百度飞桨深度学习平台又有了大幅度的升级:飞桨企业版正式出炉,还有量子机器学习开发工具「量桨」发布。飞桨已成为国内首个,也是唯一支持量子机器学习的深度学习平台。   2020 年,人工智能商业化落地全面加速。作为国内 AI 领先者的百度,其长期高强度技术投入正在逐渐取得成果。   刚刚,在「WAVE SUMMIT 2020」深度学习开发者峰会上,百度飞桨又一次宣布了多项全新发布和重要升级。   「从去年秋季深度学习开发者峰会至今的半年时间里,飞桨有了迅速发展: 累积开发者数量已超过 190 万,服务企业数量达到 84000 家;发布模型数量已超过 23 万个 ,」百度 CTO 王海峰大会开场时表示。      这些成绩之上,是飞桨对于国内产业智能化升级做出的贡献。在新冠疫情期间,百度也进入了抗疫一线,提供了口罩检测和人脸识别、社区疫情防控系统、疫情问答机器人、基于 CT 影像的肺炎筛查等等 AI 能力。   它们也是飞桨与开发者们共同努力的结果。   在峰会上,王海峰放出了最新的飞桨版图。飞桨开源深度学习平台,包含核心框架、基础模型库、端到端开发套件与工具组件。随着企业应用的需求越来越丰富和强烈,飞桨升级了产品架构,推出飞桨企业版,助力各个企业进行 AI 创新。   百度飞桨平台的最新全景图:      现在

重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录,登顶权威榜单VCR

被刻印的时光 ゝ 提交于 2020-08-12 06:38:10
机器之心报道 机器之心编辑部 近日,百度在多模态语义理解领域取得突破,提出知识增强视觉-语言预训练模型 ERNIE -ViL,首次将场景图(Scene Graph)知识融入多模态预训练,在 5 项多模态任务上刷新世界最好效果,并在多模态领域权威榜单 VCR 上超越微软、谷歌、Facebook 等机构,登顶榜首。此次突破充分借助 飞桨 深度学习平台分布式训练领先优势。据机器之心了解,基于 飞桨 实现的 ERNIE -ViL 模型也将于近期开源。 多模态语义理解是人工智能领域重要研究方向之一,如何让机器像人类一样具备理解和思考的能力,需要融合语言、语音、视觉等多模态的信息。 近年来,视觉、语言、语音等单模态语义理解技术取得了重大进展。但更多的人工智能真实场景实质上同时涉及到多个模态的信息。例如,理想的人工智能助手需要根据语言、语音、动作等多模态的信息与人类进行交流,这就要求机器具备多模态语义理解能力。 近日,百度在该领域取得突破,提出业界首个融合场景图知识的多模态预训练模型 ERNIE -ViL。百度研究者将场景图知识融入到视觉-语言模型的预训练过程,学习场景语义的联合表示,显著增强了跨模态的语义理解能力。 ERNIE -ViL 还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等 5 项典型多模态任务中刷新了世界最好效果

百度人工智能技术文心(ERNIE)摘得2020世界人工智能大会最高奖项SAIL奖

末鹿安然 提交于 2020-07-29 02:36:01
7月9日,2020世界人工智能大会(WAIC)正式开幕,大会颁布最高奖项SAIL奖(Super AI Leader,卓越人工智能引领者),百度文心(ERNIE)知识增强语义理解技术与平台获奖,百度技术委员会主席吴华上台领奖。 百度文心(ERNIE)获得SAIL奖百度技术委员会主席吴华(左四)领奖 SAIL奖是世界人工智能大会最高荣誉奖项 ,主要激励全球范围内在人工智能领域做出的方向性技术突破和应用创新,正在或将要改变未来生活的人工智能项目。本届SAIL奖共吸引来自中国、德国、美国、以色列、新加坡等多国的800个项目参与角逐,包括亚马逊、IBM、百度、腾讯、华为等头部企业项目,以及前沿的国内外科研创新、场景应用类项目。 本次获奖,也是 百度 ERNIE 首次以中文名“文心”亮相 。“文心”出自中国南朝文学家刘勰的《文心雕龙·序志》,原指用雕镂龙纹那样精细的功夫研究文字的内涵和魅力,百度借此表示用心做语义理解的决心。 自然语言处理(NLP)被称为人工智能皇冠上的一颗明珠,自然语言理解是其重要研究方向之一,在该领域的技术突破对于机器认知智能发展至关重要。文心( ERNIE )则是一个取得世界级突破的语义理解技术与平台,它 依托于百度的深度学习平台 飞桨 打造 ,将机器理解语言的水平提升到一个新的高度,为计算机带来了认知智能领域的巨大跨域。 文心( ERNIE )的核心技术优势在于

六种用于文本分类的开源预训练模型

拟墨画扇 提交于 2020-07-28 09:07:13
作者|PURVA HUILGOL 编译|VK 来源|Analytics Vidhya 介绍 我们正站在语言和机器的交汇处,这个话题我很感兴趣。机器能像莎士比亚一样写作吗?机器能提高我自己的写作能力吗?机器人能解释一句讽刺的话吗? 我肯定你以前问过这些问题。自然语言处理(NLP)也致力于回答这些问题,我必须说,在这个领域已经进行了突破性的研究,促使弥合人类和机器之间的鸿沟。 文本分类是自然语言处理的核心思想之一。如果一台机器能够区分名词和动词,或者它能够在客户的评论中检测到客户对产品的满意程度,我们可以将这种理解用于其他高级NLP任务。 这就是我们在文本分类方面看到很多研究的本质。迁移学习的出现可能促进加速研究。我们现在可以使用构建在一个巨大的数据集上的预训练的模型,并进行优化,以在另一个数据集上实现其他任务。 迁移学习和预训练模型有两大优势: 它降低了每次训练一个新的深度学习模型的成本 这些数据集符合行业公认的标准,因此预训练模型已经在质量方面得到了审查 你可以理解为什么经过预训练的模特会大受欢迎。我们已经看到像谷歌的BERT和OpenAI的GPT-2这样的模型真的很厉害。在这里中,我将介绍6种最先进的文本分类预训练模型。 我们将介绍的预训练模型: XLNet ERNIE Text-to-Text Transfer Transformer(T5) BPT NABoE