7月25日-26日,在中国科学技术协会、中国科学院、中国工程院、浙江省人民政府、杭州市人民政府、浙江省人工智能发展专家委员会指导下,由中国人工智能学会、杭州市余杭区人民政府主办,浙江杭州未来科技城管理委员会承办的2020全球人工智能技术大会在“数字之都”——杭州,成功举办。在7月25日举办的大会主旨报告环节,百度首席技术官、ACL/CAAI Fellow王海峰为我们带来了题为“AI 新基建加速产业智能化”的精彩演讲。
王海峰 百度首席技术官、ACL/CAAI Fellow
以下是王海峰的演讲实录:
我今天与大家分享的主题是《AI 新基建加速产业智能化》。
新基建通过建设新型基础设施,促进经济高质量发展。具体来讲,新型基础设施包括信息基础设施、融合基础设施和创新基础设施。这些新型基础设施以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展,提供数字转型、智能升级和融合创新等服务。AI 既是新基建重点建设的新型基础设施,同时也与其他新型基础设施有重要的协同效应。
现阶段,AI 已经成为新一轮科技革命和产业变革的重要驱动力量,正在引领人类社会进入第四次工业革命。从人类历史上的历次工业革命来看,其核心技术都有很强的通用性。例如第一次工业革命的机械技术,第二次工业革命的电气技术,以及第三次的信息技术,都是如此。作为第四次工业革命的核心驱动力量,人工智能也具有很强的通用性,已经在很多行业发挥了重要作用,并已具备标准化、自动化和模块化的工业大生产特征。AI 已经进入工业大生产阶段。
根据IDC 报告, 全球数据从2018 年的33ZB 预计增长到2025 年的175 ZB,年增速27%;从2006—2020 年,芯片的计算性能提升600 多倍;数据井喷、算力突破以及深度学习等算法上的创新,共同促进了AI 的高速发展。因此一个完备的AI 基础设施要包括算法、算力和数据等各个方面。百度建设的AI 基础设施就是百度大脑。经过多年的建设,百度大脑已经发展为一个软硬一体的AI 大生产平台,具有很强的通用性,并且具备了标准化、自动化和模块化的特征。
同时,我们将百度大脑具备的AI 基础技术能力,通过百度智能云向各行各业输出,助力产业智能化升级。百度智能云在百度大脑的基础上,面向产业应用提供了多层次的平台,以及行业智能应用和行业解决方案。
百度大脑包括基础层的算力和数据技术,以及以飞桨为核心的算法平台;感知层包括语音、视觉、增强现实和虚拟现实等技术;认知层包括语言与知识技术;此外,还有纵贯各层的完整的安全体系。
算力方面,百度的数据中心已覆盖全球10余个国家和地区,形成了强大的算力基础。同时应建设AI 基础设施的需要,百度也自研了AI 通用处理器——百度昆仑芯片。昆仑芯片与深度学习平台飞桨深度结合,针对语音、图像和自然语言处理等AI 模型进行优化,性能大幅提升。
深度学习平台向下对接芯片,向上承载应用,是AI 时代的操作系统,也是AI 基础设施的核心基础。飞桨是我国首个功能完备的产业级深度学习开源开放平台,既包括技术领先、能力完备的核心框架,也包括大量充分验证的产业级模型库,以及丰富的开发套件和工具组件。飞桨深度学习平台所包含的大量领先技术,可以总结为四个方面,即开发便捷的深度学习框架、超大规模深度学习模型训练技术、多端多平台部署的高性能推理引擎,以及丰富的产业级开源模型库。
首先,我们看开发便捷的产业级深度学习框架。飞桨深度学习框架既支持静态图和动态图,也可以做网络结构的自动设计。飞桨的超大规模深度学习训练平台可以支持百亿训练数据、千亿特征和万亿参数任务的分布式训练,也可以支持千万类别的大规模分类任务分布式训练。所有训练出来的模型,最终要部署到各个端上,供应用所使用。飞桨的高性能推理引擎可以支持多端、多平台的部署,也可以与其他深度学习框架无缝衔接。所支持的平台,包括几乎所有主流的CPU和GPU 平台,以及FPGA 等,同时支持多种操作系统。飞桨的通用框架推理速度全面领先。深度学习框架是深度学习平台的核心基础,开发者真正使用深度学习平台时,往往还需要针对它的应用场景的各种模型库。因此,飞桨也提供了非常丰富的而且经过产业验证的模型库,覆盖了几乎AI 的各个重要应用方向。比如计算机视觉的模型库、自然语言处理的模型库、语音的库和推荐的库等。这些库又分为不同层次,包括算法层和任务层等,也包括端到端的开发套件。现在飞桨已经拥有140 多个模型,200 多个工业级预训练模型。
下面介绍百度大脑的核心技术能力,包括感知层和认知层的各个能力。首先看一下语音技术。百度从2010 年开始研发语音识别技术,而2012 年开始使用深度学习来开发语音识别系统,发展到目前已经创新研发了流式多级截断注意力模型,使得语音识别的效果大幅提升,同时研制了声学增强和声学建模一体化的端到端模型。这个语音识别系统不仅可以用在电脑和手机等一些常见的应用场景,现在越来越多的也应用于一些远场语音识别的场景,比如家居场景和车载场景等。处理远场语音时需要麦克风阵列,因此研发了基于麦克风阵列的声音增强和声学建模一体化的端到端识别,使得语音识别的字错误率降低了40%~50%,线上产品交互成功率也有大幅提升。语音合成相比语音识别来讲,虽然拥抱深度学习略晚一些,但近年来我们已经大规模应用,并取得很大进展。比如从并行化的wavernn 发展到基于Gan 的超高清wavernn 语音合成技术。传统的语音合成往往只能提供少量人的声音,这些声音虽然很清晰也很流畅,但风格比较单一。通过百度大脑最新的语音合成技术,可以动态组合声音的音色和风格,使得单一风格的合成音具备向多种风格迁移的能力。下面请大家听几段声音。第一段是一个真人的声音。拥有了这样一段真人的声音后,我们可以提取其声音的各种特征,合成各种其他的声音,比如英文。大家可以听到,虽然语音由中文变成了英文,但很好地保持了这个人的声音特征。接下来再听两种风格,分别是讲故事和脱口秀。我们可以听到百度大脑合成的声音,都很好地保持了真人的原声特征。基于这样的千人千面和单人千面的语音合成技术,我们就可以针对各种应用场景去合成所需要的声音。例如,在百度地图里就有这样一个可以支持每个人用自己专属的声音,来为自己导航的能力。比如,很多用户将自己孩子的声音用百度大脑合成,每天听着自己孩子的声音为自己导航,去上下班。
百度的视觉技术布局也很全面,包括图像、视频、增强现实和虚拟现实等,以及包括各种垂类。比如我们识别车辆、文字和人体等,视觉技术根据应用场景的不同也需要软硬一体化。所以也开发了很多视觉AI 的sdk、三维结构光模组等。所有这些能力也通过开放平台对外提供服务。这里我们可以看到更多的视觉技术。比如视频的语义分析、对比检索、影视剧长视频的识别和视频封面的选取等;还包括图像的相似图检索,通用物体场景识别,以及和人相关的活体检测、关键点定位、卡证识别等。
下面再看一下认知层。语言和知识都与人的认知相关,知识是人类智慧的结晶,知识的沉淀和传承支撑着人类不断进步。语言不只是人类沟通交流的工具,也是知识沉淀和传承的载体。从AI 技术角度,语言与知识技术密切相关。百度的语言与知识技术包括知识图谱、语言理解、语言生成,以及智能搜索、深度问答、机器翻译、对话系统和智能写作等各种应用。最基础的是知识图谱。为了从庞大的数据,包括互联网大数据,以及各种行业数据中挖掘知识,需要进行大规模的知识挖掘,也需要进行知识的归一融合和知识补全。在此基础上,我们构建了庞大的知识图谱;基于这些图谱,进一步对知识进行推理,计算以及检索等。基于多源异构大数据,我们构建了世界上最大规模的知识图谱。百度的知识图谱现在已经有超过50 亿的实体,以及超过5 500 亿的事实。这样一个庞大的知识图谱,既包括基础的由实体属性构成的实体图谱,也包括面向各种应用所需的图谱,例如POI 图谱、行业图谱和视频理解图谱等。
语言是人类沟通交流的基本工具,因此AI的重要任务之一就是理解语言。经过几十年的发展,对自然语言的理解已经逐渐从词法、句法进入到语义理解阶段。百度研发的知识增强的语义理解框架文心(ERNIE)具备了两个非常重要的能力,一个是将深度学习与知识进行结合,从而打造了知识增强的语义理解框架;另一个是这样一个语义理解框架还可以进行持续的学习,使得语言理解的能力不断提升。这张图中淡蓝色线条是当前最好的结果。在此基础上我们利用知识增强的语义理解框架,效果得到了明显提升。进一步地,再基于此持续增加知识,比如增加对话知识、篇章结构知识、网页知识,以及增加语义关系知识等。可以看到,ERNIE 的语义理解能力还会不断增强。这是非常重要的一个特性。有了这样一个特性,我们就可以让AI 的语言理解能力持续得到提升,而且是在实际应用中不断地富集数据,效果越来越好。下边的应用效果,即展示了在不同应用上都使得原有的应用效果有了一个非常显著的提升。ERNIE 不仅能理解自然语言,同时也与其他的感知层技术相结合,形成跨模态语义理解。例如,这里展示的是ERNIE 与计算机视觉技术相结合,发布的业界首个融合场景图知识的跨模态预训练模型ERNIE-ViL,在跨模态领域权威榜单视觉常识推理任务(VCR)上取得第一。
前面介绍的是百度打造的AI 基础设施- 百度大脑的各项核心技术。在百度大脑这个技术平台的基础上,我们通过百度智能云,将百度的AI 能力向各行各业输出,助力各行各业的智能化升级,加速产业智能化的进程。这是百度智能云的全景图,包括平台,也包括行业智能应用和行业解决方案。
基础云平台是百度智能云的基座,充分发挥技术优势和实践积累,形成了完备的产品和服务体系,支撑了各种上层应用。首先是弹性的基础设施,包括大规模数据中心、高性能计算和存储、自研芯片与高性能网络等。在此之上,形成了全系列产品,包括云主机、云存储、云安全等,为客户提供全场景覆盖、高性价比、易运维、安全合规、高弹性的解决方案和服务。
接下来我再讲一下AI 中台。首先企业智能化升级需要AI,而AI 也需要与企业应用场景深度结合,但是很多企业缺乏AI 的基础能力和平台。为此,我们基于百度大脑定制一个企业专属的AI平台,集约化管理企业的AI 能力,统筹企业的智能化升级。这里包括AI 的能力引擎,也包括AI 的开发平台,同时还包括数据管理、服务管理、权限管理、资源管理和运维管理等基础管理能力。例如,百度智能云为国家电网山东电力打造的AI中台,已经支撑了山东电力的施工机械检测、浓烟和山火的检测、导线异物的检测,以及VIP 客户的识别等,为国网山东电力实现业务智能化提供了很好的支持。
前面介绍百度大脑时,我曾提到过知识,我们都知道书籍是人类进步的阶梯,而在这里我要说,知识是AI 进步的阶梯。对于每一家企业都会有自己特有的知识,但同时众多企业往往又缺乏构建和运用知识的能力。因此,百度智能云也为企业量身打造了知识中台,助力企业的智能化升级。知识中台可以帮助企业凝炼知识,赋能业务,进而助力企业的智能化升级。知识中台以AI 的各项核心技术为基础,其核心能力则包括知识的生产、知识的加工及知识的应用。在此基础上,可以形成企业知识相关的产品矩阵,如企业搜索、智能推荐、智能知识库、行业知识图谱和决策引擎等。
为企业量身打造的AI 中台和知识中台,可以支撑企业运行的方方面面进行智能化升级。其中也包括办公的智能化升级。众所周知,前几次工业革命为人类带来了工业生产的流水线,流水线使得工业生产的效率大幅提升。而在AI 时代,基于AI 中台和知识中台,也可以打造AI 时代的办公流水线,进而使智能时代的办公效率大幅提升。通常一个智能办公平台,我认为应该包括下面这些流水线,例如可以支持同事之间的沟通群组、企业通讯录等的通讯流,支持日程安排、会议、组织、日程提醒、项目设定、进展跟踪、协同协作等的工作流,以及企业内部丰富知识的检索、推荐、问答等的知识流。百度打造的新一代智能办公平台是如流,我们希望在如流的支持下,AI 时代的办公如行云流水一般流畅。这里展示的就是如流产品的工作流、通讯流和知识流的样式。在这些流的支撑下,我们的工作效率在快速提升。
我们所生活的城市也是AI 赋能的重要场景。百度智能云提供的智慧城市解决方案,包括城市感知中台,可以进行多源数据的采集以及全要素映射;也包括城市AI 中台,负责城市算法、算力调度和运营管理等;还包括城市数据中台,负责城市数据的融合、治理和分析。当然也有重要的城市交互中台,包括时空一张图,以及智能一键搜等。在此基础上,支持城市的各种智能应用场景,例如应急管理、城市管理、公共安全、智能交通、智慧园区、智慧教育等。我们希望百度智能云提供的智慧城市解决方案,可以让城市变得更加安全,更加从容、通畅和宜居。
这是百度城市大脑应用的一些例子。基于百度地图整合路网工地和卫星数据,可以进行渣土车的行驶轨迹跟踪,使渣土车的治理更加高效。城市里还有一个很重要的应用场景——交通。百度智慧城市的解决方案里,也包括智能交通的解决方案,例如智能信控和车路协同等。这些方案也是基于百度大脑的飞桨等各种技术,以及各种来源的数据。通过对这些数据进行加工处理,保障在业务层能够高效运转。再举一些其他应用场景的例子。比如在气象领域,我们基于气象大数据平台,以及百度大脑提供的BML机器学习平台,打造专门应用于气象领域的气象大脑,进而支持气象的各种应用;比如天气预报、洪水预报,以及利用气象卫星监测火点等。
在金融领域,我们也提供了金融的基础平台,包括前面提到的AI 中台、知识中台,以及金融领域所需要的金融云、金融分布式数据库、金融图数据库、区块链等。基于这样一个金融的基础平台,支撑金融的各种智能应用,比如智能风控、智能营销、数字员工及风险识别、风险预测、风险定价等,从而形成完整的智慧金融解决方案。从获客、风控和运营等各个方面,都为金融提供了很好的智能化解决方案。百度智能云的智慧金融已经服务了约200 家金融客户,应用于10 多个金融场景,同时也和30 多家合作伙伴一起,致力于为金融客户提供最好的服务。
医疗也是和我们每个人都非常相关的一个领域,而提升医疗水平无疑可以造福整个社会。百度智能云打造的智慧医疗体系,包括医疗AI 中台和医疗知识中台。医疗的AI 中台里,包括医疗影像筛查、疾病辅助诊断、治疗方案推荐、病历结构化、医疗语音识别和医嘱质控等核心技术;而知识中台包括医疗知识图谱和医疗知识库。基于医疗的AI 中台和知识中台,我们可以提供各种医疗智能应用,例如眼底筛查、新冠肺炎筛查、临床辅助决策、合理用药、病案质控和慢病管理等,覆盖了筛、诊、管等各方面。我们希望通过循证AI 焕发医疗的新活力,百度智慧医疗已经从技术落地,发展到了规模化应用阶段,覆盖全国27 个省市自治区、1500 多家基层医疗机构,服务人次已经超过2 500 万。
百度智能云也在工业制造领域发挥作用,通过AI 中台和数据中台的赋能,支持制造业的智能化升级,提供了智能质检、工艺优化和排产排程等。AI 应用所覆盖的行业,已包括钢铁、水务、电力、3C 和汽车等,帮助这些行业创新提质降本。例如,工业质检可以实现3C 微小零部件的检测,这些检测能力已经规模化落地多家工厂,包括笔记本外壳的检测,也已经规模化落地多家笔记本工厂。再如总装车灯检测,检测人员需要避免外界光源对车灯检测的干扰,并且检测节拍较短,检测速度要求很高。AI 能力在这里发挥了很重要的作用。再如工业安全巡检,在工厂里工人是否符合安全规范,比如是否戴了安全帽、是否去了不应该去的区域等都可以准确的检测出来;以及对吊车导线异物、烟火、塔吊、施工机械等多类型复杂场景的智能检测,准确率很高,已经广泛应用。
针对AI 产业化落地中面临的安全威胁和挑战,百度持续开展安全技术创新和工程实践,不断完善一体化的安全体系。百度打造的完备安全体系,包括AI 模型安全、云原生安全、端边云融合安全、数据安全和隐私保护、行业应用安全解决方案、行业生态安全等;同时将这些安全能力通过百度智能云输出,为产业智能化升级保驾护航。
建设AI 基础设施,加速产业智能化。百度与各界携手,推动“新基建”,共创新未来!
(本报告根据速记整理)
CAAI原创 丨 作者王海峰
未经授权严禁转载及翻译
来源:oschina
链接:https://my.oschina.net/u/4374580/blog/4548302