深度学习框架“天元”开源 画出下一个“旷视”

≯℡__Kan透↙ 提交于 2020-04-05 21:55:57

全球有多少个开发者?埃文斯数据公司(Evans Data Corporation)最新数据显示,预计2023年开发者数量将达到2770万。这不到3000万的开发者,为全球70亿人的生活便利,码着代码、做着不断趋于个性化的需求实现。这一过程中,硬件环境、网络环境、部署问题、测试问题、各种适配问题、成本问题…都是问题。谁家有好工具、谁家有好平台,是创新源头——开发者们,生产力迸发的关键。

2020年,突如其来的疫情打乱了人们平静的生活,但没打乱开发者们“代码改变世界”这一终极使命。科技大厂纷纷发挥技术力量,构筑技防长城。短短10天就上线的AI测温系统,为防疫贡献了技术力量。而这一AI产品能如此迅速部署的背后,是国内最新开源的MegEngine,一个训推一体化的深度学习框架,保证了现实需求的技术解决效率。

从第1行到第35万行,回溯深度学习框架MegEngine

时间回到2013年底,时任旷视研发负责人的曹志敏提出,希望打造一套能够将数据、训练和业务打通的自动化算法研发系统,在不需要投入过多人力和时间的情况下,即可实现算法从研发到应用的自动循环。

说干就干,2014年初,旷视研究院的3名实习生从第一行代码写起,不到半年时间,由旷视自研的初版深度学习框架MegEngine诞生了。

紧接着,为了追赶公司发展步伐,旷视研究院一边与业务部门沟通,一边复现业务所需的神经网络。又过了半年,于2015年年中,所有线上模型全部由自研框架训练的版本替换,实现了自研框架与内部所有业务的接轨。

就在旷视自研框架MegEngine如日中天之际,Google于2015年11月正式发布TensorFlow并将其开源。而让旷视感到惊奇的是,TensorFlow在接口、理念等设计思路上与MegEngine不谋而合。

TensorFlow的开源给旷视自研MegEngine带来一定的冲击,即大厂已经开源,旷视是否有必要坚持做自己的框架?在内部也形成了两种观点,最终决定通过科学测试,来决定是否继续自研。

经过内部评测对比,当时开源的TensorFlow性能并不理想,比旷视自研框架慢10倍,这无疑坚定了旷视继续自研的决心。

深度学习算法框架,是底层基础,框架发挥的效能是会从线性变化逐渐发展为指数变化的。随着业务的不断扩张,旷视自研框架在业务实践中的优势不断凸显,算法训练周期从过去的两三周缩减至3-5天。

除了底层框架的部署,旷视还进行了数据和算力等基础设施的变革。

早在2013年,旷视就成立了自己的数据团队,并打造了数据管理系统MegData,用于解决数据重复、错误使用等问题,同时降低数据成本;随着业务需求的不断增加,计算资源再次成为发展瓶颈,为此旷视自研深度学习云计算平台MegCompute落成。

于是,MegEngine、MegData、MegCompute构成了旷视最初关于自动化算法研发系统的雏形,旷视AI生产力平台Brain++雏形初现。依托Brain++大规模分布式训练能力,以及业界领先的分布式计算技术训练出的超大规模深度学习模型,旷视累计斩获27项全球AI竞赛冠军,并创造COCO三连冠行业记录。

独乐乐不如众乐乐。25日的开源发布会中,旷视开源了35万行代码。知乎有从业人员感叹:这是个浩大工程,祝贺旷视的开发者们,也祝贺所有开发者们。

源力崛起,深度学习框架“天元”亮点回顾

发布会上,旷视正式将深度学习框架MegEngine开源,并取名为“天元”。其原意为棋盘中心,亦为万物本源,旷视希望更多的开发者能够基于天元,加速从0到1构建算法的过程,在AI时代,人人都能拥有生产力工具。

https://uploader.shimo.im/f/QtqEJxL62cQ3sDDo.png!thumbnail

历经六年的工业验证,旷视1400余名研发人员都在使用,旷视现在几乎所有的AI产品都基于天元MegEngine构建。为了此次开源,旷视特意做了针对性的大型升级,让其能够以全新的面貌示人。

据旷视联合创始人兼CTO唐文斌介绍,此次天元开源的代码有35万行,C++占大部分,其次为CUDA、Python;此外,开源代码基于Apache License 2.0协议,方便开发者使用,包括在一些商业场景下使用都没有问题。

在产品发布环节,由旷视研究院高级技术总监田忠博揭开了天元MegEngine架构的神秘面纱。从架构图中可以看出,天元MegEngine从上到下分为五个层次,分为计算接口、图表示、优化与编译、运行时管理以及计算内核。

此外,在反复的训练与实践过程中,旷视遇到了各种各样的困难,积累了大量的避坑经验。同时,也结合当前开发环境中的痛点,如训练模型与推理模型转换带来的低效、动态静态不可兼得带来的产学研使用断层、框架多但好用得少、框架学习成本与转换成本都很高等等,天元都针对性进行了优化升级,一切以用户“顺手”为准。

据介绍,天元MegEngine具备四大优势,即:

Ÿ   训练推理一体:无需转换模型,即可完成训练与推理,同时保持速度与精度,简化流程,实现高效研发。

Ÿ   动静合一:天元能够在动态与静态间自由切换,既方便做原型研发调试,又能在生产环节做提速,其加速效果可达5%-20%。

Ÿ   兼容并包:支持PyTorch Module直接导入,方便模型复现、原型系统开发及实验。

Ÿ   灵活高效:在各种设备和算法上,都有领先性能。

值得一提的是,与谷歌TensorFlow、FacebookPytorch等其他开源框架研发者相比,旷视是一家根植于人工智能领域的企业。六年如一日,始终坚持工业实践,基于天元MegEngine训练好的模型能力能够100%迁移至业务,让理论与实践得到统一。天元极大的降低开发者使用门槛,这也印证了旷视的开源宗旨,即“深度学习,简单开发”。

AI下沉,年轻旷视的“成熟考虑”

“AI正在加速各行各业的商业创新,但在AI落地过程中,马太效应还是非常明显。互联网行业因其算法、算力和数据方面的先天优势,在AI领域取得了快速发展。而传统行业在AI落地时,仍面临巨大挑战。”旷视云服务业务副总裁赵立威说。

而在AI产业化过程中,除了需要深度学习框架进行算法训练、推理和部署,还涉及数据和算力,这就是旷视的AI生产力平台——Brain++。

Brain++就是旷视要为AI领域打造的一套Visual Studio,它是一套开发工具集,其目的是有效解决AI研发门槛高、成本高和效率低的问题,为产学研提供一站式、全流程的人工智能专业解决方案。发布会中,赵立威宣布除了开源天元MegEngine,还将把数据和算力平台开放给企业用户使用。

天元MegEngine作为Brain++的核心组件,它的开源无疑降低了企业、开发者的使用门槛,同时避免了重复造轮子的问题。众所周知,在深度学习早期,每位开发者都需要写大量的重复代码。如今则大不一样,全球的开发者都能免费试用天元MegEngine,实现AI普惠。

旷视开源天元MegEngine的初衷,就是希望越来越多的合作伙伴、企业加入到AI这张协作网络中共建共享,让这个产业继续繁荣发展,让更多的企业或开发者能够真正使用AI。授人以鱼不如授人以渔,旷视将渔具“天元”提供给所有开发者,让其基于此去做更多喜欢且有用的事情。

当然,此次旷视开源的仅是Alpha版本,或许还存在一些不完美之处,在此也呼吁更多开发者、学者、学生加入进来,携手完善天元生态。

唐文斌也指出:“也许下一代天元并不是由旷视的研发团队做出来的,而是与你一起共创出来的Beta和正式版本,所以我们也希望跟大家一起来共建更好的深度学习框架。”

旷视也明确了天元MegEngine的开发路线图,计划在今年6月份发布Beta版本,届时将提供关于ARM系列的CPU支持能力;到9月份,天元MegEngine的能力能够全面覆盖主流的计算设备,同时将现有的动态计算能力全面升级,并优化训练推理全流程使用体验。

天元官网:https://megengine.org.cn

天元GitHub:https://github.com/MegEngine

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!