深度长文|百度Paddle Lite性能进化之路!
Paddle Lite 作为一款主打端侧高性能轻量化部署的推理引擎,具有 高扩展性 、训练推理 无缝衔接 , 通用性 、 高性能 和 轻量化 等优点。 面对不断升级的业务需求, Paddle Lite 是如何进行性能优化、提升自身竞争力的? 下面我们将围绕 框架层性能优化 、 GPU算子优化 、 CPU算子优化 以及 模型剪裁与搜索 四方面介绍性能优化的手段及思路。 (本文根据百度资深研发工程师 杨延展 在2019年11月19日软件绿色联盟开发者大会发表的 《深度剖析 Paddle Lite 性能进化之路》 主题演讲整理而成。) Paddle Lite 简介 Paddle Lite 是百度自研的一款深度学习框架库,它的前身是 Paddle Mobile,自2019年升级至 Paddle Lite 的全新架构后,拥有了更广泛的适用平台,支持从移动端到服务端的各类场景。 重点发力的移动端中,安卓和IOS已同时覆盖CPU和GPU,而且在安卓方面已经覆盖了华为NPU。 提到 Paddle Lite 的作用,大家在工作和生活中接触较多的有人脸识别、图片、视频分辨率提升、物体检测与跟踪等深度学习的场景。 Paddle Lite 如何实现上述场景中提到的功能呢? 简单概括就是 Paddle Lite 通过解析、加载并运行 Paddle 训练的模型,并将模型结果展示到业务层。 Paddle