飞桨PaddleX高性能推理、服务化部署、端侧部署能力详解与实战

科技 2024-10-31 19:21 北京

在 AI 应用的开发过程中，部署环节尤为关键。将训练好的模型以及多个模型之间的串联逻辑迅速且有效地整合到实际生产环境中，对于 AI 技术向可持续商业价值的转化具有深远意义。近期，PaddleX 团队发布了全新的 PaddleX 3.0-beta1版本，该版本充分考虑到部署环节的重要性，在部署方面进行了大量的功能升级。具体而言，PaddleX 3.0-beta1 在高性能推理、服务化部署以及端侧部署三大核心领域分别提供了适应实际需求的解决方案，致力于满足用户在多样化应用场景下的部署需求。下面，我们对这些解决方案逐一进行说明。

高性能推理

背景解读

在实际生产环境中，许多应用对部署策略的性能指标（尤其是响应速度）有着较严苛的标准，以确保系统的高效运行与用户体验的流畅性。由于深度学习模型在推理及前后处理过程中常常需要进行复杂的计算，模型的端到端推理（包括模型推理与前后处理）速度往往是影响系统性能的关键因素。为此，PaddleX 推出了高性能推理插件，旨在实现对模型推理端到端推理流程的显著提速。

功能介绍

高性能推理插件集成了全场景高性能AI部署工具FastDeploy的核心能力，对模型推理性能进行了深度优化。

高性能推理插件可以根据当前运行环境以及预先测量的性能指标，自动选择最优推理配置，使用户无需关注细节设置，进而省去了传统部署流程中费时费力的配置调优步骤。
高性能推理插件对模型的前后处理流程进行了优化，使用 C++ 实现前后处理算子串联逻辑，并对部分算子做融合优化处理，从而进一步提升性能。

启用高性能推理插件后，模型使用 GPU 推理的耗时可缩短 39%，使用 CPU 推理的耗时平均可缩短 45%。对于部分模型，推理耗时可缩短 80% 以上。部分模型使用高性能推理插件前后推理耗时对比如下：

以上测试使用 1 块 Intel Xeon Gold 5117 CPU 与 1 块 NVIDIA Tesla T4 GPU，仅记录模型对于单张输入图像的推理耗时（不含前后处理耗时）。

使用方法

启用高性能推理插件十分方便：用户只需在星河社区免费获取序列号，然后在使用 PaddleX CLI、Python API 时，打开use_hpip开关并指定序列号即可。CLI 和 Python API 的例子分别如下：

paddlex \ --pipeline OCR \ --input https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_001.png \ --device gpu:0 \ --use_hpip \ --serial_number {序列号}

from paddlex import create_pipeline
pipeline = create_pipeline(    pipeline="OCR",    use_hpip=True,    hpi_params={"serial_number": "{序列号}"},)
 output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_001.png")

更多细节请参考PaddleX官方仓库高性能推理相关文档：

https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-beta1/docs/pipeline_deploy/high_performance_inference.md

服务化部署

背景解读

在大规模应用中，将模型产线部署为服务是一种常见且高效的策略，这种策略充分发挥了服务作为独立单元的优势，使得各个服务能够独立进行开发和扩展，并通过网络请求与其它服务或系统组件实现交互。服务化部署使得系统内各模块之间实现了有效的解耦，从而显著提升了系统的灵活性、扩展性和维护性。针对该需求，PaddleX 基于 FastAPI 框架实现了简单易用的产线服务化部署方案。

功能介绍

该方案为服务接受的请求与返回的响应内容进行详细的数据校验，增强服务的可靠性；
该方案利用 Python 基于协程的异步特性以更高效地处理 I/O 密集型任务，这提升了服务处理并发请求时的性能。目前，PaddleX 已集成的所有官方产线均支持服务化部署。

使用方法

与高性能推理一样，PaddleX 对服务化部署能力进行了插件化，将其作为可选功能，以降低 PaddleX 核心部分的安装成本。使用 PaddleX CLI 安装服务化部署插件：

paddlex --install serving

安装完成后，通过 PaddleX CLI，用户可以一键将产线部署成服务，例如：

paddlex --serve --pipeline OCR

服务启动成功后，可以看到类似以下展示的信息：

INFO:     Started server process [63108]INFO:     Waiting for application startup.INFO:     Application startup complete.INFO:     Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)

服务启动后，用户可参考 PaddleX 产线使用教程中的 API 参考与多语言调用示例（覆盖 Python、C++、Java、Go、C#、JavaScript、PHP 等 7 种语言）对服务进行调用。Python 和 C# 的调用示例分别如下：

import base64import requests
API_URL = "http://localhost:8080/ocr" # 服务URLimage_path = "./demo.jpg"output_image_path = "./out.jpg"
# 对本地图像进行Base64编码with open(image_path, "rb") as file:    image_bytes = file.read()    image_data = base64.b64encode(image_bytes).decode("ascii")
payload = {"image": image_data}  # Base64编码的文件内容或者图像URL
# 调用APIresponse = requests.post(API_URL, json=payload)
# 处理接口返回数据assert response.status_code == 200result = response.json()["result"]with open(output_image_path, "wb") as file:    file.write(base64.b64decode(result["image"]))print(f"Output image saved at {output_image_path}")print("\nDetected texts:")print(result["texts"])

using System;using System.IO;using System.Net.Http;using System.Net.Http.Headers;using System.Text;using System.Threading.Tasks;using Newtonsoft.Json.Linq;
class Program{static readonly string API_URL = "http://localhost:8080/ocr";static readonly string imagePath = "./demo.jpg";static readonly string outputImagePath = "./out.jpg";
static async Task Main(string[] args)    {var httpClient = new HttpClient();
// 对本地图像进行Base64编码byte[] imageBytes = File.ReadAllBytes(imagePath);string image_data = Convert.ToBase64String(imageBytes);
var payload = new JObject{ { "image", image_data } }; // Base64编码的文件内容或者图像URLvar content = new StringContent(payload.ToString(), Encoding.UTF8, "application/json");
// 调用API        HttpResponseMessage response = await httpClient.PostAsync(API_URL, content);        response.EnsureSuccessStatusCode();
// 处理接口返回数据string responseBody = await response.Content.ReadAsStringAsync();        JObject jsonResponse = JObject.Parse(responseBody);
string base64Image = jsonResponse["result"]["image"].ToString();byte[] outputImageBytes = Convert.FromBase64String(base64Image);
        File.WriteAllBytes(outputImagePath, outputImageBytes);        Console.WriteLine($"Output image saved at {outputImagePath}");        Console.WriteLine("\nDetected texts:");        Console.WriteLine(jsonResponse["result"]["texts"].ToString());    }}

更多细节请参考PaddleX官方仓库服务化部署相关文档：

https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-beta1/docs/pipeline_deploy/service_deploy.md

端侧部署

背景解读

端侧部署是指将深度学习模型直接部署在用户的终端设备或边缘服务器上。这种部署方式对于需要快速响应、减少数据传输延迟、保护用户隐私以及在网络连接不稳定的环境中保持应用运行的应用场景尤为重要。随着移动设备性能的提升和深度学习模型的优化，端侧部署已成为实现人工智能应用落地的关键技术之一。

功能介绍

PaddleX 提供基于Paddle Lite框架实现的一系列 Android demo，帮助用户在端侧 ARM CPU 和 Mali/Adreno GPU（OpenCL）上部署模型产线。Paddle Lite 框架拥有优秀的加速、优化策略及实现，包含量化、子图融合、Kernel 优选等优化手段。优化后的模型更轻量级，耗费资源更少，并且执行速度也更快。目前端侧部署示例覆盖 4 条产线、8 个模型，各 demo 均配套有完善的使用文档。目前已支持端侧部署的产线和模型如下：

使用方法

用户在 Windows、Mac 或 Linux 系统的设备上连接 Android 手机后，仅需三步即可完成端侧部署。以通用OCR产线为例：

1. 克隆 Paddle-Lite-Demo 仓库的 feature/paddle-x 分支到 PaddleX-Lite-Deploy 目录。


git clone -b feature/paddle-x https://github.com/PaddlePaddle/Paddle-Lite-Demo.git PaddleX-Lite-Deploy

2. 下载压缩包，将压缩包放到指定解压目录，切换到指定解压目录后执行解压命令。

# 1. 切换到指定解压目录cd PaddleX-Lite-Deploy/ocr/android/shell/ppocr_demo
# 2. 执行解压命令unzip ocr.zip

3. 执行部署步骤

# 1. 下载需要的 Paddle Lite 预测库cd PaddleX-Lite-Deploy/libssh download.sh
# 2. 下载 paddle_lite_opt 工具优化后的模型文件cd ../ocr/assetssh download.sh PP-OCRv4_mobile # 3. 完成可执行文件的编译cd ../android/shell/ppocr_demosh build.sh
# 4. 预测sh run.sh PP-OCRv4_mobile

执行完上述三个步骤后，可以得到文本检测结果和文本识别结果。

文本检测结果：

文本识别结果：

The detection visualized image saved in ./test_img_result.jpg0       纯臻营养护发素  0.9937061       产品信息/参数   0.9912242       （45元/每公斤，100公斤起订）    0.9388933       每瓶22元，1000瓶起订）  0.9883534       【品牌】：代加工方式/OEMODM     0.975575       【品名】：纯臻营养护发素        0.9869146       ODMOEM  0.9298917       【产品编号】：YM-X-3011 0.9641568       【净含量】：220ml       0.9764049       【适用人群】：适合所有肤质      0.98794210      【主要成分】：鲸蜡硬脂醇、燕麦β-葡聚    0.96831511      糖、椰油酰胺丙基甜菜碱、泛醒    0.94153712      （成品包材）    0.97479613      【主要功能】：可紧致头发磷层，从而达到  0.98879914      即时持久改善头发光泽的效果，给干燥的头  0.98954715      发足够的滋养    0.998413

若想进一步了解端侧部署，如代码介绍，代码讲解，以及如何更新模型、预测库等，请参考 PaddleX 端侧部署文档：

https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-beta1/docs/pipeline_deploy/edge_deploy.md

精彩课程预告

为了帮助您迅速且深入地了解飞桨低代码开发工具PaddleX 3.0-beta1最新版本的部署能力，并熟练掌握模型产线部署技巧，百度研发工程师将于11月7日（周四）19：00，为您深度解析PaddleX 3.0-beta1在部署方面的功能、优势与技巧。此外，我们还将陆续开设针对高性能推理、服务化部署、端侧部署的产业场景实战营，手把手带您体验从数据准备、数据校验、模型训练、性能优化到模型部署的完整开发流程。机会难得，立即扫描下方二维码预约吧！

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

飞桨PaddlePaddle

源于产业实践的开源深度学习平台

最新文章

飞桨PP系列模型上新！PP-DocBee文档图像理解的新‘蜂’向标！

盘点2024：这一年，我们这样走过

效率提升300%！文心一言与辞海强强结合，推出智能知识审校系统“辞文”

正在报名！文心中国行走进武汉，共探大模型时代产业新机遇

“智惠万企—文心赋能中小企业专项行动计划”正式发布并启动招募

百度AICA第八期正式收官 79名首席“AI架构师”毕业执桨起航

百度与南京市鼓楼区共建江苏首个飞桨人工智能产业赋能中心

文心中国行再聚鹭岛！厦门飞桨赋能中心启航

大模型助力教师提效创新：百名教师齐聚百度飞桨（厦门）人工智能产业赋能中心！

飞桨扬帆智海，大湾区杯AI For Science科技竞赛圆满完赛

大模型区域落地再加速！“文心中国行”走进广州

大模型技术沙龙：行业深度融合与创新路径探索

大学生做得好不好小学生来pick，2024 C4-AI总决赛在中华世纪坛圆满落幕

飞桨大模型Unified Checkpoint技术加速模型存储95%，节省空间78.5%

一亿中流加入飞桨技术伙伴计划，“AI+营销”实现智能化精准拓客

飞桨AI for Science课程表｜前沿讲座系列课程预告（三）

PaddleX上线小目标检测模型产线，支持遥感分析、智能监控、智慧交通等领域高效应用

飞桨教师风采｜李彝利：基于飞桨的校企协同AI创新人才培养模式探索

下一站，广州！12月19日文心中国行与您共建大模型产业应用生态圈

飞桨星河社区六周年｜学练进阶·技术畅谈，一起并肩前行

第六届CECC大会圆满落幕，大模型技术引领教育改革与创新

学校新来了一位AI作文老师：能看、会评、还教改写

飞桨出海助力智利企业Simon9精准解决包装行业质检难题，生产损失降低90%

第六届CECC中国计算机教育大会百度“大模型技术创新与教育实践”论坛来啦

飞桨AI for Science课程表｜前沿讲座系列课程预告（二）

PaddleX 上线多标签分类模型产线，高效支持图像识别、智能监控、工业质检等领域应用

FlashRAG-Paddle | 基于PaddleNLP的高效开发与评测RAG框架

重磅！飞桨开源社区携手百度开源办公室，为开源贡献者送福利！

“未来之后”AI4S第三届国际高峰论坛报名｜诺贝尔奖得主、五位院士、顶尖专家学者与企业领袖齐聚，分享前沿趋势及领域成果

飞桨PaddleScience与北大研究会开展科学计算训练营

百度飞桨联动香港教育大学AIREA，共话AI+教育发展新趋势

PaddleX 上线人脸定位与识别端到端模型产线，为安全监控、身份认证、智能家居等领域保驾护航

大模型时代下的高等教育转型——百度领航AI通识课程建设

「体验官招募」多模态大模型开发套件PaddleMIX开发项目挑战

基于PP-ShiTuv2新增PaddleX图像识别模型产线，显著提升商品识别等细粒度开放域产业场景检索性能

一束电力智能之光，点亮“星河”应用创新未来

百度文心智能体技术获2024世界互联网大会领先科技奖

2024大湾区科学论坛举行，百度吴甜解读大模型如何重塑产业智能引擎

官方带队实测，阶梯式解锁飞桨框架3.0能力新特性，轻松上手！

飞桨AI for Science课程表｜前沿讲座系列课程预告

PaddleClas 2.6 发布，新增细粒度商品识别、特色多标签分类等前沿算法和检索能力！

AI少年科创营：学而思与百度飞桨携手开启青少年AI科普之旅

百度王海峰：文心一言用户规模达4.3亿

打造没有围墙的学校，百度世界2024发布科技馆智能体

文心iRAG和无代码“秒哒”发布！李彦宏：即将迎来AI应用的群星闪耀时刻

太好了支持多比例出图！新媒体人有救了！

飞桨PaddleScience亮相DACOMA-24，助力科学计算新探索

PaddleSeg发布图像异常检测高精度模型STFPM，无监督异常检测算法赋能产业升级

百度联合学界打造国内最新AI for Science系列课程

百度升级AI for Science共创计划，携手学者共研顶尖学术成果

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉