飞桨模型产线高性能推理、服务化部署、端侧部署能力详解与实战

企业 2024-10-31 19:02 北京

在 AI 应用的开发过程中，部署环节尤为关键。将训练好的模型以及多个模型之间的串联逻辑迅速且有效地整合到实际生产环境中，对于 AI 技术向可持续商业价值的转化具有深远意义。近期，PaddleX 团队发布了全新的 PaddleX 3.0-beta1版本，该版本充分考虑到部署环节的重要性，在部署方面进行了大量的功能升级。具体而言，PaddleX 3.0-beta1在高性能推理、服务化部署以及端侧部署三大核心领域分别提供了适应实际需求的解决方案，致力于满足用户在多样化应用场景下的部署需求。下面，我们对这些解决方案逐一进行说明。

高性能推理

▎背景解读

在实际生产环境中，许多应用对部署策略的性能指标（尤其是响应速度）有着较严苛的标准，以确保系统的高效运行与用户体验的流畅性。由于深度学习模型在推理及前后处理过程中常常需要进行复杂的计算，模型的端到端推理（包括模型推理与前后处理）速度往往是影响系统性能的关键因素。为此，PaddleX 推出了高性能推理插件，旨在实现对模型推理端到端推理流程的显著提速。

▎功能介绍

高性能推理插件集成了全场景高性能 AI 部署工具 FastDeploy 的核心能力，对模型推理性能进行了深度优化。

高性能推理插件可以根据当前运行环境以及预先测量的性能指标，自动选择最优推理配置，使用户无需关注细节设置，进而省去了传统部署流程中费时费力的配置调优步骤。
高性能推理插件对模型的前后处理流程进行了优化，使用 C++实现前后处理算子串联逻辑，并对部分算子做融合优化处理，从而进一步提升性能。

启用高性能推理插件后，模型使用 GPU 推理的耗时可缩短39%，使用 CPU 推理的耗时平均可缩短45%。对于部分模型，推理耗时可缩短80%以上。部分模型使用高性能推理插件前后推理耗时对比如下：

以上测试使用1块 Intel Xeon Gold 5117 CPU 与1块 NVIDIA Tesla T4 GPU，仅记录模型对于单张输入图像的推理耗时（不含前后处理耗时）。

▎使用方法

启用高性能推理插件十分方便：用户只需在星河社区免费获取序列号，然后在使用 PaddleX CLI、Python API 时，打开 use_hpip 开关并指定序列号即可。CLI 和 Python API 的例子分别如下：

paddlex \   --pipeline OCR \   --input https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_001.png \   --device gpu:0 \   --use_hpip \   --serial_number {序列号}

from paddlex import create_pipeline
pipeline = create_pipeline(    pipeline="OCR",    use_hpip=True,    hpi_params={"serial_number": "{序列号}"},)
 output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_001.png")

更多细节请参考 PaddleX 官方仓库高性能推理相关文档：

https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-beta1/docs/pipeline_deploy/high_performance_inference.md

服务化部署

▎背景解读

在大规模应用中，将模型产线部署为服务是一种常见且高效的策略，这种策略充分发挥了服务作为独立单元的优势，使得各个服务能够独立进行开发和扩展，并通过网络请求与其它服务或系统组件实现交互。服务化部署使得系统内各模块之间实现了有效的解耦，从而显著提升了系统的灵活性、扩展性和维护性。针对该需求，PaddleX 基于 FastAPI 框架实现了简单易用的产线服务化部署方案。

▎功能介绍

该方案为服务接受的请求与返回的响应内容进行详细的数据校验，增强服务的可靠性；
该方案利用 Python 基于协程的异步特性以更高效地处理 I/O 密集型任务，这提升了服务处理并发请求时的性能。目前，PaddleX 已集成的所有官方产线均支持服务化部署。

▎使用方法

与高性能推理一样，PaddleX 对服务化部署能力进行了插件化，将其作为可选功能，以降低 PaddleX 核心部分的安装成本。使用 PaddleX CLI 安装服务化部署插件：

paddlex --install serving

安装完成后，通过 PaddleX CLI，用户可以一键将产线部署成服务，例如：

paddlex --serve --pipeline OCR

服务启动成功后，可以看到类似以下展示的信息：

INFO:     Started server process [63108]INFO:     Waiting for application startup.INFO:     Application startup complete.INFO:     Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)

服务启动后，用户可参考 PaddleX 产线使用教程中的 API 参考与多语言调用示例（覆盖 Python、C++、Java、Go、C#、JavaScript、PHP 等7种语言）对服务进行调用。Python 和 C#的调用示例分别如下：

import base64import requests
API_URL = "http://localhost:8080/ocr" # 服务URLimage_path = "./demo.jpg"output_image_path = "./out.jpg"
# 对本地图像进行Base64编码with open(image_path, "rb") as file:    image_bytes = file.read()    image_data = base64.b64encode(image_bytes).decode("ascii")
payload = {"image": image_data}  # Base64编码的文件内容或者图像URL
# 调用APIresponse = requests.post(API_URL, json=payload)
# 处理接口返回数据assert response.status_code == 200result = response.json()["result"]with open(output_image_path, "wb") as file:    file.write(base64.b64decode(result["image"]))print(f"Output image saved at {output_image_path}")print("\nDetected texts:")print(result["texts"])

using System;using System.IO;using System.Net.Http;using System.Net.Http.Headers;using System.Text;using System.Threading.Tasks;using Newtonsoft.Json.Linq;
class Program{static readonly string API_URL = "http://localhost:8080/ocr";static readonly string imagePath = "./demo.jpg";static readonly string outputImagePath = "./out.jpg";
static async Task Main(string[] args)    {var httpClient = new HttpClient();
// 对本地图像进行Base64编码byte[] imageBytes = File.ReadAllBytes(imagePath);string image_data = Convert.ToBase64String(imageBytes);
var payload = new JObject{ { "image", image_data } }; // Base64编码的文件内容或者图像URLvar content = new StringContent(payload.ToString(), Encoding.UTF8, "application/json");
// 调用API        HttpResponseMessage response = await httpClient.PostAsync(API_URL, content);        response.EnsureSuccessStatusCode();
// 处理接口返回数据string responseBody = await response.Content.ReadAsStringAsync();        JObject jsonResponse = JObject.Parse(responseBody);
string base64Image = jsonResponse["result"]["image"].ToString();byte[] outputImageBytes = Convert.FromBase64String(base64Image);
        File.WriteAllBytes(outputImagePath, outputImageBytes);        Console.WriteLine($"Output image saved at {outputImagePath}");        Console.WriteLine("\nDetected texts:");        Console.WriteLine(jsonResponse["result"]["texts"].ToString());    }}

更多细节请参考 PaddleX 官方仓库服务化部署相关文档：

https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-beta1/docs/pipeline_deploy/service_deploy.md

端侧部署

▎背景解读

端侧部署是指将深度学习模型直接部署在用户的终端设备或边缘服务器上。这种部署方式对于需要快速响应、减少数据传输延迟、保护用户隐私以及在网络连接不稳定的环境中保持应用运行的应用场景尤为重要。随着移动设备性能的提升和深度学习模型的优化，端侧部署已成为实现人工智能应用落地的关键技术之一。

▎功能介绍

PaddleX 提供基于 Paddle Lite 框架实现的一系列 Android demo，帮助用户在端侧 ARM CPU 和 Mali/Adreno GPU（OpenCL）上部署模型产线。Paddle Lite 框架拥有优秀的加速、优化策略及实现，包含量化、子图融合、Kernel 优选等优化手段。优化后的模型更轻量级，耗费资源更少，并且执行速度也更快。目前端侧部署示例覆盖4条产线、8个模型，各 demo 均配套有完善的使用文档。目前已支持端侧部署的产线和模型如下：

▎使用方法

用户在 Windows、Mac 或 Linux 系统的设备上连接 Android 手机后，仅需三步即可完成端侧部署。以通用 OCR 产线为例：

1. 克隆 Paddle-Lite-Demo 仓库的 feature/paddle-x 分支到 PaddleX-Lite-Deploy 目录。

git clone -b feature/paddle-x https://github.com/PaddlePaddle/Paddle-Lite-Demo.git PaddleX-Lite-Deploy

2. 下载压缩包，将压缩包放到指定解压目录，切换到指定解压目录后执行解压命令。

# 1. 切换到指定解压目录cd PaddleX-Lite-Deploy/ocr/android/shell/ppocr_demo
# 2. 执行解压命令unzip ocr.zip

3. 执行部署步骤

# 1. 下载需要的 Paddle Lite 预测库cd PaddleX-Lite-Deploy/libssh download.sh
# 2. 下载 paddle_lite_opt 工具优化后的模型文件cd ../ocr/assetssh download.sh PP-OCRv4_mobile # 3. 完成可执行文件的编译cd ../android/shell/ppocr_demosh build.sh
# 4. 预测sh run.sh PP-OCRv4_mobile

执行完上述三个步骤后，可以得到文本检测结果和文本识别结果。

文本检测结果：

文本识别结果：

The detection visualized image saved in ./test_img_result.jpg0       纯臻营养护发素  0.9937061       产品信息/参数   0.9912242       （45元/每公斤，100公斤起订）    0.9388933       每瓶22元，1000瓶起订）  0.9883534       【品牌】：代加工方式/OEMODM     0.975575       【品名】：纯臻营养护发素        0.9869146       ODMOEM  0.9298917       【产品编号】：YM-X-3011 0.9641568       【净含量】：220ml       0.9764049       【适用人群】：适合所有肤质      0.98794210      【主要成分】：鲸蜡硬脂醇、燕麦β-葡聚    0.96831511      糖、椰油酰胺丙基甜菜碱、泛醒    0.94153712      （成品包材）    0.97479613      【主要功能】：可紧致头发磷层，从而达到  0.98879914      即时持久改善头发光泽的效果，给干燥的头  0.98954715      发足够的滋养    0.998413

若想进一步了解端侧部署，如代码介绍，代码讲解，以及如何更新模型、预测库等，请参考 PaddleX 端侧部署文档：

https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-beta1/docs/pipeline_deploy/edge_deploy.md

精彩课程预告

为了帮助您迅速且深入地了解飞桨低代码开发工具 PaddleX 3.0-beta1最新版本的部署能力，并熟练掌握模型产线部署技巧，百度研发工程师将于11月7日（周四）19:00，为您深度解析 PaddleX 3.0-beta1在部署方面的功能、优势与技巧。此外，我们还将陆续开设针对高性能推理、服务化部署、端侧部署的产业场景实战营，手把手带您体验从数据准备、数据校验、模型训练、性能优化到模型部署的完整开发流程。机会难得，立即扫描下方二维码预约吧！

百度AI

百度AI最新产品、产业案例、实时资讯在这里。百度是为数不多进行全栈布局的人工智能公司。从高端芯片昆仑芯，到飞桨深度学习框架，再到文心预训练大模型，各个层面都有领先业界的关键自研技术，可以实现端到端优化，大幅提升效率。

最新文章

Enjoy AI，2025年飞桨星河社区项目开发赛季开启！

每周一度｜百度成功点亮昆仑芯三代万卡集群，将于近日点亮3万卡集群；百度Apollo产品功能安全水平再获国际权威认证

每周一度｜AI应用看成都，文心大模型助力GenAI新时代；大模型卷出空间智能新花样？AI眼镜“Done”

“紫禁城里过大年”正式开幕！春节来打卡宫廷风AI写真

苏州漳缎AI创作模型获评2024年全省“博物知旅”主题活动优秀案例

春节如何游乡村？百度“AI游乡村”智能体给你支招啦～

一张照片生成拜年视频，百度智能云曦灵数字人功能上新！

智汇香江，桨启新程！文心中国行首次落地香港，加速大湾区产业智能化

“智聚京华，策动新章”文心中国行落地北京，共话大模型产业未来

每周一度｜百强榜官宣，2024年度星河产业应用创新奖揭晓；美的与百度本地生活达成战略合作，超2万家门店将入驻本地生活

破解上亿数据检索难题，AI重塑法律超级大脑

百强榜官宣！2024年度星河产业应用创新奖揭晓

文心中国行首次抵港！1月21日相约香港，共建大模型产业应用生态圈

让AI无处不在，无界X系列轻薄本将预装文心一言

每周一度｜百度捐赠100万元及应急物资，驰援西藏日喀则地震灾区；Questel：百度深度学习专利申请量位居全球第一

文心中国行落地武汉，共绘大模型产业应用新蓝图！

飞桨AI for Science课程表｜前沿讲座系列课程预告（四）

他们雇文心一言：打杂、赚钱、做小说家

每周一度｜百度沈抖：大模型为能源行业发展带来历史性机遇和结构性变革；落地厦门！百度飞桨人工智能产业赋能中心再添一城

落地厦门！百度飞桨人工智能产业赋能中心再添一城

效率提升300%！文心一言与辞海强强结合，推出智能知识审校系统“辞文”

东方智媒城与百度共建文心大模型数据生态中心，推动产业集群全链路协同

人工智能+文旅：文心大模型与东方明珠塔推出全国首个地标文旅智能体

盘点2024：这一年，我们这样走过

“智惠万企—文心赋能中小企业专项行动计划”正式发布并启动招募

每周一度｜央视《对话》直击，百度吴甜谈大模型产业落地；百度智能云×中国中车：大模型领航，共驭数智快车道

今晚开播｜“北辰之夜·2025科学文化跨年演讲”陪你一起迎接新年

央视《对话》直击 | 百度吴甜谈大模型产业落地

百度AICA第八期毕业典礼举行，79名新晋“AI架构师”顺利拿证

大模型区域落地再加速！“文心中国行”走进广州

百度助力视障IT从业者，文心快码上线无障碍版本，用科技照亮新选择

每周一度｜辽宁省与百度达成战略合作；国家电网携手百度，打造电力行业大模型应用示范

人民日报点赞百度AI：《竞技体育有了“智慧教练”》

百度人工智能技术助力“2024年度最具幸福感城市” 调查推选活动

飞桨大模型Unified Checkpoint技术加速模型存储95%，节省空间78.5%

PaddleX上线小目标检测模型产线，支持遥感分析、智能监控、智慧交通等领域高效应用

大学生做得好不好小学生来pick，2024 C4-AI总决赛在中华世纪坛圆满落幕

每周一度｜2024擎舵AI创意大赛圆满落幕；拓宽内容商业化边界，百度助力优质内容多元变现

文心一言×财新通联合会员｜智阅财新，洞见未来

下一站，广州！12月19日文心中国行与您共建大模型产业应用生态圈

飞桨出海助力智利企业Simon9精准解决包装行业质检难题，生产损失降低90%

每周一度｜百度副总裁陈洋：开发全流程进入智能体时代，又快又好又安全；百度袁佛玉：大模型将打开企业价值跃升历史窗口

学校新来了一位AI作文老师：能看、会评、还教改写

飞桨AI for Science课程表｜前沿讲座系列课程预告（第二期）

文心一言×三联中读联合会员｜左手滚烫新知，右手前沿智能

文心一言，中国生成式AI产品网民使用率第一！

新功能来了！会自己搜素材的AI写作

PaddleX上线多标签分类模型产线，高效支持图像识别、智能监控、工业质检等领域应用

每周一度｜首个大模型平台技术评估报告：第一；百度智能云发布行业首个空间智能解决方案

PaddleX上线人脸定位与识别端到端模型产线，为安全监控、身份认证、智能家居等领域保驾护航

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉