Galaxy：面向边缘大模型协同推理的分布式边缘智能系统

文摘科技 2024-06-18 12:00 广东

研究背景

基于Transformer架构的深度学习大语言模型（LLM）在人工智能领域表现出了卓越的性能。尽管这些庞大的模型最初诞生于云数据中心，它们很快就扩展到了边缘设备，并在网络边缘落地了一系列智能应用，包括家庭或个人AI助手、智能机器人等。

图1：基于Galaxy系统的家庭AI语音助手示意图。

目前，大多数基于Transformer的智能应用严重依赖云服务，实际的大规模模型推理在云数据中心进行，边缘设备仅部署代理来转发用户请求。然而，这种基于云的方法面临三个重要问题：（1）用户数据隐私问题：传输敏感信息到云端引发隐私担忧。（2）服务质量问题：广域网连接不可靠导致响应延迟不稳定。（3）云数据中心的负荷问题：海量边缘应用请求对主干网络和云数据中心造成巨大压力。

为了解决上述问题，在边缘设备上直接进行数据处理和推理，不仅减少了对云端服务的依赖，而且确保了数据的本地存储，有效避免了网络传输的需求，这种方案展现出了巨大的应用潜力。然而，Transformer推理的高计算强度和高资源需求对资源有限且不可扩展的边缘设备构成了巨大挑战。与此同时，我们发现在智能家居等常见的边缘环境中，同一用户或组织通常拥有多台富裕或闲置的边缘设备（如手机、笔记本和智能家居设备）。这种思路启发我们，将周边的边缘设备视作资源的扩展，通过实施分布式协作计算，不仅可以实现在边缘设备上对Transformer模型的高效推理，还能确保推理过程的低延迟，这一方案具有显著的实用价值和应用前景。

然而，利用协同边缘设备加速Transformer推理面临几个关键挑战：（1）如何在多个边缘设备之间分配稀疏的Transformer推理任务，尤其是单样本请求。（2）如何根据异构边缘设备的资源预算来定制工作负载分配。（3）如何在带宽受限的边缘环境中减少协同推理的延迟。为了解决这些挑战，本工作设计并搭建了资源高效的面向边缘端Transformer大语言模型推理的分布式边缘智能系统Galaxy。该系统通过整合异构边缘设备的资源，实现低延迟的Transformer推理，从而支持实时的本地智能服务。

系统设计概述

Galaxy是一个资源高效的边缘端协同推理计算系统，旨在同时利用多个异构边缘设备，实现低延迟的本地Transformer推理。下图展示了Galaxy系统的工作流程，包括三个主要阶段：预处理阶段、并行规划阶段和执行阶段。

图2：Galaxy系统工作流概览。

预处理阶段：

Galaxy Profiler使用测试数据在真实的待部署边缘设备上进行模拟推理过程，记录设备的计算能力、可用内存、设备间的网络带宽、目标Transformer模型的参数量信息以及前向传播产生的中间值等。这一信息采集过程在部署前离线完成，所采集的信息可以被缓存并重复使用。

并行规划阶段：

Galaxy系统采用了一种新颖的混合模型并行架构，结合了张量并行和序列并行两种技术来并行利用分布式边缘设备。Galaxy Planner将Galaxy Profiler所收集的信息作为输入，生成并行规划配置。该配置综合考虑了设备的资源异构性、内存预算和设备间的网络带宽，以最大限度地发挥边缘环境中有限的计算资源。

图3：混合模型并行架构示意图。

推理执行阶段：

Galaxy系统将Galaxy Planner生成的并行配置应用于目标模型和边缘设备上，进行并行推理系统的部署。部署完成后，系统将能够进行资源高效的边缘协同推理。然而，分布式推理不可避免地涉及张量通信操作，这在低带宽网络环境下会成为性能瓶颈。为了解决这个问题，Galaxy系统设计了一种新颖的基于矩阵分块的细粒度通信计算重叠优化，有效减少了额外通信开销带来的推理性能下降。

图4：基于矩阵分块的细粒度通信计算重叠示意图。

研究结果

我们在六种包含不同边缘设备组合的边缘集群环境下进行了实验。我们评估了五种流行的基于Transformer的边缘大模型：DistilBERT、BERT、GPT-2 Large、OPT-Large和OPT-extra Large，输入序列来自GLUE数据集。我们将Galaxy系统与两种最先进的模型并行方法Megatron-LM和Sequence Parallelism进行了对比。评估结果显示，Galaxy在各种网络环境中均保持了高性能，与基准方法相比，延迟减少了最多达46%。我们的系统在异构环境中也展现了强大的鲁棒性。Galaxy在异构边缘环境中表现出色，相比其他并行方法，推理延迟最多减少了2.5倍。欢迎阅读原文[1]了解更多实验结果。

图5：Galaxy系统在不同实验设置下都表现出了突出的性能。

图6：Galaxy系统在异构边缘集群环境下表现出了很好的自适应性。

总结

我们设计并实现一个资源高效的面向边缘端Transformer大语言模型推理的分布式边缘智能系统Galaxy，创新性地利用了混合模型并行架构来协同多个边缘设备。Galaxy系统设计了一种并行规划算法来生成并行配置，该算法综合考虑了设备的资源异构性、内存预算和网络带宽环境。为了克服边缘环境中带宽受限的挑战，Galaxy系统采用了基于矩阵分块的细粒度通信计算重叠优化，有效减少了额外通信开销带来的推理性能下降。

拓展阅读

边缘协同（Edge Collaboration）是一种新颖的边缘智能系统设计范式，旨在通过利用本地化边缘设备和集群，实现经济实惠、资源高效和灵活可伸缩的个性化人工智能服务。除了本工作Galaxy外，我们还进行了另一项基于边缘协同架构的研究工作——Asteroid，该工作探索了在边缘环境中利用多个分布式边缘设备进行深度神经网络训练，可应用于多设备协同联邦模型训练、边缘大模型协同微调等新兴场景。该研究文章已被ACM MobiCom 2024录用发表，欢迎感兴趣的读者参考论文[2]了解详情。

论文信息

[1] Shengyuan Ye, Jiangsu Du, Liekang Zeng, Wenzhong Ou, Xiaowen Chu, Yutong Lu, Xu Chen*, "Galaxy: A Resource-Efficient Collaborative Edge AI System for In-situ Transformer Inference".In IEEE International Conference on Computer Communications (INFOCOM), 2024. https://arxiv.org/abs/2405.17245.

[2] Shengyuan Ye, Liekang Zeng, Xiaowen Chu, Guoliang Xing, Xu Chen*, "Asteroid: Resource-Efficient Hybrid Pipeline Parallelism for Collaborative DNN Training on Heterogeneous Edge Devices".In ACM Annual International Conference On Mobile Computing And Networking (MOBICOM), 2024. https://dl.acm.org/doi/abs/10.1145/3636534.3649363.

写在最后

我们的文章可以转载了呢~欢迎转载与转发呦

想了解更多前沿科技与资讯？

点击上方入口关注我们！

欢迎点击右上方分享到朋友圈

香港中文大学（深圳）

网络通信与经济实验室

微信号 : ncel_cuhk

http://mp.weixin.qq.com/s?__biz=MzU5NDIyODY4Ng==&mid=2247489289&idx=1&sn=2f101553e60b0033d125ff2ecc6ebb59

网络通信与经济

介绍网络、通信和经济交叉领域的最新科研成果和活动 —香港中文大学（深圳）网络通信与经济学实验室

最新文章

基于年龄奖励机制: 提升信息的新鲜度

利用大语言模型进行差分隐私数据生成

以隐贝叶斯推理解释上下文学习

基于多主体动态博弈视角的深度神经网络训练优化

2024年夏季网络通信与经济学实验室（NCEL）研讨会

解耦知识蒸馏

如何激励去中心化系统的资源池化？

通过数据交易提升在线算法决策的公平性

模型间博弈提升大语言模型输出易读性

借助大语言模型评估文本信息

大语言模型挑战众包工人

基于联合选址和可修复库存模型的城市电车换电服务的规模化布局与运营研究

面向生产环境的大语言模型联邦学习

Galaxy：面向边缘大模型协同推理的分布式边缘智能系统

能量感知年龄优化：基于能量采集的多源更新网络系统中的AoI分析

差分隐私联邦学习中用户选择和隐私补偿机制设计

活动回顾｜李葆春教授：实证联邦学习的数据隐私保护

活动回顾｜文勇刚教授：GPU数据中心大规模深度学习负载调度

差分隐私在机器学习中的实施

联邦遗忘学习概述

神经网络中的特征学习

基于大语言模型的电力系统通用人工智能展望：理论与应用

离线强化学习概述

竞合：数据共享在电子商务中的新策略

众筹中的策略性定价与信息披露

联邦学习在无线网络中的异构用户自适应采样优化算法

对抗性机器学习中的博弈论

大语言模型的机制设计

如何让同行评审更加科学

联邦学习与模型服务提供共存：一种模型训练和模型推理联合优化方法

网络通信与经济实验室（NCEL）2023研讨会暨成立十五周年团建活动回顾

活动回顾 | 牛志升教授：突发流量下节能服务的最佳休眠策略

车对车通信下的信息机制设计

活动回顾 | 香港中文大学（深圳）深圳市群体智能驱动的低碳能源网络重点实验室揭牌仪式暨启动会成功举办

考虑数据新鲜度的移动群智感知激励机制

预测策略性储能行为

边缘内容缓存与分享的经济分析

隐私资源：如何在差分隐私联邦学习中合理分配

2023年夏季网络通信与经济学实验室（NCEL）研讨会

香港中文大学（深圳）黄建伟教授招聘博士生、博士后！

8月18日9:00，Junshan Zhang教授介绍热启动强化学习相关研究

喜讯 | IEEE TNSE 2022年度影响因子攀升至6.6！

喜讯 | 理工学院12位教授获Research.com评为其学术领域内2023顶尖科学家

当数据源耦合时，我们如何优化信息新鲜度？

高精度地图众包中高效车辆选择的轨迹穿透表征

基于模型分解训练的异构多模态联邦学习

基于排序特征学习的多智能体少样本感知

能源区块链系统中提升交易吞吐量的机制设计

基于众包数据标注的联邦学习激励机制设计

【讲座通知】Insights from the Editor-in-Chief: My Recent Experiences

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉