并行分割学习中的资源编排与调度优化

文摘科学 2024-07-10 12:28 陕西

论文分享

GenAINet通信大模型

分割学习（Split learning, SL）可以有效解决资源受限的设备在训练多参数神经网络（neutral networks, NN）过程中算力不足的问题，同时还可以和联邦学习无缝结合，保护用户隐私。得益于此，该技术有望在未来大模型的云边端部署中发挥重要作用。简而言之，SL将NN模型分成多个部分，允许客户端（Client）将最大的部分作为处理任务卸载给计算能力强大的协助设备（Helper），比如边缘设备等。在并行SL中，多个Helper可以处理一个或多个Client端的模型部分，因此，大大减少了模型的最大训练时间。在此背景下，来自University College Dublin & VistaMilk SFI与Delft University of Technology的研究团队讨论了如何高效编排分割学习的工作流，具体而言，研究了最小化训练时间导向下的Client-Helper分配和调度决策问题，提出了一种基于问题内在对称性特征的求解方案，该方案具备很好的可扩展性。仿真结果表明，该方案可以将训练时间缩短52.3%。

Workflow Optimization for Parallel Split Learning

Joana Tirana¹, Dimitra Tsigkari², George Iosifidis², Dimitris Chatzopoulos¹

¹School of Computer Science, University College Dublin & VistaMilk SFI, Ireland

²Delft University of Technology, The Netherlands

原文链接：

https://arxiv.org/abs/2402.10092

论文版权归属Proceedings of IEEE INFOCOM 2024及IEEE版权方，本文分享仅用于技术交流，未经许可禁止用于商业用途。

分割学习为资源受限的客户端设备提供了训练百万级参数神经网络的可能。具体而言，整个网络被分为三个部分，part1，part2，以及part3，其中part1和part3为神经网络的首部和尾部，part2为神经网络的重要部分（计算密集型），该部分可以借助Helper协助加速训练，part1和part3直接和训练样本交互，则放置在客户端。在传统的分割学习中，客户端共享一个part2，Helper先后和每一个客户端协作进行数据训练，这会导致训练时间非常长；在并行分割学习中，Helper分配给每个客户端不同版本的part2，允许客户端并行训练模型，进行模型更新。每轮训练结束后，所有的客户端同步各自的模型，多个Helper协作时可以进一步降低训练时间。如何高效地协调编排这些计算资源来进行并行分割学习值得研究。在此过程中，需要考虑每个参与者的计算资源和存储资源，以及Client到Helper之间的通信速率。

一、系统模型

考虑下图所述网络，网络中包含多个Client，如物联网或者手持设备等，多个Helper，如边缘算力设备、云端算力设备等，Client与Helper之间存在互不干扰的链路。考虑到硬件设备以及通信链路的差异性，Client之间存在异构性，具体表现在算力和存储能力的不同，同时不同链路之间的通信时延也不同。

图1 网络拓扑结构

本文不考虑分割层位置（对于不同设备，分割层位置可能不同）和训练超参数（包括批次大小以及学习率等）的影响。

二、批次训练过程

图2 样本训练流程

如上图所示，Client首先执行part1前向传播，然后将激活层参数传输给Helper，Helper收到参数后进行part2前向传播，紧接着将新激活层参数传回给Client，Client开始part3部分的前向传播，并计算损失。接下来，反向传播过程开始，流程上与前向传播类似。当所有批次训练过程都完成后，每部分模型参数采用FedAvg算法进行聚合。

三、资源编排调度问题求解

基于上述流程，每个批次训练的最大时延如下所示：

其中各符号的说明请参照图2，式中第一大项表示网络中Client侧的最长传输与处理时延，第二大项描述Helper端的最长处理时延。Client与Helper之间的配对以及每一个Helper中任务的调度顺序对上述时延有着直接影响。通过构建配对关系以及调度顺序与训练时延之间的关系，该问题被建模为一个整数线性规划问题。该问题被论证为NP-难问题。

研究人员考虑了将编排调度问题分解为两个子问题进行求解，如下图所示，其中子问题一为前向传播过程中的Client-Helper匹配问题以及Helper中的任务调度顺序优化问题，子问题二为反向传播过程中的任务调度顺序问题。

图3 优化问题求解思路

对于子问题一，研究人员采用交替乘子方向法来迭代寻找最佳的Client-Helper匹配方案以及Helper中的任务调度方案；对于子问题二，研究人员通过一种启发式迭代算法逐渐逼近最佳的Helper中反向传播任务的调度方案。

四、性能评估

在数据集与模型方面，研究人员采用了CIFAR-1数据集以及下述两种神经网络模型：1）ResNet101；2）VGG19。测试的硬件平台如下表所示，其中最后两个为Helper。

表1 硬件平台与单批样本平均训练时间

同时，在场景设计方案，研究人员主要考虑了两类场景，场景一聚焦于较低程度的设备资源异构性；场景二则考虑了设备资源的高度异构性。

图4 性能评估

上图比较了本文所提方案与基线方案的性能，对于基线方案，首先以随机方式决定Client-Helper的匹配（需要考虑内存的影响），然后以FCFS顺序调度任务。该基线可以看作是并行SL的简单实现，没有对分配或调度进行主动决策。可以观察到，相比于基线方案，本文所提方案可以将训练时延最大减低至52.3%。

五、总结

本文讨论了并行分割学习框架中Client-Helper之间的协作编排调度问题，该问题为NP难问题，通过问题分解并结合ADMM算法，文中给出了高效的Client-Helper匹配机制以及多个训练任务下的Helper调度顺序方案，该方案被验证可大幅度降低网络的训练时延。

GenAINet公众号简介

GenAINet公众号由IEEE Large Generative AI Models in Telecom (GenAINet) ETI成立，由GenAINet公众号运营团队负责维护并运行。

GenAINet公众号运营团队：

孙黎，彭程晖（华为技术有限公司）

杜清河，肖玉权，张朝阳（西安交通大学）

王锦光，俸萍（鹏城实验室）

编辑：肖玉权

校对：张朝阳

http://mp.weixin.qq.com/s?__biz=MzkxMTYzOTYzNw==&mid=2247484235&idx=1&sn=b17f33e1b9ec29ea2511e952b505f340

GenAINet通信大模型

本公众号是IEEE Large Generative AI Models in Telecom (GenAINet) ETI 的中文媒体平台，介绍通信大模型相关的研究进展、业界动态、技术活动等。

最新文章

AIGC逆生成：实现像素级一致的高保真视频通信

IEEE OJCOMS征稿启事：生成式AI与大模型增强的6G无线通信与感知

通信大模型研究论文集（V2.0）

生成式人工智能驱动的车辆网络：基础、框架和案例研究

打破学科边界，点亮通信未来——通信大模型社区上线

语义通信和知识学习的相互作用

【大咖观点】TelecomGPT: 电信领域的专属大模型

IEEE Networking Letters征稿启事：基于生成式AI与大模型的边缘智能

WirelessAgent: 面向智能无线网络的大模型智能体

6G：从连接泛在到智慧泛在

用生成式人工智能实现低碳智能物联网——基于大语言模型的讨论

GenAINet ETI 第四次会议成功召开

网络大语言模型：应用、使能技术和挑战

GenAINet ETI 2024第二季度Newsletter

AI模型边云协作框架：云端大模型与边缘小模型协同分布式训练和部署

生成式人工智能在先进无人机网络中的应用

【延期至8月31日】IEEE Networking Letters征稿启事：人工智能在6G网络中的应用

语义连续优化：一种生成式AI辅助的语义通信框架

【延期至8月20日】IEEE GLOBECOM 2024 Workshop征稿启事：多模态大语言模型对6G的影响

TelecomGPT：面向电信领域的大语言模型

IEEE GLOBECOM 2024 Workshop征稿启事：下一代智能无线应急通信

第四届通算一体网络理论与技术研讨会成功召开

【8月7日】第四届通算一体网络理论与技术研讨会

RF-Diffusion：面向射频信号的生成式扩散模型

迈向智能通信：大模型使能的语义通信

IEEE Networking Letters征稿启事：人工智能在6G网络中的应用

大模型驱动的生成式图像语义传输：计算视觉赋能6G时间敏感网络通信范式

IEEE GLOBECOM 2024 Workshop征稿启事：多模态大语言模型对6G的影响

CDDM: 无线通信的信道去噪扩散模型

并行分割学习中的资源编排与调度优化

IEEE WF-IoT 2024 Workshop征稿启事：生成式人工智能增强的物联网系统

生成扩散模型(GDM)在Wi-Fi网络性能优化中的应用

【6月28日】IEEE Singapore 6G Summit：探讨大模型时代的无线前沿技术

GenAINet ETI 第三次会议成功召开

IEEE ComSoc GenAINet ETI 研讨会：用大语言模型重新定义电信

孙凝晖院士讲座：人工智能与智能计算的发展

通过提示工程优化移动边缘AI生成一切(AIGX)服务：基础，框架和案例研究

基于生成式AI与强化学习的Wi-Fi网络通算一体化方案

将大语言模型推向6G边缘

IEEE Vehicular Technology Magazine征稿启事：生成式人工智能在未来车联网中的应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉