荐读 | AI模型边云协作框架：云端大模型与边缘小模型协同分布式训练和部署

文摘 2024-08-28 18:53 重庆

摘要：

生成式人工智能（Generative Artificial Intelligence, GenAI）通过内容生成为用户提供多样化的服务，逐渐成为未来网络服务的关键组成部分。然而，训练和部署大型人工智能模型往往伴随着巨大的计算和通信开销。此外，依赖云端的生成任务需要高性能计算设施和远程访问能力，这给集中式AI服务带来了严峻的挑战。因此，亟需一种分布式服务架构，将部分任务从云端迁移至边缘，以实现更私密、实时且个性化的用户体验。

本文受Pathways和混合专家模型（MoE）启发，提出了一种自底向上的云端大模型（Big AI Model, BAIM）与边缘小模型协同工作架构，并设计了一个分布式训练框架与任务驱动的部署方案，旨在高效提供原生生成式AI服务。该框架能够实现智能协同、增强系统适应性、收集边缘知识，并平衡边缘和云端的负载。通过一个图像生成的案例，验证了该框架的有效性。最后，本文概述了进一步利用边缘与云协同潜力的研究方向，为本地生成式AI和BAIM应用奠定了基础。

引言

生成式AI技术近年来在自然语言处理和计算机视觉领域取得了显著进展。例如，文本生成模型（如GPT）和图像生成模型（如DALL-E）在处理复杂生成任务时展现出惊人的效果。然而，这些模型通常庞大，需要大量计算资源与存储能力，因此多依赖于资源丰富的云端环境。然而，这种集中式云服务的模型由于需要消耗大量计算和通信资源，带来了巨大的代价。

随着6G通信网络从连接智能逐步迈向协同智能，云端大模型（BAIM）与边缘小模型的协同服务成为了新的研究热点。在未来的系统中，云服务器通过集成多个任务的边缘小模型来维护统一的BAIM。训练完成后，BAIM可以拆分为针对具体任务的小模型，从而实现高效的边缘部署，并交付高性能、低延迟的原生生成式AI服务。

要解决适应性、知识获取及集中学习开销等问题，需要一个可伸缩的、具备分布式模型训练机制的BAIM架构。

多任务与跨场景适应性：统一的BAIM必须具备应对多任务及多样化用户需求的能力。在现实中，边缘节点在通信、计算与存储能力方面表现出显著异质性，且节点之间的连接不稳定，因此BAIM必须具备跨场景、跨节点的动态适应性。

大规模知识获取：通过边缘模型的局部智能汇集与云端的全局知识整合，BAIM能够在多个场景中实现深刻的洞察并做出更为可靠的决策。

集中式学习的巨大开销：集中式BAIM的训练往往面临着存储、模型参数缓存及计算成本日益增长的压力。通过转向分布式训练模式，利用边缘计算资源可实现更加环保且具成本效益的解决方案。

分布式部署生成式AI模型至边缘服务是另一研究重点。通过将数据处理迁移至更接近源头的边缘节点，显著降低延迟、减少带宽使用，并提升系统效率和用户体验。

数据安全：部署本地生成式AI可以将敏感数据保存在本地，减少了隐私泄露的风险。

响应时效性：与远程云服务相比，边缘服务依赖短距离通信，能够提供更低延迟的响应。

个性化服务：边缘服务器可以通过微调任务特定的轻量级模型，提供更为个性化的服务。

为了在6G网络中同时提升用户的QoE和QoS，结合BAIMs和边缘服务变得尤为重要。本文提出了一种集成原生GenAI和基于云的BAIM的协作方案，作为潜在的解决途径。我们首先分析了当前边缘云协作中人工智能的训练和部署策略，并揭示了其局限性，随后总结了限制BAIM分布式训练和本地GenAI部署的挑战。在此基础上，我们提出了一个自下而上的BAIM架构，结合分布式训练框架以及面向任务的部署方案。通过图像生成的案例研究，我们展示了该框架的效果，并展望了如何最大化本地GenAI与BAIM合作的未来研究方向。

边云协同下的模型训练和部署概述

在本节中，我们概述了3GPP SA1 Release 18中探讨的边缘云协作下的AI模型训练和部署框架。如图1所示，这些分布式AI框架包括数据和模型的分布与共享，通常采用模型极简主义和压缩技术，如知识蒸馏(KD)，其他框架还包括模型聚合（如联邦学习，FL）和模型拆分（如分割学习，SL）。我们将这些框架与表1中提出的自底向上的BAIM架构进行了对比，强调了现有框架的局限性，并总结了阻碍BAIM分布式训练和部署的主要挑战。

图1 通过云边缘协作训练和部署AI模型的三类框架

A 数据/模型的分布与共享

该框架通过将从边缘节点收集的原始训练数据共享到云端来进行模型训练，然后将训练好的模型分发到边缘节点用于推理任务。为了更好地应对边缘节点在推理过程中面临的计算和通信限制，框架使用了模型压缩与极简主义等高效技术。模型极简主义通过设计和训练较为简单的模型来提高效率，而压缩技术则在训练后减少模型的大小，从而加快运行速度。常见的压缩技术包括剪枝、量化、低秩近似和知识蒸馏。压缩GenAI模型的挑战在于保持生成分布和多样性。例如，分层知识蒸馏(KD)通过模拟教师模型的中间层输出，将其压缩为学生模型，但由于学生模型容量较小，可能会出现欠拟合的问题。Liang et al.提出了一种任务感知蒸馏方法，利用任务感知过滤器对齐学生与教师模型的隐藏表示，以确保生成分布的多样性和保留。

虽然模型压缩在资源受限的环境中显著提升了部署效率，但同时也引入了信息丢失、泛化能力较差以及训练成本增加等问题。特别是在训练阶段，集中服务器需要处理大量计算负担，并且无法有效解决分布式数据源带来的挑战。

B 模型聚合

模型聚合是将边缘模型信息集成到全局模型中的关键机制。在联邦学习(FL)框架中，云服务器初始化模型并将其分发到各个边缘节点，每个节点基于本地数据训练模型，随后将模型参数上传至云端进行聚合，形成全局模型。FL通过不共享原始数据确保了数据隐私和安全性。然而，FL通常需要多轮模型参数交换，这会带来大规模GenAI模型的通信和计算开销。因此，FL逐渐引入了微调技术，如参数有效微调(PEFT)、提示调整(PT)和指令调整(IT)，以更好适应大规模模型的需求。

PEFT在模型预训练后对其进行稀疏化处理，以在保持性能的同时减少模型规模，从而降低通信成本。提示调整(PT)则通过软提示的微调来避免改变预训练的BAIM模型。IT使用成对的输入输出指令来增强模型在多场景下对指令的理解和应用。在联邦学习中，FedIT在LLaMA-7B模型上的研究显示了其在任务适应性上的显著效果。

尽管这些技术在一定程度上缓解了FL的通信与计算压力，但其应用仍受到边缘节点资源限制的约束，特别是在需要维护大规模模型时，这对边缘节点的资源提出了更高要求，阻碍了该方法的广泛应用。

C 模型拆分

模型拆分，通常称为分割学习(SL)，是另一种分配模型计算任务的方式，尤其适用于大规模GenAI模型。SL通过将模型的结构与参数划分为多个分区，由不同的通信节点来计算，从而有效平衡了计算负载。此外，SL框架不需要用户共享原始数据，而是通过中间结果进行交换，这不仅保证了隐私保护，还减少了通信带宽的消耗。

在模型部署过程中，确定良好的模型拓扑划分至关重要，这需要考虑多个因素，如每个节点的计算和存储能力、各层输出的数据大小以及通信与计算之间的权衡。为减少通信开销，模型划分的策略往往会在输出较小的层上进行拆分，然而这也可能增加计算的负担，因此在设计中需通过损失函数进行合理权衡。此前的研究采用了联合模型划分与神经结构搜索来优化模型分割方案，以确保在给定的通信网络中取得最佳任务性能并满足延迟要求。

此外，SL还可通过结合空中计算框架，利用无线信道的互易性将数据传输无缝集成到模型层间的计算中，减少资源消耗。结合联邦学习与SL的方案则进一步提高了边缘节点的利用效率，有效降低了计算负荷。

D 关键绩效指标(KPI)

在边缘云协作框架下，提供优质服务需要仔细考虑各类关键绩效指标(KPI)。图2展示了6个关键指标，包括业务延迟、成本、存储、可靠性与稳定性、安全与隐私及通信效率。在分布式架构中，边缘和云的成本与存储必须分别考虑，两者之间存在权衡。图2(a)展示了由于KD训练过程需要上传用户数据，因此带来的安全性损失。图2(b)说明了FL框架中，由于多次模型传输，边缘设备面临较大负担，通信效率低下。图2(c)则反映了SL架构下，由于中间结果传输和节点连通性问题导致的高业务延迟。而图2(d)展示了我们提出的解决方案，在各项KPI中表现优异。

图2 边云网络下四种分布式框架的KPI雷达图

自底向上的BAIM架构：分布式模型训练和任务导向部署方案

在6G网络中，服务的提供面临节点多样性与多任务服务的复杂性，因而需要一个全面的自下而上的架构。考虑到节点的差异性，允许节点自主确定局部模型架构的训练更具有效性。与自上而下的方式相比，先训练多个单任务边缘模型并将其整合至云端的方法更能满足各类用户需求。

在此架构中，云端大模型与边缘小模型的协同确保了单任务与多任务场景的高效处理。边缘模型能够根据本地数据进行特定任务的微调，提供了单任务专门化的优势，而基于云的BAIM则确保了跨多任务与边缘节点的知识传递与多任务学习能力的体现。

本节将介绍一种自下而上的BAIM架构，通过边缘云协作实现分布式训练与任务导向的部署。首先，概述该框架的工作流程，包括BAIM的训练过程与原生GenAI服务的生命周期。接着，详细介绍体系结构的设计，支持分布式预训练和自然分区的部署方案。然后，探讨其在云端的训练过程，这对解决少量训练数据下的泛化问题尤为关键。最后，提出一种基于任务特定分区的部署策略，帮助本地GenAI在边缘节点上动态部署BAIM，提升用户体验和QoE。

图3 我们提出的框架的工作流程与BAIM训练和本地GenAI服务提供

A 框架的工作流程

图3展示了该框架的工作流程，涵盖了BAIM的训练过程与服务提供机制。

1. BAIM训练过程：用户首先将个人数据上传至边缘节点，形成本地数据集。用户担任边缘设备的角色，维护其隐私敏感的个人数据集。根据边缘节点的能力与用户规模，为各自任务初始化生成模型并基于局部数据进行训练。

由于不同边缘节点的特性差异，所训练的模型表现出异构的架构与特性。接着，边缘节点上传训练好的模型至云端，使云端能够整合多个边缘模型，实现多任务与多模态学习。云端通过门控神经网络协调边缘模型，创建自下而上的BAIM架构。随后，云端利用通用数据集对整个BAIM进行训练，确保其在多任务中的优异性能。最后，BAIM基于任务进行分区，生成紧凑的任务特定边缘模型，边缘节点也可以使用本地数据集对返回的轻量模型进行个性化微调。

2. 原生GenAI服务生命周期：用户提交查询后，边缘首先检查其工具箱中是否有请求的模型。如果找到，则直接推断用户数据并返回结果。若未找到，则从云端请求相应模型下载。对于敏感的个人数据，用户也可从云端直接获取相应的任务模型。

B 自下而上的BAIM架构

图4. 自底向上的BAIM体系结构和工具包中面向任务的模型拆分，涉及三个任务。目前TSGate选中了第二个任务。深色模块被执行，包括LSGate选择的top-k个学习机和与这些学习机存在有线性投影连接的模块，而浅色模块在本轮中不活动。在第三个任务中，灰色虚线表示来自第一个学习者的初始潜在线性投影(连接高度h = 2)。在训练过程中，剪枝会过滤和保留一定比例的剪枝，用灰色实线表示。

BAIM集中式架构限制了对高质量用户数据的获取。受Pathways和混合专家模型（MoE）的启发，我们提出了一种自下而上的BAIM架构，最大化用户数据与边缘专家模型提取的知识利用。Pathways代表了以多任务、多模态和稀疏激活为特征的新一代网络架构，能够通过激活相应模块加速现有技能的学习。MoE则通过门控神经网络组合多个专家模型，实现在稀疏计算中自适应的输出组合。这种设计通过稀疏门控机制整合来自不同专家的知识，同时减少了计算成本。边缘模型作为MoE的专家被模块化，并通过线性投影连接起来，形成多任务、多模态且稀疏激活的分层BAIM架构（如图4所示）。

1. 多任务与门控网络：分层门控网络（HierGate）由M个学习者选择门（LSGates）和一个任务特定门（TSGate）组成。云端将N个边缘模型分类为特定任务组，形成M个学习小组。每个小组中的专家通过LSGate并行组合，TSGate则通过路由输入来管理不同任务的执行。LSGate选择最适合任务的K个学习者并为其分配权重，K值决定了为特定任务激活的学习者数量，影响计算成本。HierGate通过稀疏结构生成N维向量，其中仅K个维度为非零，表示N个学习者对特定任务的输出比例，最大化了同任务学习者的知识利用。

2. 模块化与线性投影：不同于传统MoE模型仅通过门网络连接学习者，本文提出通过模块间的线性投影连接促进知识共享。基于任务相关性，在同组内的学习者之间建立线性连接，使其共享特定的任务知识。在训练过程中，采用剪枝技术过滤不必要的连接，保留核心连接，减少模型参数的同时强化任务间的知识传递。

BAIM架构中，训练策略包括微调策略、冻结策略及重新训练策略，结合这些策略可最大化模型性能。与此同时，持续学习、模型级剪枝和少样本学习为框架的自我维护提供了保证，使其能够适应不断变化的任务与资源条件。

C 原生GenAI任务导向部署

除了在中心服务器上获得统一的多任务BAIM，本文提出的架构允许模型压缩与拆分，提供不同任务下的性能更强的子模型。具体而言，训练好的云端大模型可被分解为相应的任务模型，而无需牺牲性能，且能够在边缘节点上提供和云端相同的服务质量。这种分布式部署方法确保了边缘服务的高效性与灵活性，同时满足用户需求。

案例研究：图像生成服务提供

图5 图像生成服务提供的案例研究

在本节中，我们展示了一个基于变分自编码器（VAE）模型的典型图像生成服务案例，并将其与联邦学习框架进行了比较。所有的训练和评估均在标准化的CelebA数据集上进行。为了公平起见，FL框架下的边缘节点和云同时训练同质模型。每个边缘节点维护本地数据，云则掌握另一部分数据集。在每个训练周期（epoch）结束后，边缘节点将其训练好的模型上传到云端进行聚合，随后云继续对聚合后的模型进行训练，整个过程重复100次。

相比之下，我们的BAIM方法在边缘节点独立训练异构模型，经过100个训练周期后，上传这些模型至云端，集成为BAIM框架，并进行额外的100次训练周期。因此，BAIM和FL框架在总训练阶段上保持一致，最终将训练好的BAIM部署到边缘节点。

图5(b)比较了我们提出的BAIM架构与FL框架的三种训练策略，分析了云和边缘节点的可训练参数数量、训练轮次、每个训练周期的FLOPs计算量，以及上传和下载的通信开销（涉及模型大小和通信轮次）。结果显示，我们的方法显著降低了通信负担，尽管云端的计算开销较高，但边缘节点的成本显著减少，证明了在边缘-云协同过程中合理分配工作负载的有效性。

图5(a)展示了测试样本在BAIM三种训练策略下的生成图像，图5(c)则显示了测试损失的收敛情况。微调策略表现最佳，迅速收敛并且性能优越；冻结策略在收敛之前会经历数个波动期；而FL框架的表现最差。从头训练策略由于随机初始化，初始损失较高，但随着训练进行迅速下降，最终表现中等，这表明尽管模型大小相同，边缘模型提取的知识不足以达到微调后能够实现的效果。

FID是一种用于评估生成图像质量的标准，它衡量生成图像与真实图像之间的分布相似性，较低的FID意味着生成图像与真实图像更接近。图5(d)展示了BAIM和FL框架在三种训练策略下生成图像的FID值。此外，它还展示了BAIM部署后，在10个边缘节点上个性化训练的生成图像的FID值。值得注意的是，微调策略显著提高了图像质量，与原始边缘模型相比表现出明显优势。

挑战与潜在研究机会

尽管我们提出的框架在6G通信网络中展现了高效的服务能力，但在数据管理、模型融合、节点管理等方面仍存在许多挑战，这些问题值得深入研究和关注。

A 数据管理

我们通过区分敏感个人数据、共享个人数据和普通数据来解决隐私问题。然而，未来需要一个更全面的数据管理和生成解决方案。

1. 数据安全管理方案：应建立强有力的安全保障措施，确保数据在存储和传输过程中的安全性，包括端到端的数据加密和增强身份验证机制。此外，云端公共数据的脱敏技术可有效降低信息泄露的风险。

2. 使用合成数据替代用户原始数据：这一方法涉及应用差分隐私技术、生成对抗网络（GAN）和数据扰动方法，生成具有真实数据特征的合成数据。随着人工智能生成内容（AIGC）技术的进步，合成数据可能成为训练模型更安全可靠的替代方案。

B 模型融合方案

在模型训练阶段，设计更高效的模型融合策略和异步更新机制有助于提高模型的可靠性与效率。

1. 优化异构架构的融合策略：边缘模型在深度和广度上具有结构差异。为了在多任务学习中充分利用这些异构模型，必须改进投影方法、连接规则和剪枝策略，以提高融合效率。

2. 设计异步更新机制：异步更新机制允许边缘节点在训练完成后立即上传模型，减少等待时间。通过这种方式，云端可以持续接收模型并将其集成到BAIM中。设计合理的异步更新机制对于平衡BAIM的更新延迟与计算成本至关重要。

C 节点管理

节点管理旨在灵活监控、调整和协调边缘节点，有效的节点管理可以提升系统的稳定性，减少异常节点带来的性能下降。