将大语言模型推向6G边缘
文摘
科学
2024-06-11 13:34
陕西
大型语言模型(LLMs)以其惊人的能力正在革新人工智能的发展,为人类社会带来了诸多便利,然而现有的基于云的部署方式面临一些关键挑战:1)响应时间长;2)带宽成本高;3)数据隐私泄露。针对这类问题,来自香港大学、哈尔滨工业大学与复旦大学的研究团队探讨了在6G边缘部署LLMs的潜力。具体而言,研究人员首先介绍了由多模态LLMs驱动的关键应用,包括机器人技术和医疗保健,以强调在靠近终端用户的位置部署LLMs的必要性。然后,研究人员总结了在边缘部署LLMs的关键挑战,设想了适用于LLMs的6G 云边端架构,并深入研究了LLMs的边缘训练和边缘推理这两个设计方面。在这两个方面,考虑到边缘资源的固有限制,研究人员讨论了包括分割学习/推理、参数高效微调、量化和参数共享推理等多种前沿技术,以促进LLMs的高效部署。Pushing
Large Language Models to the 6G Edge: Vision, Challenges, and Opportunities
Zheng
Lin1, Guanqiao Qu1, Qiyuan Chen2, Xianhao Chen1,
Zhe Chen3, and Kaibin Huang1
1Department of Electrical and Electronic
Engineering, University of Hong Kong
2School of Electronics and Information
Engineering, Harbin Institute of Technology
3School of Computer Science, Fudan University
https://arxiv.org/abs/2309.16739
大型语言模型(LLMs)可以直接应用或微调各类具体任务。本节重点关注两个关键任务用例:医疗保健和机器人控制,以展示在移动边缘部署LLMs的必要性。医疗保健被广泛认为是LLMs的一个关键应用。与传统的AI模型相比,LLMs展现了卓越的泛化能力,能够更有效地与患者、护理人员和医疗专业人员互动。例如,Google的Med-PaLM 2是一个在医疗数据集上微调的LLM,能够为医疗查询提供高质量的答案。Med-PaLM 2在美国医师执照考试中超过了合格线,并取得了86.5%的准确率。实际上,借助多模态输入和输出,LLMs可以作为AI医疗通用助手,向用户提供各种医疗服务,从聊天机器人到诊断再到早期预警。设想每个人都能拥有自己的个人健康AI专家,持续监测他们的健康状况并提供及时的建议,这将具备非常大的应用潜力。然而,大规模的多模态数据传输可能对基于云的医疗LLM部署构成很多挑战。更重要的是,基于云的集中式训练或推理在收集医疗领域数据时面临重大挑战,因为隐私问题和数据法规需要保护隐私的分布式学习,例如联邦学习和分割学习,以在边缘训练/部署模型。凭借卓越的泛化和推理能力,LLMs使机器人能够理解人类的意图/情感或复杂的环境,并相应地计划连续的机器人操作。例如,Google的PALM-E由预训练的LLM(即PALM)改编而成,能够直接摄取机器人传感器数据流,使机器人能够进行具身推理并将复杂任务(例如,按照PALM-E展示的制作蛋糕糊的步骤)分解为可执行步骤。然而,对于机器人应用来说,集中式模型训练不仅涉及大量视频流上传,可能会使回程/主干网络不堪重负,还涉及与人类日常活动相关的敏感互动数据,这带来了重大隐私威胁。此外,由于人机互动和机器人操作在各种任务(例如,老年人/儿童护理,如防止孩子受伤或中毒)中必须以低延迟进行,LLMs应放置在网络边缘,以促进实时的机器人控制。所有这些观察结果强调了在网络边缘部署LLMs的重要性,以解决带宽、延迟和隐私问题。
虽然将LLMs部署在网络边缘有迫切需求,但这些模型的巨大规模对移动边缘计算提出了重大挑战。第一个挑战来自通信成本和延迟。LLMs在推理和训练过程中需要大量的通信资源,而蜂窝网络本身具有带宽限制。例如,通过100Mbps的信道(5G中用户体验的数据速率)传输一个约5.8 GB的中型LLM GPT2-XL需要大约470秒,这意味着无论是用于消费者使用还是分布式学习(例如联邦学习),传输LLMs都可能非常耗时且带宽密集。第二个挑战源于极高的计算能力需求。GPT-3模型具有1750亿个参数,即使在最先进的技术(8个A100 GPU)上运行,分析一个512个token的句子并生成一个32个token的句子也需要大约1.7秒。边缘设备和服务器通常具有有限的计算资源。如果没有精心设计,在边缘运行LLMs可能会导致不可接受的延迟和过高的能耗。第三个挑战是存储和内存空间。例如,以16位精度对一个具有650亿参数的LLM进行全参数微调需要780GB的内存,而高配版商用GPU H100只有80GB内存。这一内存需求在训练LLMs时是一个重大障碍。关于存储,GPT-3模型在32位精度下的大小为700GB。存储多个LLMs的副本(用于不同任务或用户的各种版本)也可能使MEC服务器不堪重负。因此,必须开发新型的模型放置策略,以减少LLMs的内存和存储需求。
根据6G时代的网络赋能AI愿景,本文设想了一种支持部署大型语言模型的6G MEC架构,如下图所示。为了利用分布式计算和存储资源进行协作模型训练和推理,网络虚拟化至关重要,它提高了资源利用率、灵活性和可管理性。遵循软件定义网络的设计原则,6G MEC架构具有一个中央控制器,该控制器协调全网的计算资源和数据传输,采用解耦的控制平面和数据平面。通过收集全局网络知识,控制器将模型训练/推理划分和协调在分布式边缘计算系统中,传输中间数据(即中间激活和反向传播梯度)、模型参数或用户数据,跨越边缘路由器和服务器进行交换。所有这些功能与现有的5G网络无缝对接。通过集中化智能,可以支持灵活的资源编排,实现智能算法,提高全网资源利用率,并为LLMs提供卓越的服务性能。6G MEC架构可以直接在边缘网络中存储、缓存和迁移模型,而不是从云端检索每个模型,从而为用户下载或分布式学习提供快速模型交付。这引出了一个新的问题,称为“边缘模型缓存”,可以视为MEC系统本质上支持的“边缘缓存”的实例。考虑到LLMs的巨大规模,必须仔细研究模型在适当边缘服务器上的战略放置,以减少带宽成本和服务延迟。与传统的边缘缓存不同,6G网络运营商可以利用LLMs的两个独特特性来优化其放置。第一个方向是利用“参数共享”特性来实现有效的模型放置和迁移。不同下游任务的LLMs可能会共享相同的参数/层/块,可以利用这一点进行存储高效的模型放置。通过使用如LoRA等广泛用于微调LLMs的微调方法,模型提供者可以冻结大部分经过训练的模型参数,只调整少量可训练参数以适应新任务或个性化需求。因此,网络运营商在放置大型模型时可以考虑到模型的重叠特性,因为共享参数可能只需缓存一次。为了设计有效的模型放置策略,运营商应首先识别模型请求的受欢迎程度和LLMs的共享模型结构,然后在满足端到端服务延迟要求的同时,尽可能多地容纳模型请求。随着用户位置或请求分布的变化,缓存的模型可以迁移到新位置,仅迁移模型的特定任务部分,以最小化通信成本。然而,由于与预训练模型有广泛参数重叠的模型可能无法满足特定下游任务或新的本地环境,缓存具有较高共享比例的模型可能在模型精度和存储成本之间产生权衡。另一个将更多模型放置在网络边缘的方法是模型压缩。通过采用各种成熟的模型压缩技术(如模型量化和剪枝),可以压缩LLMs以节省存储空间并减轻通信成本。然而,这也可能以服务质量为代价,因为压缩模型可能无法为用户提供高质量的服务。在这种情况下,可以将传统的具有不同分辨率的视频边缘放置问题适应于共同优化模型放置和压缩比率,从而在效率和性能之间取得平衡。预计6G移动网络将全面支持分布式学习,设想6G MEC系统能够将大型语言模型(LLMs)微调到本地环境。对于LLMs来说,从头开始训练需要大量的训练数据集和计算资源,这在网络边缘通常是不切实际且不必要的。然而,很可能基于MEC系统将一个经过良好训练的LLM适应本地或新环境。另一方面,预计6G MEC系统还可以支持LLM推理,减少往返延迟,这对延迟敏感和带宽密集型应用至关重要。
作为新兴领域,如何利用MEC系统支持大型语言模型(LLMs)仍然存在许多未解决的研究问题。尽管LLMs具有显著的强大能力,但由于其庞大的规模,训练和推理过程是公认的耗电大户。绿色边缘智能将在LLMs的成功中发挥越来越重要的作用。为了在保持满意的模型性能的同时最小化能源使用,MEC系统必须智能地调度模型训练,仔细选择高质量的训练数据,并智能确定使用哪种模型。例如,如果模型训练对延迟不敏感,可以通过考虑可再生能源(如太阳能和风能)的波动性来安排利用这些能源进行训练。此外,MEC系统可以在设备上运行较小的LLMs以处理较不复杂的任务,而将大型模型仅用于边缘服务器上的挑战性任务。所有这些都需要创新的网络优化,以实现移动边缘的节能LLM训练和推理。虽然分割学习(SL)和联邦学习(FL)都可以增强LLMs的隐私保护,但已证明中间数据或模型参数仍可能导致数据所有者的隐私泄露。为了提供更强大的隐私保护,可以使用差分隐私来提供隐私保证。对于医疗或其他隐私敏感的应用,MEC系统可以让用户通过在中间数据或模型参数中添加定制的噪声来控制其隐私泄漏水平,遵循差分隐私原则。在这种情况下,MEC系统在选择LLM训练客户端时应考虑数据噪声和信道质量。这需要理解数据噪声(包括SL中的中间数据噪声和FL或SFL中的模型参数噪声)对LLM训练过程的影响,这一领域仍然有待深入探索。
本篇论文提倡从云计算到6G
MEC的范式转变来部署LLMs,因为云计算难以满足延迟、带宽和隐私需求,同时总结了主要由网络边缘资源限制引起的关键挑战,并提出了一种适用于LLMs的6G MEC架构来应对这些挑战,本篇论文有望推动移动边缘部署LLMs的研究,加速推进这一新兴领域的发展。GenAINet公众号由IEEE Large Generative AI Models in Telecom (GenAINet) ETI成立,由GenAINet公众号运营团队负责维护并运行。
GenAINet公众号运营团队:
孙黎,彭程晖 (华为技术有限公司)
杜清河,肖玉权,张朝阳 (西安交通大学)
王锦光,俸萍 (鹏城实验室)
编辑:肖玉权
校对:张朝阳