大模型规模化联邦调优，光明实验室基础智能团队新突破

文摘 2024-09-13 09:30 广东

光明实验室基础智能研究团队最新突破：Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models。作者：Yao Shu（舒瑶）, Wenyang Hu, See-Kiong Ng, Bryan Kian Hsiang Low, Fei Richard Yu。

摘要

大语言模型（LLMs）已在众多实际应用中变得不可或缺。然而，在规模化环境下对这些模型进行微调，尤其是在数据隐私和通信效率至关重要的联邦设置中，仍面临着重大挑战。现有方法通常采用参数高效微调（PEFT）来减轻通信开销，但这通常以牺牲模型性能为代价。为解决这些限制，我们提出了大语言模型的规模化联邦全参数调优方法（Ferret），这是首个使用共享随机性的一阶方法，能够在分散数据源之间实现LLMs的可扩展全参数调优，同时保持有竞争力的模型性能。Ferret通过三个方面实现这一目标：（1）采用广泛应用的一阶方法进行高效的本地更新；（2）将这些更新投影到低维空间，大幅减少通信开销；（3）利用共享随机性从这个低维空间重构本地更新，以促进有效的全参数全局聚合，确保快速收敛和具有竞争力的最终性能。我们严谨的理论分析和见解，以及广泛的实验表明，Ferret显著提高了现有联邦全参数调优方法的可扩展性，实现了高计算效率、减少的通信开销和快速收敛，同时保持了有竞争力的模型性能。

概览

近来，大语言模型（LLMs）已成为众多实际应用中不可或缺的工具，从自然语言处理任务如翻译和摘要，到更复杂的任务如代码生成和决策系统。LLMs的巨大规模和多功能性使其在实践中极具价值，但同时也带来了重大挑战，特别是在联邦环境中进行微调时。联邦学习（FL）提供了一种去中心化的方法来微调LLMs，同时将数据保留在本地客户端以确保隐私。然而，虽然这种方法有效地解决了隐私问题，但当LLMs的模型参数规模达到数十亿时，也会导致令人望而却步的通信开销。

减轻LLMs联邦调优中巨大通信成本的一个直接策略是参数高效微调（PEFT）。PEFT方法专注于只微调一部分模型参数，这能显著减少客户端和中央服务器之间的通信开销。尽管在减少带宽使用方面很有效，但这类方法通常会影响模型性能，因为微调一部分模型参数可能无法充分捕捉本地数据分布的细微差别。因此，最近的工作，如FedKSeed，致力于在LLMs的联邦全参数调优中使用零阶优化（ZOO），旨在通过每轮仅在客户端和中央服务器之间传输数千个标量梯度来保持有竞争力的模型性能，同时减少通信开销。不幸的是，与使用一阶优化（FOO）的FL方法（如FedAvg）相比，这种方法常常因其较差的可扩展性而受限，包括每轮增加的计算成本和收敛所需的更多通信轮次。

为此，我们提出了Ferret算法。这是第一个具有共享随机性的一阶FL方法，能够实现LLMs的可扩展联邦全参数调优，同时具有引人注目的计算效率、大幅减少的通信开销和快速的收敛速度，同时保持有竞争力的模型性能。Ferret通过三个方面实现这一目标：首先，它采用广泛应用的一阶方法在每个客户端上执行计算高效的本地更新，与现有的基于ZOO的FL相比，通常需要更少的迭代来实现相同的本地更新过程。其次，Ferret将这些更新投影到低维空间，与现有的基于FOO的FL相比，显著降低了通信成本。最后，Ferret利用共享随机性从低维空间重构本地更新，以进行有效的全参数全局聚合，确保快速收敛和有竞争力的模型性能，相比现有的基于ZOO的FL。具体算法见图 1。我们进一步通过严谨的理论分析和原则性见解来补充Ferret，展示了Ferret相对于其他基线的理论优势，并指导其最佳实践。最后，通过广泛的实验，我们验证了Ferret在可扩展性和模型性能方面显著优于现有方法，使其成为在大规模联邦环境中部署LLMs的理想解决方案。

总结起来，本工作的贡献包括：

✦我们提出了Ferret，这是据我们所知第一个具有共享随机性的一阶FL方法，它显著提高了LLMs联邦全参数调优的可扩展性，同时保持了有竞争力的模型性能。

✦ 我们提出了严谨的理论分析和见解（见论文正文），以支持我们的Ferret的有效性，展示了它相对于其他基线的理论优势，并指导其最佳实践。

✦ 通过广泛的实验，我们证明Ferret在实践中始终优于现有方法，提供了更优的可扩展性和有竞争力的模型性能。

图1 算法流程图

结果

表1展示了Ferret与其他联邦全参数调优算法的理论比较。Ferret作为一种新提出的基于一阶优化(FOO)的方法，在多个方面展现出了显著优势。它保持了FOO方法的计算效率，同时大幅降低了通信开销（从O(d)减少到O(K)，与FedKSeed相当）。虽然Ferret比FedAvg需要更多的收敛轮数，但比基于零阶优化(ZOO)的方法如FedZO和FedKSeed要少得多。此外，Ferret在适应性、泛化能力和隐私保护等方面都表现出色，尤其是在隐私保护方面与FedKSeed并列最佳。这种在计算效率、通信开销、收敛速度以及其他关键因素之间的最佳平衡，使Ferret成为一个高度可扩展且理想的解决方案，特别适用于大语言模型(LLMs)的联邦全参数调优。它有效地解决了之前方法面临的挑战，如过高的通信开销、模型性能损失和较差的可扩展性等问题，为LLMs在大规模联邦环境中的部署提供了一个强有力的工具。

表1 联邦全参数调优算法的理论比较

表2详细比较了不同联邦全参数调优算法在LLaMA-3B模型上的计算成本和通信开销。总体而言，Ferret算法在多个方面展现出了显著的性能优势。在计算成本方面，Ferret的本地更新时间（5.6秒）比FedKSeed快4.4倍，全局聚合时间（49.1秒）比FedKSeed快14.7倍，总体计算时间（6.6×10²秒）比FedKSeed快45.5倍。在通信成本方面，Ferret每轮的通信量（7.8×10³参数）以及总体通信量（9.4×10⁴参数）均比比FedAvg少10⁶倍。这些数据清晰地表明，Ferret在计算效率和通信效率上都实现了显著的改进，特别是相比于FedKSeed在计算成本上的优势，以及相比于FedAvg在通信成本上的巨大节省。这种全面的性能提升使Ferret成为大规模语言模型联邦学习中一个非常有竞争力的解决方案，能够有效地平衡计算资源利用和网络带宽消耗，为实际应用中的大语言模型调优提供了更高效的方法。

表2 联邦全参数调优算法计算成本和通信开销的实际比较

图2展示了在Natural Instructions任务上，Ferret与FedKSeed两种算法在DataJuicer-1.3B和LLaMA-3B模型上所需的通信轮数对比。从图中可以看出，Ferret（蓝色实线）展现了显著的收敛速度，仅需大约2轮通信即可达到较低的测试损失，而FedKSeed（橙色虚线）则需要超过12轮才能接近相似的收敛效果。放大的区域进一步展示了FedKSeed在收敛速度上的劣势。这表明Ferret在通信轮数复杂度上实现了接近20倍的加速，极大地提高了通信效率。

图2 Ferret与FedKSeed所需通信轮数的比较

最后，表3比较了Ferret与其他联邦全参数调优算法在两个任务（Natural Instructions和Dolly-15K）和两个模型（DataJuicer-1.3B和LLaMA-3B）上的Rouge-L评分表现。Ferret算法在大多数情况下展现出了优秀的性能。在Natural Instructions任务中，Ferret在DataJuicer-1.3B模型上获得了最高分（24.99 ± 0.99），在LLaMA-3B模型上也取得了很好的成绩（30.03 ± 0.99）。在Dolly-15K任务上，Ferret在DataJuicer-1.3B模型上的表现（30.63 ± 0.84）虽然不是最佳，但仍然优于许多其他算法；在LLaMA-3B模型上，Ferret获得了34.57 ± 0.57的分数，接近最高分。值得注意的是，Ferret在大多数情况下都表现出较小的标准差，这表明其结果的稳定性和可靠性。总的来说，这些结果表明Ferret算法在不同任务和模型上都能够保持竞争力，展现出了良好的泛化性和稳定性。

表3 联邦全参数调优算法模型性能的实际比较

总结

总之，Ferret算法为联邦环境下的大语言模型（LLMs）提供了一个高效且可扩展的全参数调优解决方案。通过实现高计算效率、快速收敛和降低通信开销，Ferret克服了现有方法的局限性，在这些关键因素之间达到了更好的平衡。此外，我们的严格理论分析和大量实验验证了Ferret作为一种稳健且可靠的方法，能够在大规模联邦学习场景中高效部署LLMs。

原文

Yao Shu, Wenyang Hu, See-Kiong Ng, Bryan Kian Hsiang Low, Fei Richard Yu. Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models. arXiv:2409.06277.

参考文献

[1] Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, and Shuiguang Deng. Federated full-parameter tuning of billion-sized language models with communication cost under 18 kilobytes. In Proc. ICML, 2024.

[2] Wenzhi Fang, Ziyi Yu, Yuning Jiang, Yuanming Shi, Colin N. Jones, and Yong Zhou. Communication-efficient stochastic zeroth-order optimization for federated learning. IEEE Trans. Signal Process., 70:5058–5073, 2022.

[3] Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, and Blaise Agüera y Arcas. Communication-efficient learning of deep networks from decentralized data. In Proc. AISTATS, 2017.

[4] Yao Shu, Xiaoqiang Lin, Zhongxiang Dai, and Bryan Kian Hsiang Low. Heterogeneous federated zeroth-order optimization using gradient surrogates. In ICML 2024 Workshop on Differentiable Almost Everything: Differentiable Relaxations, Algorithms, Operators, and Simulators, 2024.

END

素材来源丨光明实验室基础智能研究团队

编辑丨李沛昱

审核丨郭锴

Guangming Laboratory

实验室简介

人工智能与数字经济广东省实验室（深圳）（以下简称光明实验室）为广东省政府批准建设的第三批广东省实验室之一。实验室面向世界人工智能与数字经济的前沿理论和未来技术发展趋势，致力于服务国家重大发展战略和重大需求，依托深圳地区产业优势、地缘优势和政策优势，聚集全球科研力量，充分激发科技创新资源的集聚效应。实验室围绕国产AI算力生态建设的任务核心，以多模态AI技术与应用生态建设为关键牵引，通过突破一批关键技术、催生一批原创成果，持续推进科技创新和产业赋能，加快人工智能技术在多元应用供给与全场景渗透，实现科技创新与产业驱动互促双强，不断促进以AI为引擎的新质生产力生成。

人工智能与数字经济广东省实验室（深圳）

官方网站｜http://www.gml.ac.cn

招聘联系｜hr_office@gml.ac.cn

http://mp.weixin.qq.com/s?__biz=Mzg4MTY2MDY5NQ==&mid=2247498058&idx=1&sn=4dfaba8ea27f61ce92a3b445278c982f

光明实验室

光明实验室官方公众号。光明实验室全称为人工智能与数字经济广东省实验室（深圳），依托深圳大学运行。定位于粤港澳大湾区国际科技创新中心核心平台、人工智能与数字经济开放合作先行地、人工智能与数字经济创新研究基地和产业集聚高地。

科研动态 | 光明实验室智能感知与计算成像团队：用于机器人智能识别和操纵感知的多功能触觉系统

大模型规模化联邦调优，光明实验室基础智能团队新突破

光明实验室2024年开放课题申请公告

光明实验室与深圳湾实验室成功举行洽谈交流，共商生物医药大数据智能处理与分析领域合作

欢迎报考深圳大学-光明实验室2025年推荐免试攻读研究生！

斩获佳绩！光明实验室荣获第十九届中国研究生电子设计竞赛全国总决赛一等奖

温情满分！光明实验室开展新学期宿舍走访活动

科研动态 | 光明实验室主任李清泉院士在《Science Bulletin》发文，表明中国大城市屋顶绿化可能收获巨大的潜在碳汇

光明实验室2024级开学典礼圆满举行，开启科研新旅程

科技与金融的双向奔赴：深圳市科技创新种子基金“直通车”走进光明实验室活动圆满落幕

人工智能与数字经济广东省实验室（深圳） 2024年8月月报快讯

成功晋级决赛！光明实验室大数据智能处理与分析团队在光创赛上绽放创新火花

科研动态 | 光明实验室城市三维创新团队最新研究成果：具有语义的三维房屋线框生成

【转】落实党的二十届三中全会要求，光明实验室积极参与深圳光明科学城基层治理

光明实验室科研实力再获肯定：2024年度国家自然科学基金首批项目立项结果揭晓，四位青年才俊成功获批

国内首飞！光明实验室泛在感知与空间智能团队开辟天然溶洞未知受限空间无人机自主探索式测绘新路径

智慧城市团队李敏敏副研究员受邀参加中国自然资源学会资源大数据分会2024年学术年会

“天才新星”系列人物专访丨李明博士：从国防科技到人工智能的卓越旅程

光明实验室创新无人机技术，助力深圳龙华排水有限公司解决箱涵检测技术难题

中山翠亨集团携手西湾智慧、深中产业服务共访光明实验室，探寻AI合作新发展

共探政务大模型合作新机遇！深圳太极数智技术有限公司到访光明实验室

科研动态丨光明实验室生成式大模型团队最新成果：光明大模型及其助手制作网站

人工智能与数字经济广东省实验室（深圳）国产AI算力生态科研工程人员招聘

人工智能与数字经济广东省实验室（深圳） 2024年7月月报快讯

科研健将共展风采：光明实验室参加2024湾区创新走廊篮球联赛

创新创业，交个朋友！光明实验室“数智光明 • 创享荟”第三期顺利举办

“天才新星”系列人物专访丨宋纪元博士：创客道路上勇往直前的摘星人

科研动态 | 喜讯！光明实验室智慧医疗团队斩获全国大学生生物医学工程创新设计竞赛全国一等奖！

科研动态 | 光明实验室城市三维创新团队研究工作——可适应点云模型：通过校准二维视觉模型进行三维点云分析

科研动态 | 光明实验室媒体智能团队：CodeSwap：基于先验码本的对称人脸交换

科研动态 | 光明实验室自主机器智能团队具身智能新进展：基于大语言模型的具身智能语义地图与导航研究

光明实验室年中总结暨工作部署大会：深化改革，创新驱动，共绘科研新蓝图

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉