80G显存塞50个7B大模型！清华&OpenBMB开源增量压缩新算法，显存节省8倍

文摘 2024-11-29 17:31 湖南

关注地球与人工智能，设置EarthAi星标

Delta-CoMe团队投稿
量子位 | 公众号 QbitAI

最新模型增量压缩技术，一个80G的A100 GPU能够轻松加载多达50个7B模型，节省显存约8倍，同时模型性能几乎与压缩前的微调模型相当。

清华大学NLP实验室携手OpenBMB开源社区、北京大学和上海财经大学的研究团队，提出Delta-CoMe。

这项技术的核心在于利用主干模型与任务专用模型之间参数增量（即Delta）的特点进行压缩，从而实现存储开销和部署成本的大幅降低。不仅有助于解决资源瓶颈问题，更为多任务处理和模型部署开辟新的可能。

具体而言，Delta-CoMe将低秩分解和低比特量化技术相结合，充分利用Delta参数的低秩特性，提出了一种全新的混合精度压缩方法。这种方法不仅能够实现接近无损的任务性能，还能显著提升推理效率。

Delta-CoMe方法介绍

微调是增强预训练模型的重要手段，不同任务往往需要不同的微调方式。例如Luo et al.[1]提出RLEIF通过Evove-instruction来增强模型数学推理能力；Wei et al.[2]利用Code snnipet合成高质量的指令数据来增加模型的代码能力。然而，这些方法通常依赖高质量数据，并需要精心设计的策略才能实现显著的效果。

在一些场景中往往需要具有不同能力的LLM同时处理问题，例如多租户场景，多任务场景以及端侧场景等等。一种自然的解决方案是部署单个通用模型作为主干，配合多个具有专有能力的Delta。

以Bitdelta[3]为例，它通过将模型的Delta压缩到1-bit，有效保留了模型在问答等场景中的能力。尽管该压缩方法在存储和推理效率上表现出色，其在更复杂的任务（如数学推理和代码生成）上仍存在明显的能力瓶颈。

针对这一挑战，THUNLP实验室联合北京大学和上海财经大学提出Delta-CoMe。这一方法结合低秩分解和低比特量化技术，不仅显著提升了模型在复杂任务上的表现，还兼顾了压缩效率和实际应用需求，为模型的高效部署提供了一种新思路。

与前人的方法相比，Delta-CoMe方法的优点在于：

结合低秩与低比特量化，利用了Delta低秩的特点，并发现低秩分解后的Delta是长尾分布的；之后采用混合精度量化进一步压缩
性能几乎无损，相比于BitDelta等方法，在Math, Code, Multi-modal等复杂任务上，性能与压缩前的微调模型表现基本接近
推理速度提升，为混合精度量化实现了Triton kernel算子，对比Pytorch的实现方式，带来近3倍的推理速度提升
超过Delta-tuning，支持多精度Backbone，Delta-CoMe在效果上显著优于LoRA微调，并可以用在多种精度的Backbone上

具体而言，Delta-CoMe首先采用SVD进行低秩分解，Delta 具有低秩性，经过低秩分解之后，其特征值呈现出长尾分布的规律，仅有少数较大奇异值对应的奇异向量对最终的结果贡献较大。

一个自然的想法，我们可以根据奇异值的大小进行混合精度量化，将较大的奇异值对应的奇异向量用较高精度表示，而较小的奇异值对应的奇异向量用较低精度表示。

实验结果

多个开源模型和 Benchmark 的实验验证了该方法的有效性。

使用Llama-2作为主干模型，在数学、代码、对话、多模态等多个任务中进行实验，Delta-CoMe展现出平均几乎无损的性能。下面分别是7B模型和13B模型的实验效果。

此外，还在Mistral、Llama-3等其它主干模型上对不同的压缩方法进行了验证。

为了提升混合精度量化的计算效率，实现一个Triton Kernel，相比于Pytorch的实现方式，推理速度提升了约3倍。

实验结果表明，使用一块80G的A100 GPU可以加载50个7B模型。

最后，还比较了Delta-Tuning和Delta-Compression的效果差异（Delta-Tuning指的是通过训练部分参数进行微调，Delta-Compression指的是先进行全参数微调，再将微调带来的模型参数增量进行压缩）。其中Delta-Tuning采用的是LoRA。Delta-CoMe对比LoRA在相同的存储开销下，性能显著提升。

Delta-CoMe 通过结合低秩分解和低比特量化，不仅实现了大幅度的存储压缩，还在复杂任务如数学推理、代码生成和多模态任务上维持了与压缩前模型相当的性能表现。相比于传统的微调方法，Delta-CoMe 展现出了更高的灵活性，尤其在多租户和多任务场景中具有显著的应用价值。此外，借助 Triton kernel 的优化，推理速度得到了显著提升，使得部署大规模模型成为可能。未来，这一方法的潜力不仅在于进一步优化模型存储和推理速度，也有望在更广泛的实际应用中推动大语言模型的普及和高效运作。

参考文献

[1]Yu, L., Jiang, W., Shi, H., Jincheng, Y., Liu, Z., Zhang, Y., Kwok, J., Li, Z., Weller, A., and Liu, W.Metamath: Bootstrap your own mathematical questions for large language models. In The Twelfth International Conference on Learning Representations, 2023.
[2] Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., and Jiang, D. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023b
[3] Liu, J., Xiao, G., Li, K., Lee, J. D., Han, S., Dao, T., and Cai, T. Bitdelta: Your fine-tune may only be worth one bit. arXiv preprint arXiv:2402.10193, 2024b.

Paper链接：https://arxiv.org/abs/2406.08903
Github链接：https://github.com/thunlp/Delta-CoMe

— 完 —

（加EarthAi微信交流群，请备注：姓名-行业-单位）

声明：本公众号分享的资源均来自于互联网的公开资源，仅供个人学习和研究使用，不代表本人对其版权、真实性、合法性、准确性等方面做出任何保证。任何使用本号分享的资源的个人或组织，需自行承担相应的法律责任和后果；本号不承担任何法律责任和连带责任。使用本号分享的资源即代表您已完全了解并同意本免责声明的所有内容。




上海位温信息科技有限公司
专业的商业气象服务商


（咨询数据详情，可添加微信，请备注：合规数据）


可提供气象产品 ：
全国三千多个基准站
3213 个主要城市站点、每小时发 布 1 次，
每天发布 24 次，每次提供当前整点时刻的
城市站点实况天气（实况产品会在整点后
15 分钟、20 分钟、30 分钟进行数据更新），
要素包括：天气现象、气温、体感温度、风速、
风力、风向、相对湿度、气压、1小时降水量、
10分钟降水量、能见度、日出时间、日落时间、
紫外辐射等要素。
探空气象站
海洋气象站
雷达拼图
卫星云图（风云4、葵花8）
格点实况、再分析资料
数值预报:CMA EC GFS
强对流天气预报
强天气落区预报
强对流天气（短时强降水/冰雹/雷暴大风）概率预报图
台风、热带气旋
可提供国内与国外各类气象咨询气象服务
本公司提供服务稳定可靠，您值得拥有。

EarthAi

AI4Earth、人工智能、气象数值预报、学术论文！产业资讯等等……

最新文章

杀疯了！最新Nature子刊，人工智能 vs 气候极端事件！

AI卷翻科研！AI4S双杀传统大气数值模型

“AI+气象”深度融合，中国气象学会气象人工智能专业委员会成立

80G显存塞50个7B大模型！清华&OpenBMB开源增量压缩新算法，显存节省8倍

肉羊天气指数保险！

27岁应届生，任C9博导！

NeurIPS 2024 | PowerPM：电力系统基座模型

北京出品“灵犀大模型”支撑极端强降水预报预警

湖北省低空综合服务有限责任公司成立登记成立注册资本2亿元

重磅！广东再添一所985大学！打造人工智能气象预测产业！

韩国气象厅开发出预测超短期降水的人工智能"阿尔法韦瑟"

羲和海洋AI大模型Workshop：动手用“羲和”预报海温、流速 | 免费学习，附代码

arxiv：气候模型中不变暖模态的起源和限制

NeurIPS24 | SolarCube: 马里兰大学等提出高分辨率太阳辐照预测基准数据集, 包含卫星和现场观测数据

今年就业形势很严峻！你准备好了吗？

FengWu-W2S: 一种深度学习模型，用于全球大气的无缝天气到次季节性预报

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

真卷，KAN网络已经被用于地学研究了。。。

利用物理信息机器学习改进飓风建模

最新突破！混合物理-AI在极端降水临近预报中胜过数值天气预报

子刊！嵌入机器学习次网格变率可改善气候模型降水模态

今年冬天冷不冷？

检测气候极端事件的人工智能时光机

AAS：有关AI模型的天气气候可预报性问题研究

国内首个低空气象产业集群在深圳成形

太阳可能存在旋转的极地涡旋

学生设计的巧妙装置让一次性气象仪器从三万多英尺高度飞回家

2024年风云气象卫星用户大会发布3项科技成果

加拿大发布数值天气和环境预报的人工智能集成路线图

山东省人工影响天气无人机技术与应用联合开放实验室签约仪式举行

中国首个气候领域大语言模型诞生！

新型AI数据集：AI 道路天气预报+实时互联汽车数据

顶刊！IF=44.8,机器学习在气候物理学中的应用

AI提升长周期气候变异预测能力方面取得突破！

教授何恺明在MIT的第二门课——《深度生成模型》，附PPT！

WeatherGFM：一款通用型天气基础模型

奥地利维也纳大学在地球科学顶刊《自然-气候变化》发文：干旱和干燥对全球国内迁移的影响

2024 年中国气象学会气象人工智能交流研讨会入选论文

中试基地：新增3项天气预报科技成果业务转化认证

看！清华地学号卫星发射升空

极端天气事件监测黑科技！深度学习日尺度化水储量动态|《Journal of Hydrology》10月24日最新文献

朴世龙院士团队最新成果，破解2023年大气二氧化碳激增之谜！

关于发布深空探测全国重点实验室2024年度开放基金指南的通知

新泽西理工学院空间气象科学研究所启动基于人工智能的太阳爆发研究中心

深度学习新方法！KAN在短期河流流量预测中的应用

EPICC-Model：中国大科学装置“寰”开源发布新一代空气质量模式

达摩院发布“八观”气象大模型，重点指标超过传统！

《自然-通讯》| 利用人工观测以及基于仪器的测量指标来了解降雨模态的变化

东亚区域人工智能气象大模型预报技巧评估

预报雷暴：北达科他大学教授获得资助以使用机器学习改进预报过程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

80G显存塞50个7B大模型！清华&OpenBMB开源增量压缩新算法，显存节省8倍

Delta-CoMe团队 投稿量子位 | 公众号 QbitAI

Delta-CoMe方法介绍

实验结果

参考文献

Delta-CoMe团队投稿
量子位 | 公众号 QbitAI