FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

创业 2024-08-08 08:22 北京

自回归训练方式已经成为了大语言模型（LLMs）训练的标准模式，今天介绍一篇来自阿联酋世界第一所人工智能大学MBZUAI的VILA实验室和CMU计算机系合作的论文，题为《FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation》，该论文首次提出了采用自回归蒸馏的优化方式从头训练二值化的大语言模型，性能可以匹配或者接近FP16或者BF16训练的LLMs，同时效果远超之前所有二值化大语言模型将近十个点。目前该工作的训练代码，数据和模型权重已全部开源。

论文标题：
FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation
论文链接：
https://arxiv.org/abs/2407.07093
代码链接：
https://github.com/LiqunMa/FBI-LLM

一、核心结论和贡献

相比之前的二值化大语言模型，这是第一个从头开始训练，不使用任何预训练参数的二值化大语言模型。
训练过程仅仅使用自回归蒸馏损失，没有加入其他损失函数。
该工作是一个全量二值化模型，而不是之前一些方法采用的局部二值化或者三值化大模型。

二、背景介绍

最近几年受益于巨大的参数规模和海量的训练语料，基于Transformer的大型语言模型（LLMs），如ChatGPT和LLaMA系列，在特定领域知识的生成和复杂推理任务中都表现出色的性能。

此外，LLMs的能力随着参数规模的扩大而继续增强，给人们在通往AGI的道路上以无限遐想。然而，巨大的参数规模导致了模型需要巨大的存储和计算需求，这大大限制了LLMs的广泛应用和发展。量化技术通过将32位参数映射到更小的位数，有效地缓解了这些限制，该技术可以显著减少存储需求，并在推理过程中提升了计算速度和能源效率。

作为量化的极端情况，模型二值化仅用{-1, 1}来表示每个参数。它最大限度地实现了压缩和推理效率，但代价是牺牲一定程度的准确性。以往维持二值化LLMs性能的研究包括如何保留模型中重要参数或使用接近一位（部分二值化或者三值化）的表达方式来表示每个参数。

虽然这些方法展现出了不错的性能和潜力，但它们在存储和效率方面仍有优化的空间，并且额外的全精度参数或采用非2的幂来表示参数编码在适配特定硬件时会产生额外的开销。某些全二值化LLMs的研究基于最小化层级图片损失的优化目标，或使用预训练的全精度LLM在其基础上继续训练，然后用少量训练数据进行二值化模型参数纠正，这些方法面临如下几个问题：

之前某些方法借助预训练的全精度模型参数来减少训练计算量和优化步骤，然而二值化过程会极大地压缩原始模型的参数空间，损害全精度模型中存储的知识，因此依然需要足够的训练数据来让二值化模型重新学习这些知识并适应二值化参数的模式；
从现有预训练模型中衍生二值化模型 (使用预训练权重) 的方案不允许选择不同的参数规模或词汇表大小，从而限制了模型结构的灵活性和实际应用。

本文作者提出了一种从头开始训练的全二值化LLMs（FBI-LLM）。为了实现从头开始稳定地训练二值化LLMs，文章提出了一种基于全精度教师模型的自回归蒸馏的新型训练模式。具体来说，在训练过程中，作者逐步从全精度教师模型中生成蒸馏使用的软标签，并采用基于自回归蒸馏的方案来匹配教师模型在每个token位置的预测概率。

通过这种简单直接的自回归蒸馏损失，可以成功地从随机初始化中训练二值化LLMs。由于该方法相比一般LLM训练的改动主要集中在损失函数上，FBI-LLM可以轻松地融入现有的LLM预训练过程。此外，这种方法中的二值化操作与模型训练是分离的，因此任何增强LLM训练效率或者性能的技术都可以直接应用于本文提出的FBI-LLM。

作者对框架FBI-LLM的有效性进行了详细评估，训练了从130M、1.3B到7B规模的不同模型。作者使用广泛使用的Transformer架构进行LLMs的训练，结果表明从头开始训练全二值化的LLMs是完全可行的，其性能与全精度模型相比只有很小的差距。

与其他基准线方法相比，训练过程在困惑度和多个下游任务上表现更为出色。这些结果表明自回归蒸馏是训练二值化LLMs的关键，此外，通过对预训练更加深入的研究（如权重翻转比和梯度范数）的分析表明，从全精度LLMs继承权重与从头开始训练二值化LLMs之间没有显著差异。

本文的贡献可以总结如下：首先，该论文首次证明可以成功地从头开始训练具有二值权重的LLMs；其次，本文提出了一种新的蒸馏损失函数，以稳定二值化LLMs的训练，其采用自回归蒸馏来匹配教师模型的概率分布；第三，本文进行了广泛的实验和分析，以更好地理解所提出的方法的有效性。

下面介绍一下文章具体细节。

三、模型结构

模型结构主要基于LLaMA的结构。如上左图，首先是LLM 模块，其中包含使用可学习的α和β组成的 FBI-Linear层。右图为自回归蒸馏和模型训练相关过程。具体而言，由于在LLM 中，大多数参数都位于线性模块中。FBI-LM 将除causal head以外的所有线性模块替换为 FBI-linear层。由于causal head直接影响每个步骤中的输出token分布，因此对其参数进行二值化将显著影响模型输出的准确性，因此本文选择保留其精度。

此外，LLM 的另外两个核心模块（embedding和Layer Norm）中的参数也需要保持全精确。这是因为embedding模块包含有关所有标记的语义信息，并且作为模型输入的第一层，需要用来确定文本的初始表示形式。另一方面，Layer Norm 直接缩放激活值，二值化其参数将显著降低每层激活值的语义表达能力，之前其他关于LLM二值化的工作和研究也选择采用类似的设置和做法。

四、模型训练：自回归蒸馏（Autoregressive Distillation）

给定一个训练语料，标准的自回归语言模型的目标函数是最大化如下似然函数：

其中 k 表示上下文窗口的大小，条件概率 p 通过参数为的神经网络建模。不同于一般的自回归语言模型，本文使用自回归蒸馏训练 FBI-LLM。在训练过程中，一个全精度预训练 LLM 被用作教师模型，二值化目标模型作为学生模型。假设每个训练数据实例由输入token序列组成，教师模型对下一个标记的预测概率可以表示为：

其中表示最后一层 transformer 模块的激活，表示用于预测下一个token概率的线性输出层的参数。

学生模型与教师模型输出之间的交叉熵被计算为每一步预测下一个token时的最终损失函数。它可以表示为：

其中 n 表示输入标记的数量。表示教师模型预测的第i步词汇表上的标记分布，而是学生模型的相应预测分布。

五、训练数据

本文使用的训练数据集跟一般的LLM训练相似，包含 Refined-Web 、StarCoder 和 RedPajama-v1的混合数据集，总共包含 1.26T tokens。

六、实验结果

如下图所示，首先是对现有的二值化 LLM 和 FBI-LLM 在 Wikitext2 的困惑度 (Perplexity) 比较。与其他二值化 LLM 相比，FBI-LLM 在相同规模大小的模型上获得相似或更低的困惑程度。

其次是在下游任务上的性能表现，如下表所示，由于 130M 大小的FBI-LLM没有对应的基准模型，本文将 130M 模型与之前 700M 规模的 BitNetb1.58 进行比较。尽管模型规模相差五倍，权重量化程度也存在较大的差异，但FBI的模型在 BoolQA 和 OpenbookQA 上的表现仍然优于 BitNet b1.58。

对于 1.3B 规模的二值化模型，FBI-LLM 在大多数下游任务和困惑度中都取得了最佳性能，甚至接近或超过了某些 7B 规模的二值化模型（如 BiLLM-LLaMA2-7B）的性能。与相同规模的全精度模型相比， FBI-LLM 1.3B 在下游任务中可以达到其 87% 的性能。在 7B 规模中，FBI模型依然显著优于之前几乎所有的基准线模型，具体来说，FBI-LLM相比之前最好的方法平均提升了将近十个点。

此外，由于计算资源的限制，FBI-LLM 7B当前汇报的结果并不是最终结果。作者只使用了整个数据集的 8.6%（31 个块）。下图展示了FBI-LLM-7B训练过程中下游任务准确率和困惑度的变化。显然，从目前的训练进度来看，FBI-LLM-7B的性能将持续提高，更进一步的训练可能会得到更好的效果。

七、模型分析和可视化

7.1 二值化大模型是从头开始训练还是从预训练的 LLM 接着训练？

直观地说，从预训练的 LLM 继续训练可以让二值化模型从全精度原始模型中继承知识，从而可能比从头开始训练获得更好的结果。为了论证这一假设，本文进行了全面的消融和分析实验，以记录和比较模型在两种不同训练模式下的行为。

从下图 (a) 中可以观察到，在训练初期，两种训练方式的 FF ratio 趋势基本保持一致。在整个训练过程中，两种方法的 FF ratio 都处于相似的大小上，并且数值相对较小。该结果表明，两种不同的参数初始化方法对二值化优化过程的影响没有显著差异。下图 (b) 展示了两种训练模式下的训练损失变化。在训练的初始阶段，两种方法的训练损失基本相同，表明模型的训练损失不会显著受初始化方法的影响。

虽然从头开始训练的损失在中间阶段比继续训练的损失略高，但过一段时间后，从头开始训练的损失再次与接着训练的损失相当，甚至变得比继续训练的损失更为稳定。值得注意的是，在大约第 1000 步时，如图 (a) 所示，当从预训练的 LLM 继续训练时，FF ratio 开始出现明显的波动。同样，在图 (b) 所示的第 1700 步左右，训练损失也遇到了类似的问题。

这些发现挑战了之前相关工作的一些假设，即从预训练的 LLM权重开始训练二值化大模型将赋予二值化LLM继承之前预训练的知识，从而提高性能。然而，本文结果和分析暗示了二值化LLM对参数初始化的方式不敏感，或者说随机参数初始化反而更好。对于原因，本文推测二值化和全精度LLM采用不同的参数组合和配置来编码语义，这导致其参数空间模式存在实质性差异。

为了适应这种模式，通过从预训练的 LLM 继续训练来优化二值化的过程可能需要更大幅度的参数数值调整和变换，从而破坏预训练参数模式结构，继而破坏其中保存的知识。这个理论可以部分地解释为什么在训练期间与从头开始训练相比，继续预训练的权重反而让二值化LLM变得更不稳定。

7.2 训练的稳定性分析

二值化和全精度LLM训练在之前一些工作中都被发现表现出不稳定的训练行为。FBI-LLM 也有类似的问题，具体表现为在训练 1.3B 和 7B FBI-LLM 时训练损失突然激增，有时在此之后继续训练模型也无法收敛。本文采用类似于 PaLM的解决方案：如果损失值不再趋于收敛，模型将恢复到前一个检查点，并跳过触发不稳定损失的数据块以继续训练。使用此方法，模型在相同的训练步骤中不再遇到问题。

根据该论文的观察，从头开始训练 7B FBI 模型大约有 6% 的概率导致出现损失峰值。对于 1.3B 模型，由于其模型能力较低，训练更加不稳定，损失峰值的出现概率约为 15%。这与在全精度 LLM 中看到的预训练行为相似，而尖峰的概率明显更高，这可能与二值化参数的有限表达能力有关。为了解决这个问题，FBI跳过了发生损失峰值且没法通过后续训练恢复的数据块。

7.3 存储效率分析

上表显示了不同规模的FBI-LLM与相同结构的全精度LLaMA相比所需的理论存储空间，同时还详细给出了 FBI-LLM 引入的附加参数（和）的比例。表中的比较表明，FBI-LLM可以实现高压缩比，大大减轻了LLMs的存储负担。尽管 FBI-LLM 引入的用于缩放和移动的额外参数需要保留全精确，但它们的比例相比整个模型很小，因此其对存储的影响可以忽略不计。

7.4 生成结果示例

如上图所示，尽管 FBI-LLM 的生成质量无法完全匹配全精度 LLM模型，但 FBI-LLM 仍然可以生成流畅且有意义的内容。与具有更高参数位宽的BitNet b1.58模型相比，FBI-LLM对提示的理解更好，并且在一些生成的示例中包含了更多的知识。这表明FBI-LLMs具有更强的生成能力，并包含足够的知识。此外，FBI-LLM展示了进一步扩大模型规模从而达到更高智力水平的二值化模型的潜力，这种类型的大模型 (二值化大模型) 对部署的硬件需求也更加友好。

7.5 模型配置和训练细节

具体的模型配置和训练细节如下所示：

更多细节欢迎阅读文论原文。

来源：公众号【机器之心】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513016&idx=1&sn=5bc60c75f68d3c921ef954d6c58aa5b4

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

一、核心结论和贡献

二、背景介绍

三、模型结构

四、模型训练：自回归蒸馏（Autoregressive Distillation）

五、训练数据

六、实验结果

七、模型分析和可视化

7.1 二值化大模型是 从头开始训练还是从预训练的 LLM 接着训练？

7.3 存储效率分析

7.4 生成结果示例

7.5 模型配置和训练细节

7.1 二值化大模型是从头开始训练还是从预训练的 LLM 接着训练？