微软开源爆火1.58bit大模型推理框架！千亿参数模型量化后单CPU可跑，速度每秒5-7个token

文摘 2024-10-28 08:01 浙江

近期文章回顾（更多热门文章请关注公众号与知乎Rocky Ding哦）

写在前面

WeThinkIn最新福利放送：大家只需关注WeThinkIn公众号，后台回复“简历资源”，即可获取包含Rocky独家简历模版在内的60套精选的简历模板资源，希望能给大家在AIGC时代带来帮助。

AIGC时代的《三年面试五年模拟》算法工程师求职面试秘籍独家资源：https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main

Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章，点击链接直达干货知识：https://zhuanlan.zhihu.com/p/684068402

以下文章来源于：量子位

本文仅用于学术分享，如有侵权，请联系后台作删文处理

微软开源1bit大模型推理框架！

现在1000亿参数大模型量化后单CPU可跑，速度可达每秒5-7个token。

比如在苹果M2新品上运行BitNet b1.58 3B模型，be like：

就是今年爆火论文The Era of 1-bit LLMs的官方代码实现，开源不到一周GitHub已揽获7.9k Star。

传统大模型参数以16位浮点数（如FP16或BF16）形式的存储，而BitNet b1.58将其统统变成了三进制，也就是 {-1, 0, 1}。

这里的“1.58 bit”指每个参数可以用1.58位的信息来表示。

转换之后，矩阵中的计算就只会涉及到加法，因此会让大模型在保持一定精度的同时，显著减少所需的存储空间和计算资源，也显著提升了在本地设备上运行LLM的可能性。

这个项目开源后，在X上也受到了一波高度关注。

千亿参数模型量化后单CPU可跑

bitnet.cpp是1bit LLM（例如 BitNet b1.58）的官方推理框架。

该框架配备了一系列优化内核，支持在CPU上进行快速且无损的1.58bit模型推理，未来将扩展支持NPU和GPU。

bitnet.cpp的首版主要支持CPU推理。

具体性能改进方面，在ARM CPU上，该框架可实现1.37至5.07倍的加速，而且更大的模型将有更显著的性能提升。

同时，它能将能耗降低55.4%至70.0%，进一步增强效率。

在x86 CPU上，加速效果介于2.37至6.17倍之间，能耗减少71.9%至82.2%。

网友们也发现了华点，在x86上的性能增益量比ARM更大。

此外，bitnet.cpp能使千亿参数模型量化后单CPU可跑，速度可达每秒5-7个token，接近人类阅读速度。

微软还展示了使用bitnet.cpp推理框架支持的不同1 bit LLM。

6页论文，引入1 bit LLM

1 bit LLM的实现方法，微软在一年前就有相关研究，称为BitNet（一种Transformer），用BitLinear替换了nn.Linear。

今年二月，BitNet原班人马在上一篇论文的基础之上做了优化，提出BitNet b1.58，在原始BitNet的基础上增加了一个额外的0值。

然后这篇内容只有6页的论文引发热议：

BitNet b1.58模型的权重被量化为三元值{-1, 0, 1}，相当于在二进制系统中使用了1.58 bit来表示每个权重。

采用了absmean量化函数来约束权重，将权重矩阵通过其平均绝对值进行缩放，然后四舍五入到最接近的整数值（-1、0或1）。

激活量化中，激活值被缩放到[−Qb, Qb]的范围，以此来消除零点量化。

在架构设计上，BitNet b1.58借鉴了Llama，使用了RMSNorm、SwiGLU、旋转位置编码等组件，并移除了所有偏置项。这种设计使其能够轻松集成到主流的开源框架中。

实验中，与Llama相比，BitNet b1.58在矩阵乘法方面节省了71.4倍的计算能耗。

这种方法发布后，也有不少人在这项研究的基础之上进行探索。

其中一个问题是，BitNet b1.58将每个参数仅用三元值表示，但是所有这些都需要从头开始训练模型，并不是谁都有预算来进行LLM预训练。

而Huggingface Transformers最近整合了BitNet b1.58，运用了一些技巧，使得现有模型可以直接微调到1.58bit。

感兴趣的童鞋可以自行查阅。

不过也有网友指出了这种方法的局限：

总之，1 bit LLM具有巨大的潜力。

但也正如网友所言，1 bit LLM关键还得是能在实践中证明自己。

参考链接：
[1]https://github.com/microsoft/BitNet
[2]https://x.com/rohanpaul_ai/status/1847814379657462201
[3]https://x.com/rohanpaul_ai/status/1848172443258728860?s=46&t=iTysI4vQLQqCNJjSmBODPw
[4]https://huggingface.co/blog/zh/1_58_llm_extreme_quantization

推荐阅读

1、加入AIGCmagic社区知识星球

AIGCmagic社区知识星球不同于市面上其他的AI知识星球，AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台，涉及AI绘画、AI视频、大模型、AI多模态、数字人、全行业AIGC赋能等50+应用方向，内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等。

那该如何加入星球呢？很简单，我们只需要扫下方的二维码即可。知识星球原价：299元/年，前200名限量活动价，终身优惠只需199元/年。大家只需要扫描下面的星球优惠卷即可享受初始居民的最大优惠：

2、《三年面试五年模拟》算法工程师面试秘籍

《三年面试五年模拟》面试秘籍旨在整理&挖掘AI算法工程师在实习/校招/社招时所需的干货知识点与面试方法，力求让读者在获得心仪offer的同时，增强技术基本面。

Rocky已经将《三年面试五年模拟》面试秘籍的完整版构建在Github上：https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main，欢迎大家star！

想要一起进行项目共建的朋友，欢迎点击链接加入项目团队：《三年面试五年模拟》版本更新白皮书，迎接AIGC时代

3、Sora等AI视频大模型的核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用AI视频大模型，从0到1训练自己的AI视频大模型，AI视频大模型性能测评，AI视频领域未来发展等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

Sora等AI视频大模型文章地址：https://zhuanlan.zhihu.com/p/706722494

4、Stable Diffusion 3和FLUX.1核心原理，核心基础知识，网络结构，从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画，从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型，Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

Stable Diffusion 3和FLUX.1文章地址：https://zhuanlan.zhihu.com/p/684068402

5、Stable Diffusion XL核心基础知识，网络结构，从0到1搭建使用Stable Diffusion XL进行AI绘画，从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型，AI绘画领域的未来发展等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

Stable Diffusion XL文章地址：https://zhuanlan.zhihu.com/p/643420260

6、Stable Diffusion 1.x-2.x核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用Stable Diffusion进行AI绘画，从0到1上手使用Stable Diffusion训练自己的AI绘画模型，Stable Diffusion性能优化等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

Stable Diffusion文章地址：https://zhuanlan.zhihu.com/p/632809634

7、ControlNet核心基础知识，核心网络结构，从0到1使用ControlNet进行AI绘画，从0到1训练自己的ControlNet模型，从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

ControlNet文章地址：https://zhuanlan.zhihu.com/p/660924126

8、LoRA系列模型核心原理，核心基础知识，从0到1使用LoRA模型进行AI绘画，从0到1上手训练自己的LoRA模型，LoRA变体模型介绍，优质LoRA推荐等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

LoRA文章地址：https://zhuanlan.zhihu.com/p/639229126

9、Transformer核心基础知识，核心网络结构，AIGC时代的Transformer新内涵，各AI领域Transformer的应用落地，Transformer未来发展趋势等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

Transformer文章地址：https://zhuanlan.zhihu.com/p/709874399

10、最全面的AIGC面经《手把手教你成为AIGC算法工程师，斩获AIGC算法offer！（2024年版）》文章正式发布！

码字不易，欢迎大家多多点赞：

AIGC面经文章地址：https://zhuanlan.zhihu.com/p/651076114

11、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布！

码字不易，欢迎大家多多点赞：

算法工程师三年面试五年模拟文章地址：https://zhuanlan.zhihu.com/p/545374303

《三年面试五年模拟》github项目地址（希望大家能多多star）：https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer

12、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识，从0到1搭建AI绘画框架，从0到1使用AI绘画框架的保姆级教程，深入浅出介绍AI绘画框架的各模块功能，深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

AI绘画框架文章地址：https://zhuanlan.zhihu.com/p/673439761

13、GAN网络核心基础知识，网络架构，GAN经典变体模型，经典应用场景，GAN在AIGC时代的商业应用等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

GAN网络文章地址：https://zhuanlan.zhihu.com/p/663157306

14、其他

Rocky将YOLOv1-v7全系列大解析文章也制作成相应的pdf版本，大家可以关注公众号WeThinkIn，并在后台【精华干货】菜单或者回复关键词“YOLO” 进行取用。

http://mp.weixin.qq.com/s?__biz=Mzg4NDYwOTUwNA==&mid=2247489195&idx=1&sn=3f21f5a3ea692ccd187f81a350964856

WeThinkIn

Rocky相信人工智能，数据科学，商业逻辑，金融工具，终身成长，以及顺应时代的潮流会赋予我们超能力。