微软亚洲研究院多项创新技术，弥合大模型低比特量化与终端部署间鸿沟

科技 2024-08-20 17:03 北京

（本文阅读时间：14分钟）

编者按：在人工智能领域，模型参数的增多往往意味着性能的提升。但随着模型规模的扩大，其对终端设备的算力与内存需求也日益增加。低比特量化技术，由于可以大幅降低存储和计算成本并提升推理效率，已成为实现大模型在资源受限设备上高效运行的关键技术之一。然而，如果硬件设备不支持低比特量化后的数据模式，那么低比特量化的优势将无法发挥。

为了解决这一问题，微软亚洲研究院推出了全新的数据编译器 Ladder 和算法 T-MAC，使当前只支持对称精度计算的硬件能够直接运行混合精度矩阵乘法。测试结果表明，Ladder 在支持 GPU 原本不支持的自定义数据类型方面，最高提速可达14.6倍；T-MAC 在搭载了最新高通 Snapdragon X Elite 芯片组的 Surface AI PC 上，使 CPU 上运行的大模型吞吐率比专用加速器 NPU 快两倍。此外，研究员们还设计了 LUT Tensor Core 硬件架构，这种精简设计使硬件能够直接支持各种低比特混合精度计算，为人工智能硬件设计提供了新思路。

大模型已经越来越多地被部署在智能手机、笔记本电脑、机器人等端侧设备上，以提供先进的智能及实时响应服务。但包含上亿参数的大模型对终端设备的内存和计算能力提出了极高的要求，也因此限制了它们的广泛应用。低比特量化技术因其能显著压缩模型规模，降低对计算资源的需求，成为了大模型在端侧部署和实现高效推理的有效手段。

随着低比特量化技术的发展，数据类型日益多样化，如 int4、int2、int1 等低比特数据，使得大模型在推理中越来越多地采用低比特权重和高比特权重计算的混合精度矩阵乘法（mixed-precision matrix multiplication，mpGEMM）。然而，现有的 CPU、GPU 等硬件计算单元通常只支持对称计算模式，并不兼容这种混合精度的矩阵乘法。

混合精度矩阵乘法与传统的矩阵乘法有何不同？

在传统的矩阵乘法中，参与运算的两端数值是对称的，例如 FP16*FP16、int8*int8。但大模型的低比特量化打破了这种对称性，使乘法的一端是高比特，另一端是低比特，例如在 1-bit 的 BitNet 模型中实现的 int8*int1 或 int8*int2，以及浮点数与整数的混合乘法 FP16*int4。

为了充分发挥低比特量化的优势，让硬件设备能够直接支持混合精度矩阵乘法，确保大模型在端侧设备上的高速有效运行，微软亚洲研究院的研究员们针对现有 CPU、GPU 计算算子和硬件架构进行创新：

推出了数据类型编译器 Ladder，支持各种低精度数据类型的表达和相互转换，将硬件不支持的数据类型无损转换为硬件支持的数据类型指令，在传统计算模式下，使得硬件能够支持混合精度的 DNN（深度神经网络）计算；
研发了全新算法 T-MAC，基于查找表（Lookup Table，LUT）的方法，实现了硬件对混合精度矩阵乘法的直接支持，软件层面，在 CPU 上的计算相比传统计算模式取得了更好的加速；
提出了新的硬件架构 LUT Tensor Core，为下一代人工智能硬件设计打开了新思路。

Ladder：自定义数据类型无损转换成硬件支持的数据类型

当前，前沿加速器正在将更低比特的计算单元，如 FP32、FP16，甚至 FP8 的运算集成到新一代的架构中。然而，受限于芯片面积和高昂的硬件成本，每个加速器只能为标准的数据类型提供有限类型的计算单元，比如 NVIDIA V100 TENSOR CORE GPU 仅支持 FP16，而 A100 虽然加入了对 int2、int4、int8 的支持，但并未涵盖更新的 FP8 或 OCP-MXFP 等数据格式。此外，大模型的快速迭代与硬件升级的缓慢步伐之间存在差距，导致许多新数据类型无法得到硬件支持，进而影响大模型的加速和运行。

微软亚洲研究院的研究员们发现，尽管硬件加速器缺乏针对自定义数据类型的计算指令，但其内存系统可以将它们转换为固定位宽的不透明数据块来存储任意数据类型。同时，大多数自定义数据类型可以无损地转换为现有硬件计算单元支持的更多位的标准数据类型。例如，NF4 张量可以转换成 FP16 或 FP32 以执行浮点运算。

基于这些发现，研究员们提出了一种通过分离数据存储和计算来支持所有自定义数据类型的方法，并研发了数据编译器 Ladder，以弥合不断出现的自定义数据类型与当前硬件支持的固有精度格式之间的差距。

Ladder 定义了一套数据类型系统，包括数据类型之间无损转换的抽象，它能够表示算法和硬件支持的各种数据类型，并定义了数据类型之间的转换规则。当处理低比特算法应用时，Ladder 通过一系列优化，将低比特数据转译成当前硬件上最高效的执行格式，包括对计算和存储的优化——将算法映射到匹配的计算指令，并将不同格式的数据存储到不同级别的存储单元中，以实现最高效的运算。

图1：Ladder 的系统架构

在 NVIDIA A100、NVIDIA V100、NVIDIA RTX A6000、NVIDIA RTX 4090 和 AMD Instinct MI250 GPU 上运行的 DNN 推理性能评估显示，Ladder 在原生支持数据类型上超越了现有最先进的 DNN 编译器，并且在支持 GPU 原本不支持的自定义数据类型方面表现出色，最高提速可达14.6倍。

Ladder 是首个在现代硬件加速器上运行 DNN 时，可以系统性地支持以自定义数据类型表示低比特精度数据的系统。这为模型研究者提供了更灵活的数据类型优化方法，同时也让硬件架构开发者在不改变硬件的情况下，支持更广泛的数据类型。

T-MAC：无需乘法的通用低比特混合精度矩阵乘计算

为了让现有硬件设备支持不同的数据模式和混合精度矩阵乘法，在端侧部署大模型时，常见的做法是对低比特模型进行反量化。然而，这种方法存在两大问题：首先，从性能角度来看，反量化过程中的转换开销可能会抵消低比特量化带来的性能提升；其次，从开发角度来看，开发者需要针对不同的混合精度重新设计数据布局和计算内核。微软亚洲研究院的研究员们认为，在设备上部署低比特量化的大模型，关键在于如何基于低比特的特点来突破传统矩阵乘法的实现。

为此，研究员们从系统和算法层面提出了一种基于查找表（LUT，Look-Up Table）的方法 T-MAC，帮助低比特量化的大模型在 CPU 上实现高效推理。T-MAC 的核心思想在于利用混合精度矩阵乘法的一端为极低比特（如1比特或2比特）的特点。它们的输出结果只有2的1次方和2的2次方种可能，这些较少的输出结果完全可以提前计算并存储在表中，在运算时，只需从表中读取结果，避免了重复计算，大幅减少了乘法和加法的运算次数。

具体而言，T-MAC 将传统的以数据类型为中心的乘法转变为基于位的查找表操作，实现了一种统一且可扩展的混合精度矩阵乘法解决方案，减小了表的大小并使其停留在最快的内存单元中，降低了随机访问表的成本。这一创新为在资源受限的边缘设备上部署低比特量化大模型铺平了道路。

图2：T-MAC 示意图

在针对低比特量化的 Llama 和1比特的 BitNet 大语言模型的测试中，T-MAC 展现出了显著的性能优势。在搭载了最新高通 Snapdragon X Elite 芯片组的 Surface Laptop 7 上，T-MAC 让 3B BitNet-b1.58 模型的生成速率达到每秒48个 token，2bit 7B Llama 模型的生成速率达到每秒30个 token，4bit 7B Llama 模型的生成速率可达每秒20个 token，这些速率均远超人类的平均阅读速度。与原始的 Llama.cpp 框架相比，其提升了4至5倍，甚至比专用的 NPU 加速器还快两倍。

即使是在性能较低的设备上，如 Raspberry Pi（树莓派）5，T-MAC 也能使 3B BitNet-b1.58 模型达到每秒11个 token 的生成速率。T-MAC 还具有显著的功耗优势，在资源受限的设备上可以达到相同的生成速率，而它所需的核心数仅为原始 Llama.cpp 的1/4至1/6。

这些结果表明，T-MAC 提供了一种实用的解决方案，使得在使用通用 CPU 的边缘设备上部署大语言模型更为高效，且无需依赖 GPU，让大模型在资源受限的设备上也能高效运行，从而推动大模型在更广泛的场景中的应用。

LUT Tensor Core：推动下一代硬件加速器原生支持混合精度矩阵乘法

T-MAC 和 Ladder 都是在现有 CPU 和 GPU 架构上，实现对混合精度矩阵乘法的优化支持。尽管这些软件层面的创新显著提升了计算效率，但它们在效率上仍无法与能够直接实现一个专门查找表的硬件加速器相比。研究员们认为，最理想的方法是重新设计硬件加速器，让 CPU、GPU 等能够原生支持混合精度矩阵乘法，但这一目标面临三大挑战：

效率：设计和实现方式必须具有成本效益，通过优化芯片的利用面积，最大限度地提高低比特数据的计算效益。
灵活性：由于不同的模型和场景需要不同的权重和激活精度，因此硬件中的混合精度矩阵乘法设计必须能够处理各种权重精度(如 int4/2/1)和激活精度(如 FP16/8、int8)及其组合。
兼容性：新设计必须与现有的 GPU 架构和软件生态系统无缝集成，以加速新技术的应用。

为了应对这些挑战，微软亚洲研究院的研究员们设计了 LUT Tensor Core，这是一种利用查找表直接执行混合精度矩阵乘法的 GPU Tensor Core 微架构。一方面，基于查找表的设计将乘法运算简化为表预计算操作，可直接在表中查找结果，提高计算效率。另一方面，这种方法也简化了对硬件的需求，它只需用于表存储的寄存器和用于查找的多路选择器，无需乘法器和加法器。同时，LUT Tensor Core 通过比特串行设计实现了权重精度的灵活性，并利用表量化实现了激活精度的灵活性。

此外，为了与现有 GPU 微架构和软件堆栈集成，研究员们扩展了 GPU 中现有的 MMA 指令集，加入了一组 LMMA 指令，并设计了一个类似于 cuBLAS 的软件堆栈，用于集成到现有的 DNN 框架中。研究员们还设计了一个编译器，用于在具有 LUT Tensor Core 的 GPU 上进行端到端的执行计划。这些创新方法可以让 LUT Tensor Core 被无缝、快速地采用。

图3：LUT Tensor Core 微架构概述

在 Llama 和 BitNet 模型上的测试显示，LUT Tensor Core 可以提供高达6.93倍的推理速度，且只占传统 Tensor Core 面积的38.7%。在几乎相同的模型精度下，这相当于20.7倍的计算密度和19.1倍的能效提升。随着人工智能大模型规模和复杂性的不断增长，LUT Tensor Core 有助于进一步释放低比特大语言模型的潜力，推动人工智能在新场景中的应用。

“查找表方法引领了计算范式的转变。在过去，我们依赖于矩阵乘法和累加运算，而在大模型时代，得益于低比特量化技术，查找表方法将成为主流。相较于传统的浮点运算或矩阵乘法，查找表方法在计算上更轻便高效，而且在硬件层面上更易于扩展，能够实现更高的晶体管密度，在单位芯片面积上提供更大的吞吐量，从而推动硬件架构的革新。”微软亚洲研究院首席研究员曹婷表示。

低比特量化的长尾效应：为具身智能带来新可能

低比特量化技术不仅优化了大模型在端侧设备上的运行效率，还通过减少单个参数的“体积”，为模型参数的扩展（Scale up）提供了新的空间。这种参数扩展能力，使模型拥有了更强的灵活性和表达能力，正如 BitNet 模型所展示的，从低比特模型出发，逐步扩展至更大规模的训练。

微软亚洲研究院的 T-MAC、Ladder 和 LUT Tensor Core 等创新技术，为各种低比特量化大模型提供了高效能的运行方案，使得这些模型能够在各种设备上高效运行，并推动科研人员从低比特角度设计和优化大模型。其中部分技术已经在微软必应（Bing）搜索及其广告业务等搜索大模型中发挥作用。随着对内存和计算资源的降低，低比特大模型在机器人等具身智能系统上的部署也将成为可能，可以使这些设备更好地实现与环境的动态感知和实时交互。

目前，T-MAC 和 Ladder 已经在 GitHub 上开源，欢迎相关研发人员测试应用，与微软亚洲研究院共同探索人工智能技术的更多可能。

最新文章

Rust自动形式化证明、LLMs图模式理解、机械臂动作模仿

科学匠人 | 对话松下康之：以具身智能突破人工智能与物理世界的边界

对话《Nature》论文作者，揭秘AI2BMD背后的故事

近实时的全球碳预算，揭示2023年陆地碳汇能力锐减

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

MarS：生成式基座模型时代的通用金融市场模拟引擎

明天直播 | ECCV 2024精选论文分享

如何泛化AI的深度推理能力？

简单而强大：DIFF Transformer降噪式学习，开启模型架构新思路

科学匠人 | 刘海广：发挥“生物多样性”法则的力量，寻找科学的新答案

VIS 2024最佳论文 | VisEval：推动自然语言生成可视化的全新评估框架

从预测风暴到设计分子：人工智能基础模型如何加速科学发现

ECCV上新 | 精选计算机视觉领域6篇前沿论文

Data Formulator：使用prompt就能轻松完成数据可视化

为什么你的LLMs玩不转外部知识？RAG分类学助你诊断！

守护记忆：多模态大模型为认知障碍患者带来全新的训练方法

科研上新 | 金融模型、LLMs结构化剪枝、多模态对齐、AI芯片深度学习编译器

开源工具RD-Agent：让研究与开发过程更智能

VALL-E 2，大幅提升语音大模型的稳健性与自然度

微软亚洲研究院2025校园招聘正式开启！

跨越模态边界，探索原生多模态大语言模型

明天直播 | ACL 2024精选5篇论文直播分享

代码摘要、生成、翻译、修复全覆盖... WaveCoder开启代码智能新篇章

集成大语言模型与产业数据智能，迈向“产业基础模型”

Microsoft Research Forum第四期来了！一起来看多模态模型的最新技术进展与应用

星跃计划 | 微软亚洲研究院北京+温哥华联合科研项目上新，聚焦大语言模型！

开启因果发现新范式！解密复杂系统的核心机制

微软亚洲研究院多项创新技术，弥合大模型低比特量化与终端部署间鸿沟

顶尖高校优秀学子齐聚微软亚洲研究院新星科技节，论道科研！

如何理解和探索大模型的多语言能力？

执业医师转型人工智能研究员，王子龙说“跨”才是关键

ACL上新 | 6篇精选论文带你看最新LLMs进展

周二直播 | AI for Science最新论文分享

USENIX ATC 2024最佳论文 | 微软如何提升云AI基础设施的可靠性

图像解码器；多头混合专家网络；视觉模型美学对齐；医学视觉任务适应基准

大语言模型应用如何实现端到端优化？

LSR-MP：突破分子模拟瓶颈，探索知识引导的AI范式

明天直播 | ICML 2024精选论文分享

nnScaler：重塑深度学习并行策略，大幅提升训练效率

ICML 2024 | 微软亚洲研究院邀你共聚机器学习领域盛会

完全激活稀疏大模型，Q-Sparse突破LLM推理效能

数据驱动模型提升电动汽车电池退化预测准确率

ProbTS：时间序列预测的统一评测框架

你应该知道的10个AI术语

实习 | 微软亚洲研究院“明日之星”开放岗位

脑启发设计：人工智能的进化之路

以智能化为舵手，引领现代计算机系统架构新航向

构建负责任且大规模的生成式人工智能的七个启示

AI赋能天气：微软研究院发布首个大规模大气基础模型Aurora

CVPR上新 | 从新视角合成、视频编解码器、人体姿态估计，到文本布局分析，微软亚洲研究院精选论文

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉