比GPU快20倍？d-Matrix推理性价比分析

科技 2024-12-06 12:04 北京

文章转载自公众号：OneFlow。本文只做学术/技术分享，如有侵权，联系删文。

AI推理算力需求正在大幅增长。一方面，像硅基流动、Fireworks这样的AI基础设施软件公司通过软件层面的优化以提供高性价比的大模型推理服务，另一方面，以Cerebras、Groq为代表的芯片公司相继推出了专用AI推理芯片，通过硬件层面的创新，以数量级的推理速度与成本优势来挑战英伟达GPU的市场地位。

AI推理芯片市场的竞争者还在增加。近日，成立于2019年的硅谷推理芯片创业公司d-Matrix的首款AI推理芯片Corsair已开始交付，他们预计明年会开始大规模出货，其中，超微电脑将销售可搭载d-Matrix芯片的服务器，目标是提供聊天机器人和视频生成等服务。d-Matrix已累计获得超过1.6亿美元的融资，投资者包括微软、淡马锡等。

据d-Matrix官方口径，Corsair在单台服务器中为Llama3 8B提供60000个tokens/sec的性能，每个token的延迟为1毫秒。与GPU和其他方案相比，Corsair在性能、能源效率和成本方面处于领先地位。

这款芯片是‍如何做到的‍？芯片工程师Zach在本文中进行了深入分析，最核心的一点是，不同于Groq等推理芯片的内存与计算是独立部分，d-Matrix基于数字的内存中处理（PIM）架构开发了Corsair，使得其部署的计算密度和内存密度远超竞争对手的芯片。

尽管d-Matrix的芯片令人振奋，不过Zach指出，由于其芯片系统没有配备HBM，在实际基础设施部署中运行Llama-70B这样的大参数模型时，需要在购买一整个机架的芯片才可能达到上述性能，但对大多数客户而言不具备性价比优势。

（本文由OneFlow编译发布，转载请联系授权。原文：https://www.zach.be/p/most-ai-chips-arent-cost-effective）

11 月 19 日，d-Matrix宣布其首款商用芯片Corsair已开始向早期客户发货。同时，他们还公布了产品令人瞩目的性能数据；在Llama2 7B模型上，Corsair输出每个词元的速度相较于Nvidia的H100快20倍（参见白皮书，https://www.d-matrix.ai/wp-content/uploads/2024/11/d-Matrix-WhitePaper-Technical-FINAL.pdf）。

乍一看，这似乎预示着我们手握一款GPU杀手。然而，与大多数AI芯片公司一样，公开的性能数据仅仅只是一部分。d-Matrix的技术和性能令人印象深刻，对于某些客户而言，它或许是理想之选，但它并不是适用于所有场景的GPU替代品。

d-Matrix正在基于数字内存中处理（PIM）架构开发芯片。与Groq、MatX和SambaNova等公司相比，这使得d-Matrix的芯片在技术上更具创新性和吸引力。显然，新颖并不意味着更好，但一家初创公司对一种新型芯片的成功商业化，让我感到十分兴奋。我也乐于看到内存中处理技术取得成功；今年早些时候，我出售了我在2021年创立的用于加密领域的PIM公司。

遗憾的是，若细读d-Matrix的白皮书，其激荡的叙述中便显露出些许不足。尽管d-Matrix的芯片令人振奋，十分新颖，但对于大多数客户而言，它们可能并不具备成本效益。具体来说，其令人瞩目的基准测试成绩均基于芯片运行在“性能模式”下，而这种模式在实际基础设施部署中未必能实现。

01 “性能模式”

d-Matrix所有令人瞩目的性能数据均指出，芯片正在“性能模式”下运行。这正是d-Matrix 宣称其优势所在；根据其白皮书，若从性能模式切换到“容量模式”，Corsair的性能会急剧下降。

仔细阅读白皮书，我们会发现，性能模式指的是整个模型能够存储在片上SRAM中的状态。记得我有关Groq的文章（https://www.zach.be/p/why-is-everybody-talking-about-groq）的读者可能已经猜到这会引向何处。如果想将一个大型模型完全放入片上SRAM，这将需要大量的芯片，这使得基础设施成本大幅增加。

在容量模式下，d-Matrix将额外的模型权重存储在外部DRAM中。他们的系统中没有配备HBM，这意味着一旦模型过大无法装入SRAM，性能会大幅下降。这或许解释了为何他们未广泛公开容量模式的性能数据；我预计，其性能会低于英伟达配备HBM的H100 GPU所能达到的水平。

这意味着构建高性能的d-Matrix系统将会相当昂贵。如果API提供商希望服务于许多不同的微调模型，或是服务于像Llama 405B这样的超大型模型，他们需要购买大量d-Matrix系统机架以获得可接受的性能。

幸运的是，d-Matrix似乎非常清楚这一局限性，并正在竭尽全力减少其全SRAM策略对其系统成本效益的影响。即便在所谓的性能模式下，他们也能在一个机架中将Llama 70B完全部署在SRAM上。作为参考，在Groq硬件上运行Llama 70B需要8个机架（https://www.zach.be/p/why-is-everybody-talking-about-groq）。

他们是如何做到的？答案是：利用新的数字格式和极其密集的计算能力。

02 块浮点推理

2023 年，包括微软、英伟达和Meta在内的行业联盟提出了一套名为微缩（Microscaling）数据格式的新数据格式（https://arxiv.org/pdf/2310.10537）。这些新格式包括所谓的块浮点格式，如MXINT8和MXINT16。[1] 这些格式具有多个共享指数的整数值（https://proceedings.mlr.press/v162/yeh22a/yeh22a.pdf），如下图所示：

仅有少数芯片支持这些新型数据格式（https://en.wikipedia.org/wiki/Block_floating_point），包括AMD的部分边缘AI NPU、Tenstorrent的Grayskull和Wormhole芯片，以及最为突出的d-Matrix的Jayhawk和Corsair芯片。MXINT8显著简化了机器学习模型的内存格式；通过将众多不同的指数替换为单一共享指数，可以干净利落地消除大量需要存储在芯片上的比特（位）。这也是为何d-Matrix在部署整个模型于芯片SRAM时所需芯片数量少于Groq的原因之一。

但块浮点运算对d-Matrix来说还有另一个重要原因。传统的浮点运算对于内存处理芯片来说相当复杂。要想添加浮点数，需要将它们转换为相同的指数。这涉及到对尾数（mantissa）进行位移操作，这在内存阵列内部并行处理时非常困难，因为每个尾数可能需要按不同的量进行移位。

借助MXINT8数学运算，d-Matrix能够利用内存处理核心，这些核心在定点运算方面提供了极高的效率（https://ieeexplore.ieee.org/document/9365766），从而加速大语言模型所需的浮点计算。这一点至关重要，因为内存处理技术使得d-Matrix能够部署计算密度和内存密度远超竞争对手的芯片。

03 计算密度的价值

Groq的每张卡提供230MB片上SRAM。d-Matrix的每张卡则提供2GB。d-Matrix是如何做到比其竞争对手多出10倍的SRAM？答案在于内存中处理技术及其带来的极高密度。

在GPU和传统AI芯片中，神经网络的权重、输入和参数存储在片上内存中。当需要使用这些权重进行计算时，必须将它们从内存移至寄存器，计算过程中它们就存储在寄存器里。在内存与寄存器之间移动数据既耗时又耗能，且这些寄存器本身也占用芯片面积。

内存中处理（PIM），亦称内存中计算（CIM）或内存计算（IMC），将 SRAM 存储器与计算逻辑紧密集成于一个高密度模块中，如图所示：

在PIM架构中，无需将数据从内存传输到寄存器再传回。相反，直接在数据仍处于内存中时进行计算。这消除了在内存与寄存器之间来回传输数据所需的大量电力。大多数PIM概述都强调这种能效是该技术提供的关键价值。

PIM在计算密度方面也提供了显著优势。通过消除大型且昂贵的寄存器和ALU，PIM架构能够将更多芯片面积用于片上SRAM。更多的片上SRAM意味着对片外DRAM的访问次数减少。而由于DRAM访问是AI芯片中最大的延迟和能效瓶颈，更高的计算密度可以在规模上显著提升性能。

这就是d-Matrix只需一个机架就能完成Groq需要八个机架才能完成任务的原因。d-Matrix的PIM架构密集且能效高，因此每张卡上可获得10倍以上的片上内存，并且部署模型的总拥有成本（TCO）低于其他AI芯片。

04 d-Matrix的芯片性价比高吗？

无论PIM技术多么令人振奋，我不确定它是否能降低d-Matrix芯片的成本效益。客户仍需购买一整个机架的芯片才能高效运行Llama-70B。对于那些愿意为超低延迟推理支付高额前期成本的客户来说，这或许合理，但对绝大多数潜在客户而言，可能并不划算。

然而，我认为d-Matrix正在开辟一条通向更高效的AI计算道路。通过结合块浮点数学和超密集的PIM架构，d-Matrix能够使其芯片在成本效益上远超其最接近的竞争对手Groq。如果d-Matrix在其未来架构中引入HBM以提升对那些无法完全装入SRAM的大型模型的性能，我认为，他们将成为AI芯片领域中极具竞争力的一员。

[1] MXINT8是一种块浮点格式。

—END—

点击下方名片

即刻关注我们

算力猩

隶属于智猩猩，关注计算芯片创新，解读中国算力突破。

算力网（络），应该是什么

先进封装技术解读 | 台积电

IBM 的大规模 A100/H100 GPU 集群 Infra 建设

22页PPT详解 NVIDIA RTX™ 5880 Ada 及训推一体机【附下载】

AI数据中心：网络设计和选型标准

突破内存墙：DRAM技术演进及3D DRAM革命

SC24｜谷歌AI加速器：TPU v6e Trillium技术解析

公开课预告：大规模异构GPU集群的互联、运维与调度｜基流科技技术负责人敬阳主讲

揭秘 AWS 10p10u 最新网络架构！

AI时代的以太网：应对大规模GPU集群网络挑战

智算中心正在CDN化

博通3.5D F2F技术：定义AI XPU的未来

NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署｜在线研讨会直播预告

AI数据中心历史、技术与关键企业

揭秘！世界第一个采用CXL 3.1交换机的AI集群

公开课预告：大模型时代的智算GPU集群｜阿里云智能集团智算集群产品专家陈祎主讲

GPU服务器支持的“卡数”由哪些因素决定？

HBM制裁加码下的困境与出路

Meta 万卡 GPU 集群稳定性剖析与最佳实践

通往万亿晶体管GPU之路

亚马逊芯片帝国背后的功臣

比GPU快20倍？d-Matrix推理性价比分析

AWS最强AI芯片，深度解读！

功能安全的图形显示解决方案与汽车制造业模拟数字孪生平台 | NVIDIA 加速汽车制造与智驾开发专场直播预告

公开课预告：OISA构建开放高性能GPU卡间互联体系｜中国移动研究院李锴主讲

NVIDIA GH200 内部架构探究

UEC 和 UAL 应该合并吗？

AI Infra峰会与大模型峰会议程全公布！2024中国生成式AI大会上海站本周举行，报名即将截止！

公开课预告：针对先进封装的2.5D/3D Chiplet协同设计仿真EDA工具探讨｜硅芯科技创始人赵毅主讲

一文看懂Infinity Fabric

大模型时代：交换机衡量指标、技术演变及性能分析

爱芯元智吴炜：多模态大模型在端侧的创新实践与挑战｜GenAICon 2024上海站演讲预告

智算中心：现状、挑战、策略与未来机遇

GenAICon 2024上海站主会场议程公布！34位学者专家全景式解构大模型与AI Infra

追赶NVIDIA，国产AI芯片需努力的5个方面

光羽芯辰创始人周强：通向个人大模型之路｜演讲预告

从UALink近期发展再看GPU Scale Up的互连方向

无问芯穹首席科学家戴国浩教授：软硬协同与多元异构，共筑大模型算力底座｜演讲预告

公开课预告：智算中心 AI Scale-Up 网络技术｜益思芯科技解决方案副总裁唐杰主讲

大规模AI计算时代的存储：挑战与优化

聊一聊算力调度

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性｜GMI Cloud 亚太区总裁 King.Cui演讲预告

中国系统级封装大会SiP China 2024周三开启！免费报名～

面向大规模AI计算的高性能网络架构：Enfabrica ACF-S解决方案深度解析

近30家大模型与AI Infra企业来了！年度生成式AI大会上海站公布最新嘉宾，报名进入最后阶段

高性能GPU服务器硬件拓扑及集群组网

GPU互连新标准：UALink联盟能否打破NVIDIA垄断？

高性能智算集群设计思考与实践｜阿里云智算集群产品解决方案负责人丛培岩演讲预告

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性？｜GMI Cloud 亚太区总裁 King.Cui演讲预告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉