2024年11月,D-matrix 发布了他们最新一代的推理芯片Corsair。作为推理赛道的有力竞争者之一,Corsair一经发布便备受关注。本文将对比Corsair、Groq的LPU、Cerebras的WSE-3三家推理芯片。
推理芯片是专门用于在已训练好的AI模型上,重新处理新输入数据给予推理结果的芯片。这给予了未来生活中各种AI应用场景核心支持。传统的GPU在推理任务上的表现并不如ASIC出色,从资本支出的角度考虑拥有更低的性价比,这也给了一系列研发推理芯片的初创公司入局机会。
Corsair和LPU都是ASIC芯片,而WSE-3则另辟蹊径,采取了用整块晶圆直接作为芯片的创新举动。从单纯的性能角度来看,WSE-3由于采用了整块晶圆,其片上内存带宽和内存容量被提升到了极致,横向对比Corsair和LPU的片上内带宽分别为150TB/s和80TB/s,WSE-3则是达到了21PB/s(1PB=1000TB)。这代表计算传输的速度被拉满,而计算传输的速度又直接拉高了推理任务的反应速度,达到实时反应的效果。
据消息称,Cerebras目前采用的是冗余设计来避免单一坏点损坏整个芯片,但其维护成本将会很大。另外,据业内人士消息,考虑到良品率低、冗余设计负责等特点,TCO也整体被拉的极高。这样高成本、低延迟的应用场景有限,且无法对应到所有市场客户的需求,尤其是需求最大群体数据中心。从另一个角度考虑,虽然一份WSE-3相当于其他对手几十块芯片的算力,但是这样的芯片无法灵活满足对应的需求算力,也算是另一大缺点。
而谈到Corsair和Groq的LPU这两位2024年推理芯片新星,所走的路线类似却又不完全一样。首先是Groq发布的LPU,业内人士用了1周左右的时间从一开始的兴奋到冷静。虽然官方公布的数据令人激动,但是在牺牲内存的前提下,用容量极小的片上SRAM而不采用任何DRAM。这样的好处是可以大幅拉升内存带宽,让模型回应地更快。从数值角度来看,220MB的SRAM在运行LLM时几乎杯水车薪,若想真正跑动例如LLaMA-70B这样的LLM,则需要多达约500-600个LPU。这在实际商业化中是极为致命的,这说明如果企业要考虑采用Groq的芯片,则一方面需要考虑芯片实际所占体积,一方面需要考虑其昂贵的资本支出。而如果大幅降低价格,则对Groq的投资人来说是一场烧钱抢市场的游戏,更何况市场上还有其他的参与者虎视眈眈着市场蛋糕。
现在让我们回到D-matrix 11月发布的最新芯片Corsair,似乎从Corsair身上闻到了Groq的老味道,但又有新变革。D-matrix选择了折中的方案,既让Corsair搭载了高达2GB的片上SRAM又配置了片下256GB的DRAM。同时,也将Corsair分为了两个模式,Performance Mode和Capacity Mode。从字面意思我们不难看出这两个模式下分别采用的是片上SRAM和片下DRAM来运行大模型。其中启用片上SRAM内存的模式下,在Llama2 7B的模型中输出每token的速度要快Nvidia H100的20倍。而切换到Capacity Mode时,表现则大幅下降。
两种模式下不同的表现也说明,D-Matrix自身也意识到了片上内存+存算一体的局限性,通过这样的方式可以让消费者根据场景需求调整不同模式。同时,D-Matrix 通过结合块浮点格式和存算一体的架构,解决了传统浮点运算的瓶颈问题,同时极大地提升了片上 SRAM 的容量和计算密度。这也就是为什么Groq芯片的片上SRAM容量远远小于Corsair片上SRAM的原因。
推理芯片作为AI计算生态中的重要组成部分,是未来人机交互中可以真正参与我们生活方方面面的一环。这些芯片如何在性能、成本之间找到平衡点,将是决定它们市场成败的关键。而作为目前蓝海中新兴的玩家,D-matrix、Groq和Cerebras的探索无疑是为行业提供了宝贵的参考。
以上仅代表个人观点,不足以作为投资依据,也不对任何投资行为负责。
股市有风险,入市需谨慎!