本文来自微信公众号:半导体行业观察 (ID:icbank),作者:L晨光,题图来自:AI生成
在前不久刚结束的CES展会上,英伟达重磅推出RT50系列显卡和GB10超级芯片等产品,引发行业关注。
对此,Cerebras直言不讳地对英伟达评价道:“它不是真正的AI大芯片”。
众所周知,随着AI浪潮的兴起,芯片成为行业关键推手。作为GPU巨头,英伟达凭借高性能GPU占据AI芯片市场的主导地位,跟英特尔、AMD等厂商一样,都是采用将大片晶圆切分成小型芯片的方式,然后将众多GPU或加速器互联起来打造成性能强劲的AI处理器集群。
与此同时,业界还有一种直接在整片晶圆上做AI大芯片架构的厂商。其中,Cerebras就是后者的典型代表之一,旨在以不同设计规范和架构的AI大芯片,领跑“后AI时代”。
英伟达,Not a real big AI chip
首先以芯片巨头英伟达为例,来看看这种通过小芯片集群架构来设计AI芯片的方式。
进入AI大模型时代,因为单芯片算力和内存有限,无法承载大模型,单个GPU训练AI模型早已成为历史。通过多种互连技术将多颗GPU算力芯片互连在一起提供大规模的算力、内存,成为行业趋势。
在DGX A100情况下,每个节点上8张GPU通过NVLink和NVSwitch互联,机间直接用200Gbps IB HDR网络互联;到了DGX H100,英伟达把机内的NVLink扩展到机间,增加了NVLink-network Switch,可以搭建256个H100 GPU组成的SuperPod超级计算系统。
可以看到,随着AI算力需求不断增长,多GPU并行成为一种趋势,可以支撑大模型的训练和推理。
对于多GPU系统而言,一个关键的挑战是如何实现GPU之间的高速数据传输和协同工作。然而,传统的PCIe总线由于带宽限制和延迟问题,已经无法满足GPU之间通信的需求。
对此,英伟达推出了NVLink、NVSwitch等互连技术,通过更高的带宽和更低的延迟,为多GPU系统提供更高的性能和效率,支持GPU之间的高速数据传输和协同工作,提高通信速度,加速计算过程等。
NVLink用于连接多个GPU之间或连接GPU与其他设备(如CPU、内存等)之间的通信。它允许GPU之间以点对点方式进行通信,具有比传统的PCIe总线更高的带宽和更低的延迟,为多GPU系统提供更高的性能和效率。
NVSwitch旨在解决单服务器中多个GPU之间的全连接问题,允许单个服务器节点中多达16个GPU实现全互联,这意味着每个GPU都可以与其他GPU直接通信,无需通过CPU或其他中介。
NVSwitch全连接拓扑(图源:nextplatform)
2022年,英伟达将NVSwitch芯片独立出来,并制作成NVLink交换机,可以在单个机架内和多个机架间连接成NVLink网络,可以解决GPU之间的高速通信带宽和效率问题。
2023年,英伟达生成式AI引擎DGX GH200投入量产,GH200是H200 GPU与Grace CPU的结合体,一个Grace CPU对应一个H200 GPU,GPU与GPU、GPU与CPU之间均采用NVLink4.0连接;
再到新一代AI加速卡GB200,由1个Grace CPU和2个Blackwell GPU组成。在GB200 NVL72整机柜中,一共包含了72颗Blackwell GPU芯片,18颗NVSwitch芯片,英伟达用了5000根铜缆将所有的GPU都与所有的NVSwitch全部连接起来。
经过多年演进,NVLink技术已升级到第5代。NVLink 5.0以100GB/s的速度在处理器之间移动数据。每个GPU有18个NVLink连接,Blackwell GPU将为其他GPU或Hopper CPU提供每秒1.8TB的总带宽,这是NVLink 4.0带宽的两倍,是行业标准PCIe Gen5总线带宽的14倍。NVSwitch也升级到了第四代,每个NVSwitch支持144个NVLink端口,无阻塞交换容量为14.4TB/s。
能够看到,随着每一代NVLink的更新,其每个GPU的互联带宽都在不断提升,其中NVLink之间能够互联的GPU数,也从第一代的4路到第四代/第五代的18路。每个NVLink链路的速度也由第一代的20Gb/s提升至目前的1800Gb/s。
NVLink和NVSwitch等技术的引入,为GPU集群和深度学习系统等应用场景带来了更高的通信带宽和更低的延迟,从而提升了系统的整体性能和效率。
在2025年CES上,英伟达新推出GeForce RTX 5090与GB10芯片,代表着英伟达在计算架构和技术路线上的再一次跨越。
Blackwell架构采用了最新一代的CUDA核心和Tensor核心,特别优化了AI计算的效率。NVLink72作为一种高速互联技术,允许多达72个Blackwell GPU互联,构建出极为强大的计算集群。此外,作为集群的一部分,2592个Grace CPU核心也为GPU提供了强大的协同计算能力,能够更好地管理和调度任务。
除了传统的GPU和集群解决方案,英伟达还推出了AI超级计算机Project DIGITS,Project Digits的核心在于其搭载了英伟达的Grace Blackwell超级芯片(GB10)。
GB10是一款SoC芯片,基于Grace架构CPU和Blackwell GPU的组合,Grace GPU部分基于Arm架构,具有20个高效节能核心,Blackwell GPU部分则支持高达1PFlops(每秒一千万亿次)的FP4 AI性能,可运行2000亿参数的大模型。GB10还采用了NVLink-C2C芯片间互联技术,将GPU与CPU之间的通信效率提升到新的高度,为本地AI模型的开发、推理和测试提供强大的支持。
据介绍,这台AI超算还集成了128GB LPDDR5X内存和高达4TB的NVMe存储,使开发人员能够处理许多要求苛刻的AI工作负载。
除此之外,Project DIGITS还配备了一颗独立的NVIDIA ConnectX互联芯片,它可以让“GB10”超级芯片内部的GPU兼容多种不同的互联技术标准,其中包括NCCL、RDMA、GPUDirect等,从而使得这颗“大核显”可以被各种开发软件和AI应用直接访问,允许用户运行具有多达4050亿个参数的大模型。
这意味着,在分布式系统中,除了单卡和多卡互连外,服务器之间的多机互联也可以采用InfiniBand、以太网、GPUDirect等新的互联技术。
在硬件和互联技术之外,英伟达还开发了以CUDA为核心的软件架构,与其硬件进行配套使用,从而更好地发挥硬件的性能。英伟达凭借其在系统和网络、硬件和软件的全方位布局,使其在AI生态牢牢占据主导地位。
实际上,行业芯片大厂都在互联技术上积极布局。除了英特尔2001年提出的PCIe(PCI-Express)协议,AMD也推出了与英伟达NVLink相似的Infinity Fabric技术。
AMD的AI加速器Instinct MI300X平台,就是通过第四代Infinity Fabric链路将8个完全连接的MI300X GPU OAM模块集成到行业标准OCP设计中,为低延迟AI处理提供高达1.5TB HBM3容量。第四代Infinity Fabric支持每通道高达32Gbps,每链路产生128GB/s的双向带宽。
与此同时,AMD、博通、思科、Google、惠普、英特尔、Meta和微软在内的八家公司组建了新的联盟,为人工智能数据中心的网络制定了新的互联技术UALink(Ultra Accelerator Link)。
据了解,UALink提议的第一个标准版本UALink 1.0,将连接多达1024个GPU AI加速器,组成一个计算“集群”,基于包括AMD的Infinity Fabric在内的“开放标准”,UALink 1.0将允许AI加速器所附带的内存之间的直接加载和存储,共同完成大规模计算任务。
与现有互连规范相比,UALink 1.0总体上将提高速度,同时降低数据传输延迟。
UALink联盟旨在创建一个开放的行业标准,允许多家公司为整个生态系统增加价值,从而避免技术垄断。
AI芯片,互连挑战与内存瓶颈
从行业大厂推出的一系列GPU和SoC能够看到,随着AI大模型对算力基础设施的要求从单卡拓展到了集群层面,其AI芯片采用的是将多个小芯片进行集群和互连的架构,这对大规模卡间互联的兼容性、传输效率、时延等指标提出了更高的要求。
GPU集群的规模和有效算力,很大程度上取决于GPU集群网络配置和使用的交换机设备,连接标准的带宽也限制了计算网络的带宽。
从PCIe到NVLink、Infinity Fabric再到InfiniBand、以太网和UALink,尽管这些技术不断迭代升级,通过高带宽、低延迟的数据传输,实现了GPU或AI服务器之间的高速互联,在提升深度学习模型的效率和计算性能方面发挥了重要作用。
但能够预见的是,随着未来计算数据的爆炸式增长、神经网络复杂性不断增加,以及AI技术的加速演进,对更高带宽的需求还在继续增长。
互联技术仍不可避免地成为行业中的瓶颈挑战,限制了GPU和AI芯片的最大性能释放。
与互联技术的滞后相比,存储技术的瓶颈似乎也是一大关键。
众所周知,冯·诺依曼架构面临的一个核心挑战是CPU/GPU等处理器的计算速度与内存访问速度之间的不匹配,尤其是与存储设备的速度相比更是天壤之别。这就是业界著名的“内存墙”,其不均衡的发展速度对日益增长的高性能计算形成了极大制约,成为训练大规模AI模型的瓶颈。
当前在AI、机器学习和大数据的推动下,数据量呈现出指数级的增长,存储技术必须紧随其后,才能确保数据处理的效率和速度。对于当前的内存行业来说,高带宽内存(HBM)已经成为焦点,尤其是在AI大模型训练和推理所需的GPU芯片中,HBM几乎已经成为标配。
尽管以HBM为代表的存储技术带来了显著的存算带宽提升,在一定程度上缓解了带宽压力,但并未从根本上改变计算和存储分离的架构设计。与GPU等计算芯片的快速发展相比,仍面临内存受限、存储空间的数据吞吐能力容易跟不上计算单元需求量的挑战。
存算带宽示意(图源:Cerebras)
存储技术滞后于计算芯片发展的现象,显然已经成为现代计算系统中的一大瓶颈。存储技术的滞后会给高性能计算带来多重挑战:
计算能力浪费:GPU的强大计算能力无法得到充分利用,存储瓶颈导致大量的GPU计算资源处于空闲状态,无法高效地执行任务。这种不匹配导致了系统性能的低效发挥,增加了计算时间和能源消耗。
AI训练效率下降:在深度学习训练过程中,大量的数据需要频繁地在GPU与存储之间交换。存储的低速和高延迟直接导致AI训练过程中数据加载时间过长,从而延长了模型训练周期。这对于需要快速迭代的AI项目来说,可能会造成较大成本压力。
大规模数据处理的障碍:随着大数据的兴起,许多AI应用需要处理海量数据。当前存储技术未能有效支持大规模数据的快速处理和存储,特别是在多节点分布式计算的场景中,存储瓶颈往往成为数据流动的最大障碍。
综合来看,英伟达、AMD等芯片厂商作为AI领域的主导硬件选择,其强大的并行计算能力为大规模神经网络的训练提供了极大的帮助。
然而,在AI模型规模持续扩大、推理任务逐渐提升的过程中,GPU架构的局限性逐渐显现,大量数据的传输和存储可能成为瓶颈,进而影响AI大模型训练和推理的速度和效率。
Cerebras:A real big AI chip
面对上述挑战,Cerebras推出的Wafer-Scale引擎成为了革命性的解决方案。
过去70年中,没有任何公司成功克服制造大型芯片的复杂性,即便是Intel和Nvidia这样的行业巨头也未能解决这一挑战。尽管在与诸多曾尝试构建大型芯片的专家讨论后,许多人认为制造如此大的芯片不可能实现,但Cerebras依然充满信心。
“晶圆级”引擎,来势汹汹
2019年,Cerebras公开展示了WSE-1芯片,这一芯片比当时最大的GPU大了56.7倍,包含超过1.2万亿个晶体管,而当时最大的GPU只有211亿个晶体管;2022年,在湾区的计算历史博物馆展示了WSE-2芯片,WSE-2将晶体管数量提升到2.6万亿,并在更小的空间和功耗下提供了更强的计算性能,标志着计算历史上的一个重要里程碑。
2024年,Cerebras推出的WSE-3包含4万亿个晶体管和90万个计算核心,其性能可以训练比OpenAI的GPT-4大13倍的AI模型。
WSE-3与目前行业最新的GPU芯片尺寸对比
传统芯片在晶圆上以网格模式打印,然后切割成数百个小型芯片,而Cerebras的晶圆级集成则跳过了这种切割步骤,直接将整个晶圆设计成一个单一的超大芯片,因此称为“晶圆级”引擎。该方案通过将海量的计算资源和存储资源集中在单一的超大规模芯片(晶圆)上,优化了数据传输路径,减少了延迟,显著提高了推理速度。
要理解这种设计的必要性,首先需要了解AI开发中涉及的两大瓶颈:一是处理数百万矩阵乘法运算所需的计算能力(FLOPs);二是通过各种归一化、SoftMax或ReLU操作在模型连接中更新权重所需的内存带宽。
在计算能力部分,虽然其进步遵循摩尔定律,但内存带宽的提升却远远滞后。例如,英伟达从2020年发布的A100到2022年的H100,计算能力增加了约6倍,但内存带宽仅增长了1.7倍。
训练时间的主导因素从计算能力转向了内存带宽。
同时,由于传统的处理器芯片内部内存有限,无法存储用于计算的数据。在处理如LLM模型训练这样的大规模计算任务时,处理器芯片需要不断地将数据从芯片外的内存中进出。处理器与内存芯片之间的通信速度远低于处理器计算速度,芯片与芯片之间的通信速度比芯片内部的通信慢100倍以上,导致内存瓶颈问题。
Cerebras的晶圆级引擎正是为了解决这些瓶颈而设计的。
通过设计更大的芯片,可以增加处理器和本地内存芯片的空间,利用成千上万的硅线实现两者之间的高速通信,设计避免了像英伟达、AMD在将多个GPU或处理器连接时面临的互联瓶颈和内存带宽问题。
具体来看,在这个超大芯片上,Cerebras将计算单元和内存单元高度集成,形成了一个密集的网格结构。
与传统的冯·诺依曼架构不同,这种存算一体技术将计算单元与存储单元深度融合,极大地减少了数据在内存与处理器之间传输的距离和时间,从根本上打破了“存储墙”问题,极大提升了存算交换效率,使得数据能在极短的时间内完成读取和计算,从而实现超快推理。
得益于芯片尺寸,对比英伟达H100 GPU,Cerebras WSE-3拥有90万个计算核心,是H100的52倍,片上内存是H100的880倍,内存带宽是其7000倍,而通过WSE-3的片上互联技术,核心之间的互连带宽更是做到了214Pbps,是H100系统的3715倍。
Cerebras WSE与英伟达H100存算带宽对比
诸多优势加持下,根据Cerebras的数据,其推理服务在运行开源模型Llama 3.1 8B时可以达到1800 token/s的生成速度,而在运行Llama 3.1 70B时也能达到450 token/s。相比之下,英伟达H100 GPU在这两个模型上的表现分别为242 token/s和128 token/s。在许多情况下,WSE-3比使用英伟达H100构建的系统快10到20倍。
然而,这么大尺寸的芯片虽然性能强大,但更容易遭遇缺陷,因为随着芯片面积增大,良率会指数级下降。因此,尽管较大的芯片通常运行速度更快,早期的微处理器为了维持可接受的制造良率与利润,通常选择适中的尺寸。
近年来,随着制造工艺和光刻设备的进步,缺陷率得到了控制,且通过标准的内存制造工艺,可以绕过有缺陷的部分,确保整体芯片不被一个缺陷影响。Cerebras在其WSE芯片中添加了冗余核心设计,并通过固件映射来屏蔽制造缺陷,以防止单一缺陷损坏整个芯片。这与传统的芯片制造方式不同,后者通常会丢弃有缺陷的芯片。
同时,容错率的程度可由缺陷发生时损失的芯片面积来衡量。对于多核心芯片而言,核心越小,容错率越高。如果单个核心足够小,就有可能制造非常大的芯片。
据了解,在决定构建晶圆级芯片之前,Cerebras首先设计了一个非常小的核心。Wafer Scale Engine 3中的每个AI核心约为0.05mm²,仅为H100 SM核心大小的约1%。这两种核心设计均具备容错能力,这意味着一个WSE核心的缺陷仅会损失0.05mm²,而H100则会损失约6mm²。从理论上来看,Cerebras WSE芯片的容错率比GPU高约100倍,考虑的是缺陷对硅面积的影响。
但仅仅拥有小核心还不够。Cerebras还开发了一种精密的路由架构,能够动态重新配置核心之间的连接。当侦测到缺陷时,系统可透过冗余通信路径自动绕过缺陷核心,并利用邻近核心保持芯片的整体运算能力。
路由架构(图源:techbang)
该路由系统与小量备用核心协同工作,能够替换受缺陷影响的核心。与以往需要大规模冗余的方式不同,Cerebras的架构透过智慧型路由实现了以最少备用核心达成高良率。
在商业模式上,Cerebras的核心产品不是单独销售WSE芯片,而是提供与其WSE芯片共同设计和优化的集成计算系统。到目前为止,Cerebras已经推出了三款计算系统:CS-1(针对WSE-1),CS-2(针对WSE-2),以及最新的CS-3(针对WSE-3)。
每个系统都包含一个“引擎块”,其中包括芯片封装、供电系统和一个封闭的内部水循环,用于冷却功耗巨大的WSE芯片。此外,所有的冷却和电源设备都有冗余且支持热插拔。
据了解,Cerebras的系统方案具备诸多优势:
扩展能力:Cerebras的计算系统通过其SwarmX(网络通信)和MemoryX(存储权重)技术来实现可扩展性。SwarmX技术允许最多192台CS-2系统或2048台CS-3系统连接在一起,实现几乎线性性能增益。例如,三倍数量的CS-3系统可以将LLM的训练速度提升三倍。相比之下,英伟达通过收购Mellanox来连接GPU,但性能增益是次线性的。
此外,MemoryX技术为每个计算系统提供最高1.2TB的存储空间,允许每个系统存储24万亿参数,并在训练期间将所有模型参数存储在芯片外,同时提供接近芯片内的性能。一个由2048台CS-3系统组成的集群可以以256 exaFLOPS的AI计算能力,不到一天的时间就可以完成Llama2-70B模型的训练。
内存和计算解耦:Cerebras的系统允许内存和计算能力独立扩展,而GPU的内存和计算能力是固定的。比如,英伟达的H100芯片内存限制为80GB,GPU集群需要将LLM分解成多个小部分,在成千上万的GPU之间分配,增加了模型分布和管理的复杂性。而Cerebras的单个计算系统可以容纳和训练一个包含数万亿参数的模型,不需要分布式训练软件,从而减少了开发过程中97%的代码量。
系统性能:Cerebras的计算系统单台设备的性能已经超过传统的GPU机架。2019年发布的CS-1就比GPU快1万倍,且比当时全球排名第181的Joule超级计算机快200倍。CS-2于2021年发布,性能较CS-1提升一倍。而CS-3于2024年推出,性能再翻倍,但功耗和成本未增加。一个CS-3系统的计算能力相当于一整个房间服务器中数十到数百个GPU的总和。48台CS-3的集群性能超过了美国的Frontier超级计算机——全球排名第一的超级计算机,但成本便宜了100倍。
AI推理能力:2024年8月,Cerebras为CS-3系统启用了AI推理功能,成为全球最快的AI推理提供商。一个月后,Groq和SambaNova在推理速度上有所进展,但Cerebras迅速夺回了第一的位置。Cerebras的推理能力比Nvidia H100快20倍,成本仅为其五分之一。对于需要实时或高吞吐量推理的AI产品开发者,Cerebras的低延迟推理能力将尤为重要。
AI大芯片,更适用于大模型推理?
AI推理是指在经过大量数据训练之后,AI系统利用其模型对新的输入数据进行判断、分类或预测的过程。推理速度的快慢直接影响着AI系统的响应能力、用户体验,以及AI技术在实时交互应用中的可行性。
当前,尽管大多数AI系统已经可以处理复杂的任务,但推理过程仍然耗时较长。尤其在自然语言处理(NLP)任务中,例如ChatGPT这种大语言模型,系统需要逐字生成回答,这使得实时交互变得缓慢且不流畅。
随着AI大模型持续发展,行业重点正在从“训练模型”转向“模型推理”,意味着对推理基础设施的需求呈现上升趋势。例如,无论是OpenAI的o1和o3模型,还是Google的Gemini 2.0 Flash Thinking,均以更高强度的推理策略来提升训练后结果。
巴克莱研报显示,AI推理计算需求在快速提升,预计未来其将占通用AI总计算需求的70%以上,推理计算的需求甚至可以超过训练计算需求,达到后者的4.5倍。
面对行业趋势,这家成立于2016年的巨型晶圆级芯片公司,展示了AI推理芯片领域创新的巨大潜力。Cerebras凭借其超快的推理速度、优异的性价比和独特的硬件设计,将赋予开发者构建下一代AI应用的能力,这些应用将涉及复杂、多步骤的实时处理任务。
从其财务数据来看,Cerebras呈现出快速增长的态势。2024年上半年,公司实现销售额1.364亿美元,相比2023年同期的870万美元增长超过15倍。净亏损也从7780万美元收窄至6660万美元。2023年全年,Cerebras净亏损1.272亿美元,营收7870万美元。公司预计2024年全年销售额将达到2.5亿美元,较2022年的8300万美元增长201%。
这种高速增长无疑印证了Cerebras的核心竞争力,同时增强了其寻求上市的吸引力。
从更宏观的角度来看,Cerebras的IPO反映了AI芯片市场的巨大潜力和激烈竞争。目前,英伟达在这一领域占据约90%的市场份额,但随着AI技术的普及和应用场景的拓展,市场对高性能AI芯片的需求正在快速增长。除了Cerebras,包括AMD、英特尔、微软和谷歌在内的科技巨头也都在积极布局AI芯片领域。此外,亚马逊、谷歌和微软等云服务提供商也开始自主开发AI芯片,以减少对第三方供应商的依赖。
高歌猛进背后,Cerebras仍挑战重重
然而,尽管Cerebras一路高歌猛进,但其业务和技术也存在一些值得关注的风险因素,这也在一定程度上也反映着整个AI大芯片技术架构厂商存在的共性挑战与隐忧。
存算一体技术:尽管存算一体技术展现出巨大潜力,但其市场化进程仍面临挑战。GPU方案在成本和生态成熟度上仍具有一定优势。因此,存算一体芯片不仅要通过技术升级降低成本,还需通过实际应用培育市场,强化用户对超快推理的价值认知。
散热挑战:当芯片的面积增加,有更多的电流流过晶体管,半导体电阻自然会产生更多的热量。如果热量过高,还会分解芯片及其表面的小部件。英伟达的Blackwell GPU数据中心中,都需要巨型的冷却系统。而Cerebras的巨无霸芯片,更是需要一套庞大的散热系统。专门的、庞大的散热系统也意味着,部署芯片需要额外的配套成本。
客户生态:英伟达的软件和硬件堆栈在行业中占据主导地位,并被企业广泛采用。在生态系统的成熟度、模型支持的广泛性以及市场认知度方面,英伟达仍然占据优势。相比于Cerebra,英伟达拥有更大的用户群体和更丰富的开发者工具和支持。Futurum Group分析师指出,虽然Cerebras的晶圆级系统能够以比英伟达更低的成本提供高性能,但关键问题是企业是否愿意调整其工程流程以适应Cerebras的系统。
客户集中度高/供应链中断风险:招股说明书显示,总部位于阿联酋的AI公司Group 42在2023年贡献了Cerebras 83%的收入。这种过度依赖单一客户的情况可能会给公司带来潜在风险,拓宽客户基础、降低对单一客户的依赖,将是Cerebras必须面对的挑战。其次,Cerebras的芯片由台积电生产,公司提醒投资者注意可能的供应链中断风险。
盈利挑战:尽管Cerebras在技术上处于领先,但其财务状况却仍是挑战。数据显示,从2022年到2023年,Cerebras累计收入1亿美元,但净亏损则高达3亿美元。2024年上半年,尽管收入同比增长1480%,达到了1.364亿美元,但净亏损依旧达到6661万美元。这表明,尽管收入增长迅猛,Cerebras仍面临盈利转化的严峻考验。
市场竞争:随着人工智能硬件市场的不断发展,Cerebras还将面临来自专业云提供商、微软、AWS和谷歌等超大规模提供商以及Groq等专用推理提供商的竞争。性能、成本和易实施性之间的平衡可能会影响企业采用新推理技术的决策。
写在最后
在当今快速演变的技术生态系统中,多技术协同升级已成为推动新兴技术发展的核心动力。要实现算力的持续增长,GPU、互联、存储等技术必须协调发展。虽然GPU技术已取得了显著进步,但没有更高效的互联技术和更快的存储技术支撑,算力的潜力将无法完全释放。
对于英伟达等科技巨头而言,如何继续推动GPU与其他关键技术的协同进化,解决存储、互联的瓶颈,将是未来几年中的主要挑战。
另一边,作为一家成立仅8年的初创公司,Cerebras能够在短时间内发展到挑战行业巨头的地步,充分说明了AI技术的巨大潜力和市场的快速变革。如今AI芯片市场的洗牌,不仅是技术的比拼,更是理念和未来愿景的对抗。
根据半导体“牧本周期”——芯片类型有规律地在通用和定制之间不断交替——在某个特定时期内,通用结构最受欢迎,但到达一定阶段后,满足特定需求的专用结构会奋起直追。
当前,英伟达所代表的通用结构时代正处于巅峰。而AI革命为Cerebras等大芯片厂商提供了成为行业领导者的机会,至于该技术路线是否能成为行业主流,还需要静待市场的检验与淬炼。
本文来自微信公众号:半导体行业观察 (ID:icbank),作者:L晨光
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
End
想涨知识 关注虎嗅视频号!