Cerebras Systems 是一家以制造世界最大芯片——晶圆级引擎(WSE)闻名的人工智能芯片制造商。WSE 通过将内存直接集成到处理器中,减少了传统 GPU 在 AI 训练中的延迟和内存瓶颈问题。
自2017年谷歌的Transformer模型发布以来,人工智能技术迅速发展,尤其是在大型语言模型(LLM)领域。2018年至2020年间,这些模型的参数数量增长了1000倍,导致每年用于训练的计算能力平均增长4.1倍。前沿模型的计算需求增长更加显著。OpenAI的GPT-2于2019年发布,训练时使用了430万 petaFLOPS 的计算能力,而六个月后,GPT-3的训练计算量达到了3.14亿 petaFLOPS。到2023年,GPT-4的训练需要210亿 petaFLOPS,而谷歌在2023年末发布的Gemini Ultra则需要500亿 petaFLOPS。四年间,前沿模型的训练计算使用量增长了2900倍,反映出AI技术对计算资源的需求激增。
随着教育、网络安全、能源、游戏、汽车、医疗、零售、金融、制造和咨询等行业逐步拥抱AI技术,全球AI市场以36.6%的年复合增长率扩张,需求不断增加。然而,训练新的AI模型极为复杂、缓慢且昂贵。以GPT-4为例,训练过程需要25000块Nvidia A100 GPU,耗时约三个月,成本高达7800万美元。随着模型规模的指数增长,全球公司都在寻求软件和硬件解决方案,以实现更快、更简单或更廉价的AI训练。
Cerebras Systems是一家人工智能芯片制造商,号称生产了“世界上最大的芯片”。其旗舰产品——Cerebras晶圆级引擎(WSE)被公司称为“地球上最快的AI处理器”,在AI优化核心、内存速度和芯片内部带宽方面超越所有其他处理器。这款餐盘大小的芯片在提升训练速度、简化AI训练方法方面表现出色,且价格低于Nvidia行业标准的GPU芯片。Cerebras为全球需要训练AI模型的公司提供本地部署和云端使用的计算系统。
一、创立故事
Cerebras Systems 于2016年由五位经验丰富的科技行业资深人士创立:Andrew Feldman(首席执行官)、Gary Lauterbach(退休首席技术官)、Michael James(首席软件架构师)、Sean Lie(首席硬件架构师兼现任首席技术官)和 Jean-Philippe Fricker(首席系统架构师)。这五位联合创始人在此之前曾共同工作于 Feldman 和 Lauterbach 创立的 SeaMicro,这是一家专注于能效服务器的初创公司,2012年被AMD以3.34亿美元收购。
Andrew Feldman 拥有丰富的创业经验,曾创立并成功出售多家公司。除了创办 SeaMicro,他还在攻读斯坦福大学MBA时创立了一家千兆以太网公司,并在一年后以2.8亿美元出售。此外,Feldman 还曾担任 Force10 Networks 的产品管理副总裁(该公司后来以7亿美元出售给戴尔),以及 Riverstone Networks 的市场营销副总裁(该公司于2001年上市)。
Gary Lauterbach 拥有58项计算领域的专利,在每一个芯片和处理器中都能找到他的发明。他曾是Sun Microsystems的资深架构师,主导设计了UltraSPARC III 和 UltraSPARC IV微处理器,并参与了国防高级研究计划局 (DARPA) 的HPCS Petascale超级计算项目。在SeaMicro期间,Lauterbach还是一项930万美元能源部拨款项目的首席研究员。SeaMicro 被AMD收购后,Lauterbach成为AMD数据中心服务器业务的首席技术官。
Sean Lie 拥有麻省理工学院的电气工程和计算机科学学士与硕士学位,曾在AMD的先进架构团队工作五年,之后加入SeaMicro担任首席硬件架构师。在SeaMicro被收购后,他成为AMD的数据中心架构师,并在Cerebras持有29项计算架构专利。
Michael James 是SeaMicro的首席软件架构师,之后也在AMD担任软件架构师。
Jean-Philippe Fricker 曾是DSSD的高级硬件架构师(该公司于2014年被EMC收购),并在SeaMicro担任首席系统架构师,拥有30项计算系统领域的专利。
2015年底,这五位联合创始人聚在一起,基于他们在SeaMicro的经验,决定再次合作,改变计算行业。他们希望能在计算历史博物馆中获得一席之地,Feldman 表示:
团队最初探讨了计算的未来应用,很快将注意力集中在当时刚刚崭露头角的深度学习模型上,特别是由GPU进行训练的模型。他们研究了Nvidia的GPU为何能够训练这些深度学习模型,尤其是在阅读了AlexNet论文后,发现只要有足够的计算能力和数据,理论上可以无限提升模型的性能。这一理念深深吸引了Cerebras团队,他们认为这是一个巨大的机会,可以为这一大计算领域专门构建硬件。
他们发现现有的GPU在AI计算中并不高效,因为GPU的内存与计算单元相距较远,导致延迟和瓶颈。团队提出解决方案是构建一个更大的芯片,将内存直接集成在GPU内。然而,过去70年中没有任何公司成功克服制造大型芯片的复杂性,即便是Intel和Nvidia这样拥有数万员工的公司也未能解决这一挑战。
尽管在与诸多曾尝试构建大型芯片的专家讨论后,许多人认为制造如此大的芯片不可能实现,但Feldman依然充满信心。2016年底,Cerebras完成了A轮融资,获得了超过2500万美元的资金。最终,团队汇聚了更多志同道合的工程师,其中20到30名早期员工曾在SeaMicro工作过。经过三年的努力,2019年Cerebras公开展示了WSE-1芯片,这一芯片比当时最大的GPU大了56.7倍。2022年,在湾区的计算历史博物馆展示了Cerebras的WSE-2芯片,标志着计算历史上的一个重要里程碑。
2023年9月,Cerebras聘请Dhiraj Mallick担任首席运营官,11月任命Julie Shin Choi为首席营销官,2024年4月任命Bob Komin为首席财务官。2024年8月,前IBM和Intel高管Glenda Dorchak以及前VMware和Proofpoint首席财务官Paul Auvil加入Cerebras董事会。
二、公司产品
1、晶圆级引擎(WSE)
Cerebras Systems的核心技术是其晶圆级引擎(WSE)芯片,这些芯片专为AI模型训练和推理而设计。所有芯片的制造都从一个12英寸的圆形硅晶圆开始。传统芯片在晶圆上以网格模式打印,然后切割成数百个小型芯片,而Cerebras的晶圆级集成则跳过了这种切割步骤,直接将整个晶圆设计成一个单一的超大芯片,因此称为“晶圆级”引擎。最终,Cerebras的WSE芯片大小相当于一个餐盘。
要理解这种设计的必要性,首先需要了解AI开发中涉及的两大瓶颈:一是处理数百万矩阵乘法运算所需的计算能力(FLOPs),二是通过各种归一化、SoftMax或ReLU操作在模型连接中更新权重所需的内存带宽。
虽然计算能力的进步遵循摩尔定律,但内存带宽的提升却远远滞后。例如,从2020年的Nvidia A100到2022年的H100,计算能力增加了约6倍,但内存带宽仅增长了1.7倍。训练时间的主导因素从计算能力转向了内存带宽。Cerebras的晶圆级引擎正是为了解决这一瓶颈而设计的。
传统的处理器芯片虽然擅长数据计算,但内部内存有限,无法存储用于计算的数据。在处理如LLM模型训练这样的大规模计算任务时,处理器芯片需要不断地将数据从芯片外的内存中进出。处理器与内存芯片之间的通信速度远低于处理器的计算速度,导致所谓的内存瓶颈问题。芯片与芯片之间的通信速度比芯片内部的通信慢100倍以上。通过设计更大的芯片,可以增加处理器和本地内存芯片的空间,利用成千上万的硅线实现两者之间的高速通信。Cerebras的这种设计避免了像Nvidia和AMD在将多个GPU连接时面临的互联瓶颈问题。
制造大芯片的挑战在于部分晶圆可能存在缺陷,这会导致整个芯片报废。20世纪80年代的Trilogy Systems公司因这一问题而失败,但随着制造工艺和光刻设备的进步,缺陷率得到了控制,且通过标准的内存制造工艺,可以绕过有缺陷的部分,确保整体芯片不被一个缺陷影响。Cerebras在其WSE芯片中添加了冗余核心设计,以防止单一缺陷损坏整个芯片。
Cerebras已经发布了三代WSE芯片:WSE-1、WSE-2和WSE-3。2024年推出的WSE-3包含4万亿个晶体管和90万个计算核心,其性能可以训练比OpenAI的GPT-4大13倍的AI模型。而Nvidia的H100 GPU则比WSE-3小56倍,晶体管数量也少50倍。
WSE芯片中的每个核心被称为稀疏线性代数计算(SLAC)核心,专门针对AI工作负载进行了优化。这些核心在执行神经网络计算的基础——线性代数和矩阵乘法运算方面非常高效,性能往往是GPU的两到三倍。此外,这些核心也能够运行基于线性代数的新型神经网络算法。
Cerebras早期的WSE-1和WSE-2芯片分别于2019年和2021年发布。WSE-1包含超过1.2万亿个晶体管,芯片面积约为46000平方毫米。而当时最大的GPU只有211亿个晶体管,面积为815平方毫米。WSE-2将晶体管数量提升到2.6万亿,并在更小的空间和功耗下提供了更强的计算性能。
2、计算系统(Computing Systems)
Cerebras Systems 的核心产品不是单独销售WSE芯片,而是提供与其晶圆级引擎(WSE)芯片共同设计和优化的集成计算系统。到目前为止,Cerebras 已经推出了三款计算系统:CS-1(针对WSE-1),CS-2(针对WSE-2),以及最新的CS-3(针对WSE-3)。
计算系统的设计
每个系统都包含一个“引擎块”,其中包括芯片封装、供电系统和一个封闭的内部水循环,用于冷却功耗巨大的WSE芯片。此外,所有的冷却和电源设备都有冗余且支持热插拔。
扩展能力
Cerebras的计算系统通过其SwarmX和MemoryX技术来实现可扩展性。SwarmX技术允许最多192台CS-2系统或2,048台CS-3系统连接在一起,实现几乎线性性能增益。例如,三倍数量的CS-3系统可以将大语言模型(LLM)的训练速度提升三倍。相比之下,Nvidia通过收购Mellanox来连接GPU,但性能增益是次线性的。
此外,MemoryX技术为每个计算系统提供最高1.2TB的存储空间,允许每个系统存储24万亿参数,并在训练期间将所有模型参数存储在芯片外,同时提供接近芯片内的性能。一个由2,048台CS-3系统组成的集群可以以256 exaFLOPS的AI计算能力,不到一天的时间就可以完成Llama2-70B模型的训练。
内存和计算的解耦
Cerebras的系统允许内存和计算能力独立扩展,而GPU的内存和计算能力是固定的。比如,Nvidia的H100芯片内存限制为80GB。因此,GPU集群需要将LLM分解成多个小部分,在成千上万的GPU之间分配,增加了模型分布和管理的复杂性。Cerebras的单个计算系统可以容纳和训练一个包含数万亿参数的模型,不需要分布式训练软件,从而减少了开发过程中97%的代码量。
系统性能
Cerebras的计算系统单台设备的性能已经超过传统的GPU机架。2019年发布的CS-1就比GPU快1万倍,且比当时全球排名第181的Joule超级计算机快200倍。CS-2于2021年发布,性能较CS-1提升一倍。而CS-3于2024年推出,性能再翻倍,但功耗和成本未增加。一个CS-3系统的计算能力相当于一整房间服务器中数十到数百个GPU的总和。48台CS-3的集群性能超过了美国的Frontier超级计算机——全球排名第一的超级计算机,但成本便宜了100倍。
实际应用
Cerebras系统已经在多个领域展示出显著的性能优势。单台CS-2在实时计算流体动力学模拟中比传统超级计算机快470倍,加速了能源和气候技术的研究。在阿贡国家实验室,CS-1在癌症研究中的计算速度是现有基础设施的300倍。法国能源巨头道达尔发现,CS-2在石油勘探关键任务中的速度是传统系统的100倍。对于震波成像和天气预报等科学计算任务,CS-2的速度比Nvidia H100快95倍,比AMD MI210快292倍。
AI推理能力
2024年8月,Cerebras为CS-3系统启用了AI推理功能,成为全球最快的AI推理提供商。一个月后,Groq和SambaNova在推理速度上有所进展,但Cerebras迅速夺回了第一的位置。Cerebras的推理能力比Nvidia H100快20倍,成本仅为其五分之一。对于需要实时或高吞吐量推理的AI产品开发者,Cerebras的低延迟推理能力将尤为重要。
通过Cerebras Inference API,开发者可以无缝迁移OpenAI的模型到Cerebras系统,仅需几行代码。Cerebras的推理成本和速度在市场上处于领先地位,比Groq快近两倍,而比亚马逊和Azure的成本分别低39%和83%。
兼容性
Cerebras的计算服务器兼容行业标准,可以集成到标准数据中心基础设施中,并支持TensorFlow和PyTorch等主流机器学习框架。Cerebras的编译器软件会自动将TensorFlow或PyTorch代码转化为针对其计算系统优化的可执行文件。
三、市场格局
1、公司客户
Cerebras Systems设计其计算服务器与行业标准兼容。CS-3系统可以集成到标准数据中心基础设施中,并通过行业标准协议进行通信。它还支持像TensorFlow和PyTorch这样的主流机器学习框架,开发者可以继续使用熟悉的编程语言。而在后台,Cerebras的图编译器软件会自动将这些代码转换为针对其计算系统优化的可执行文件。
Cerebras的计算系统单台价格通常超过150万美元,因此该公司专注于全球各个行业需要开发“最大和最复杂”AI模型的客户。这类客户往往是制药公司、政府研究实验室和军事机构,他们愿意投入数百万美元,在本地托管Cerebras的计算集群,以确保其敏感或私密数据的安全。
Cerebras的客户包括:
制药公司:葛兰素史克(GlaxoSmithKline)、梅奥诊所(Mayo Clinic)、阿斯利康(AstraZeneca)、拜耳(Bayer)、基因泰克(Genentech)。
政府研究实验室:阿贡国家实验室、劳伦斯利弗莫尔国家实验室、莱布尼兹超级计算中心、匹兹堡超级计算中心、爱丁堡大学EPCC超级计算中心、国家超级计算应用中心、国家能源技术实验室。
军事机构:DARPA(美国国防高级研究计划局)和Aleph Alpha。
大型企业:东京电子设备公司、G42、道达尔能源,以及一些未公开的算法交易公司。
Cerebras还在扩展其客户群体,向较小的组织提供服务。2022年底,Cerebras与Cirrascale合作,允许企业将数据发送给Cerebras,由其训练和微调数十亿参数的模型。2023年,Cerebras与G42和Colovore合作,提供按小时租用CS-3的服务,方便中小型组织使用这些强大的计算系统。
2、市场规模
麦肯锡在2018年预测全球AI训练和推理硬件市场到2025年可能达到50亿美元。然而,最新数据显示,该市场规模在2023年已经跃升至530亿美元,年复合增长率(CAGR)达到26%。考虑到全球科技巨头的巨额投资,这个数据也可能也低估了市场的增长潜力。例如:
亚马逊计划在未来15年每年花费100亿美元建设AI数据中心
Meta预计将投资370亿美元,谷歌的资本支出接近500亿美元
微软和OpenAI则合作开发了一台名为Stargate的AI超级计算机,预计投资1000亿美元。
埃隆·马斯克的X和xAI,计划在2024年花费100亿美元购买Nvidia的GPU。
受益于这一需求激增,Nvidia的数据中心业务在2024财年实现了409%的年增长,创下170亿美元的销售记录。然而,随着更多私营企业和软件巨头进入市场,试图争夺Nvidia在AI硬件领域的主导地位,竞争也在加剧。
2024年8月,Cerebras Systems进入了价值158亿美元的AI推理市场。相比于AI训练,AI推理目前占AI硬件市场总额的40%,并有望在未来成为AI最重要的成本,凸显其在整个AI生态系统中的重要性。
四、竞争对手
根据硅谷科技评论(SVTR)AI数据库,全球有123家AI算力公司在最近两年拿到知名机构的投资。除了传统的GPU巨头英伟达、AMD,以及云计算巨头公司在研发AI算力之外,无论在AI训练还是AI推理领域都有Cerebras的竞争对手。
1、AI 训练领域
SambaNova Systems
2017年成立于美国Palo Alto,是一家开发AI硬件芯片并提供定制软件的全栈企业解决方案公司。与Cerebras类似,SambaNova的DataScale平台允许企业如埃森哲在其专有数据上训练自己的AI模型。SambaNova还发布了自己的AI模型,其中Samba-1是首个一万亿参数的企业级模型。SambaNova的SN40L芯片(2023年9月发布)能够运行五万亿参数的模型,Samba-1每秒生成1000个标记(tokens),相比之下,128块Nvidia A100 GPU集群上的GPT-4每秒仅生成21.4个标记。
Graphcore
2016 年成立于英国布里斯托尔,设计了一种被称为“智能处理单元”(IPU) 的新型处理器,与 Nvidia 等公司开发的图形处理单元 (GPU) 不同。虽然两者都可以加速计算,但 IPU 具有针对 AI 工作负载从头开始设计的不同架构。 Graphcore 将其芯片定位为 GPU 的更高效替代品,重点支持大规模并行处理和执行复杂的机器学习模型,其中模型和数据紧密耦合。
Rain AI
2017年成立于美国旧金山,由 Altman 、百度风投投资的人工智能芯片公司,声称其受大脑启发的“神经形态处理单元” NPU 将比 GPU 产生潜在的 100 倍的计算能力和 10,000 倍的训练能效。Rain的初始芯片基于谷歌、高通和其他科技公司认可的RISC-V开源架构,应用于边缘计算领域。市场曾经传言萨姆·奥尔特曼对Rain AI的投资,与OpenAI签署的5100万美元合同,这是导致他被解雇的原因之一。
2、AI 推理领域
Ampere Computing
2017年成立于美国加州Santa Clara,专注于开发节能型 CPU,涵盖 AI 推理、网页服务、边缘计算和数据分析等广泛领域。Ampere Altra 和高端 AmpereOne 处理器的架构设计使其在进行 AI 推理时的功耗比 GPU 低67%,并且支持线性扩展。此外,Ampere 与 Nvidia 合作,在与 Nvidia GPU 配对时,提供全面的 CUDA 支持。其他重要合作伙伴包括 Oracle Cloud、Microsoft Azure、Google Cloud、Hewlett Packard Enterprise、Cloudflare、Cruise 和腾讯云。
Tenstorrent
2016年成立于多伦多, AI 芯片初创企业,由工程界杰出人物Jim Keller(美国微处理器工程师,以在AMD和苹果公司的工作而闻名。他是AMD K8微架构的首席架构师,并参与设计了Athlon和Apple A4/A5处理器)。公司开发用于加速 AI 推理的AI卡,旨在插入传统计算机中。虽然公司计划扩展到 AI 训练领域,但目前主要提供小规模的 AI 推理解决方案。截至2024年9月,Tenstorrent 提供了两款面向开发者的AI开发卡:Grayskull e75(售价599美元)和Grayskull e150(售价799美元),这些卡可以帮助开发者加速本地LLM模型的推理速度。商业用途方面,Tenstorrent 提供 Wormhole n150 和 n300 网络AI卡,可以扩展为Galaxy系统。
Groq
2016年成立于美国加利福尼亚州山景城,由曾主导谷歌 TPU 芯片开发的 Jonathan Ross 创立。该公司宣传称其芯片被称为“语言处理单元”,其速度是传统芯片的十倍以上,而成本却只有传统芯片的十分之一。通过其云平台 GroqCloud,用户可以利用 Groq 定制的“语言处理单元”(LPU)芯片,以更低的成本实现快速 AI 推理。例如,Groq 运行 Meta 的 Llama 3 模型时每秒生成大约350个标记,比微软的 Azure 数据中心快20倍,成本则降低8倍。Cerebras 在扩展AI推理市场时,将面临 Groq 的LPU芯片竞争。
Hailo
2017年成立于以色列特拉维夫,为边缘设备设计AI处理器,实现AI应用的本地化运行,无需依赖云服务。与 Cerebras 专注于数据中心规模的大型 AI 芯片不同,Hailo 构建的处理器可以安装在小型智能设备上,例如Raspberry Pi 5。这种边缘AI的专业化可能会限制 Cerebras 在边缘 AI 市场的渗透,但 Hailo 能通过满足去中心化、节能处理解决方案的需求,抢占零售系统、医疗设备或自主无人机等领域的云计算份额。
EtchedAI
2022年成立于美国旧金山,开发专门设计用于运行诸如ChatGPT等高级人工智能应用中使用的Transformer AI模型的专用芯片。由两名哈佛辍学生创办。transformer 模型是谷歌研究团队在2017年创建的,已成为生成式AI的核心架构,支持 GPT-4、Sora、Claude、Gemini 和 Stable Diffusion 等模型。2024年6月,EtchedAI 发布了其首款 Sohu 芯片,声称其“速度和成本比 Nvidia 的下一代 Blackwell(B200)GPU 高出一个数量级”,并且比 Nvidia H100 芯片快20倍。像 Groq 一样,EtchedAI 的 Sohu 芯片将迫使 Cerebras 在推理市场上创新。
3、替代计算框架
Lightmatter
2017年成立于美国波士顿,专注于开发光处理芯片,使用激光来加速计算。通过其Passage互连技术,Lightmatter为数据中心提供了一种更便宜、更高效的方式来连接多个用于AI处理的GPU,从而减少连接GPU之间的瓶颈。该公司还利用其光子技术开发了Envise AI加速芯片。
Ayar Labs
2023年成立于美国圣克拉拉,开发使用光而非电力来在芯片或服务器之间传输数据的硅光子技术。芯片之间的数据传输是服务器芯片功耗增加的主要原因之一,因此Nvidia参与了Ayar Labs的C轮融资,旨在“增强Nvidia平台”的表现。预计Nvidia将利用Ayar Labs的光学互连技术来提高其GPU机架的能源效率。
Cortical Labs
2019年成立于澳大利亚,开发一种新型人工智能技术,将实验室培养的人类脑细胞与计算机芯片相结合。与专注于光学技术的Lightmatter和Ayar Labs不同,Cortical Labs专注于生物技术。公司使用活体脑细胞代替硅晶体管进行计算。Cortical Labs已经训练其脑细胞计算机玩乒乓游戏,并计划扩展到AI计算任务。该公司认为其生物系统更适合AI计算任务,因为DishBrain计算机比深度学习算法更高效,且运行时所需的能量比传统系统少10倍。
4、传统芯片巨头
NVIDIA
市值达 2.6 万亿美元的上市公司,自 1993 年成立以来,成为 AI 革命的领军企业,掌握着 70% 至 95% 的 AI 芯片市场份额。Nvidia 为微软、亚马逊、Meta、谷歌、OpenAI 和 xAI 等领先的 AI 公司提供计算支持。Nvidia 通过其广泛采用的 GPU 硬件系统(如最新的 B200 GPU)和专属的 CUDA 软件与 Cerebras 的 CS-3 系统竞争。尽管 Cerebras 的 CS-3 系统在性能和安装简便性上优于 Nvidia 芯片,大多数 AI 开发者仍依赖 Nvidia 的 GPU 和 CUDA 软件。高昂的切换成本使得 Cerebras 很难说服开发者和公司放弃现有的 CUDA 代码并转向其性能更高的服务器。
AMD
市值为 2310 亿美元的上市公司,成立于 1969 年。作为 Nvidia 在 AI 计算领域的主要竞争对手,AMD 正在逐步缩小与 Nvidia 的差距。AMD 的 MI300X GPU 在性能上通常优于 Nvidia 的 H100 GPU,而即将推出的 MI325X 和 MI400 预计将与 Nvidia 的 H200 和最新的 B100 GPU 竞争。由于 AMD 的芯片与 Nvidia 直接竞争,它为开发者提供了另一个选择,尤其是那些习惯于传统 GPU 架构和 AMD 开源 ROCm 软件的公司,可能会觉得从 Nvidia 切换到 AMD 比切换到 Cerebras 的独特系统更容易。
Intel
虽然主要专注于 CPU,Intel 已开始开发其自己的 AI 处理器。Intel 成立于 1968 年,并在 2024 年发布了神经形态 Gaudi3 芯片,以竞争 Nvidia 的 H100 和 AMD 的 MI300X 芯片。Intel 声称 Gaudi3 在 AI 模型训练方面比 Nvidia 的 H100 快 50%。此外,根据《芯片与科学法案》,Intel 将获得 200 亿美元,用于推动美国本土的半导体制造,减少对台湾台积电(TSMC)的依赖。目前,Nvidia、AMD 和 Cerebras 都依赖台积电进行芯片制造。
Qualcomm
成立于 1985 年的 Qualcomm 一直致力于开发边缘技术,如移动设备、相机、Wi-Fi、5G 和物联网系统,但近年来也扩展到了 AI 计算领域。2023 年 11 月,Qualcomm 宣布推出其 Cloud AI 100 Ultra 芯片,专为 AI 推理任务优化。凭借在设计节能型智能手机芯片方面的经验,Qualcomm 的新 AI 芯片在图像分类和物体检测的能效方面优于 Nvidia 的 H100。随着 Qualcomm 继续开发节能型推理芯片,可能在未来边缘 AI 市场中扩大影响力,从而阻碍 Cerebras 进入这一领域。
IBM
IBM 是一家拥有悠久 AI 开发历史的公司,曾在 1997 年凭借 Deep Blue 击败国际象棋冠军 Garry Kasparov,并在 2011 年通过 Watson 战胜《危险边缘》的冠军。自 1911 年成立以来,IBM 最近开始专注于通过 watsonx AI 和 watsonx data 提供 AI 解决方案。2023 年 10 月,IBM 宣布推出 NorthPole 芯片,采用类似于 Intel 神经形态 Gaudi3 芯片的架构,性能优于市场上的其他芯片,包括 Nvidia 的 H100 GPU,并且能耗更低。这种低能耗的芯片设计为 AI 任务提供了更好的性能,而 Cerebras 系统由于耗能较高,需要内部液体冷却系统。在数据中心日益追求能效的背景下,IBM 凭借其独特的芯片设计,有望与 Cerebras 竞争云端 AI 市场份额。
5、云科技巨头
AWS
2023年11月,AWS宣布推出自研的Trainium2和Graviton4芯片。根据公布的规格,Trainium2芯片的AI训练性能据称是Nvidia H100的两倍,同时成本降低30%-40%。Graviton4则专为AI推理任务设计,与前代Graviton3相比,计算性能提高了30%。作为全球领先的AI云服务提供商,AWS与Nvidia一起成为Cerebras在云AI计算领域的主要竞争对手之一。
Microsoft Azure
2023年11月,Microsoft Azure也宣布计划减少对Nvidia的依赖,推出了自研的Azure Maia 100和Azure Cobalt AI芯片。Maia 100芯片设计用于运行云端AI工作负载,包括AI训练和推理。凭借其23%的AI云市场份额,Azure的定制芯片将成为Cerebras云服务的一个重要竞争对手。
Google Cloud
尽管Google Cloud之前依赖于Nvidia的芯片进行内部项目,但自2015年以来,谷歌开始开发自己的Tensor处理单元(TPU),用于内部和云端服务。谷歌TPU针对AI模型的训练和推理进行了优化,并以成本效益为导向进行扩展。最新的TPU v5p和v5e现已开放云端使用,价格比其他云服务提供商更具竞争力,并且据称在性能上可与Nvidia H100相媲美甚至超越。2024年5月,Google Cloud发布了第六代TPU“Trillium”,其计算性能比TPU v5e提升近五倍。
Meta
虽然Meta尚未提供云计算服务,但它开发了自己的AI推理加速器。2023年5月推出的MTIA v1已广泛应用于Meta的内部工作负载,第二代MTIA v2于2024年4月发布。随着Meta预计未来十年AI计算需求的增长,MTIA v1和v2成为公司400亿美元AI资本支出的一部分,用于支持其AI计算流程。
五、商业模式
Cerebras 采用混合商业模式,通过四大主要渠道创收:硬件销售、超级计算包、云服务和推理服务。这个多元化的策略使公司能够服务于不同规模的客户,从具有重大计算需求的大型组织到寻求灵活云端AI解决方案的小型公司和个人开发者。
1、直销CS-3 系统
Cerebras 提供 CS-3 系统用于本地部署,吸引那些对数据安全要求极高的客户,比如军方、政府或制药行业。通过本地部署,这些组织可以完全掌控敏感数据,并遵守相关的监管标准,这对于处理机密或专有信息尤为重要。虽然 CS-3 的具体价格未公开,但预计其售价与前代产品 CS-2 相近,约为 200 万美元。
2、超级计算包
Cerebras 为大规模高性能计算提供多台 CS-3 系统的组合解决方案,主要面向主权云供应商和政府实体,因其投资成本较高。例如,公司推出的 Condor Galaxy 1 系统包含 64 台 CS-2,售价约为 1 亿美元。Cerebras 还计划为阿联酋的 G42 部署九台超级计算机,进一步扩大市场。
3、云服务
针对AI需求较少的客户,Cerebras 提供基于云的按小时付费服务,通过其位于 Colovore 设施的 Andromeda 超级计算机实现灵活计费。公司声称,这种云服务的成本约为其他云平台或租赁相同工作负载机器的一半,同时其系统训练模型的速度可比 Nvidia A100 集群快多达八倍。
此外,Cerebras 还提供按模型付费的 AI 模型服务。客户可以支付固定费用,利用 Cerebras 的 CS-3 系统和50多名内部开发者来训练定制模型。根据需求,模型可以在两周内微调完成,三个月内完成预训练,适用于定制聊天机器人、代码补全工具、摘要服务和分类系统等。
4、推理服务
Cerebras 为开发者提供基于 API 的推理服务,分为三个定价层次:
免费层:提供免费 API 访问及特定使用限额,适合个人开发者。
开发者层:为开发者提供 API 端点,可用于 Llama 3.1 8B 和 70B 模型推理,并计划支持更多模型,如 Llama3-405B 和 Mistral Large。
企业层:为大型企业提供经过微调的模型和专属支持,可通过 Cerebras 的专用私有云或本地部署系统使用推理服务。
六、重大进展
2023年,Cerebras 实现了业务的飞速增长,收入增长了10倍,超过了2.5亿美元。展望2024年,Cerebras的首席执行官安德鲁·费尔德曼(Andrew Feldman)表示,公司增长势头不减,并预计到2024年底将实现1 ZFLOP(泽塔浮点运算)的计算能力。相比之下,2023年4月全球GPU计算能力约为4 ZFLOP。
1、超级计算机扩张
2023年,公司与G42合作,先后建造了两台超级计算机——Condor Galaxy 1(7月)和Condor Galaxy 2(11月),每台价值约1亿美元。双方的合作协议还包括建设七台超级计算机,其中 Condor Galaxy 3 将于2024年上线,总投资额将再增加9亿美元。在不到一年的时间内,部署三台大型超级计算机,使Cerebras的收入超过了大多数AI硬件初创公司的总收入。此外,Cerebras 于2023年底与 Nautilus 合作,部署了约80台 CS-3 系统,形成了一台小型超级计算机。
2、开创性的科研合作
2023年,Cerebras 的 CS-3 系统在实时计算流体力学模拟中比其他超级计算机快了470倍。2024年,与美国国家实验室合作,Cerebras 的系统在分子动力学模拟中实现了179倍的加速,远超全球最快的超级计算机 Frontier。这些进展带来了材料科学和癌症研究领域的重大科学突破,Cerebras 的系统还被阿贡国家实验室用于癌症研究,性能比现有的计算基础设施快了300倍。
3、医疗保健与制药应用
2021年,阿斯利康通过使用Cerebras的系统将研究时间从数周缩短为数天,而2022年,葛兰素史克(GSK)报告称在训练遗传数据的AI模型时,速度提升了160倍。2024年,Cerebras 与梅奥诊所合作,开发了旨在改善类风湿关节炎和胰腺癌诊断的AI模型,利用梅奥诊所的长期医疗数据为患者提供更好的治疗方案。
4、军事与政府合同
2024年,Cerebras 与欧洲领先的AI公司 Aleph Alpha 建立了重要合作,帮助德国武装部队开发主权AI模型。这标志着 Cerebras 首次在欧洲数据中心部署 CS-3 系统,显示了其在政府和国防领域的影响力不断扩大。
5、战略技术合作
Cerebras 通过合作进一步扩展其技术能力和市场影响力。2024年,Cerebras 与戴尔科技和AMD合作,改进其超级计算机的存储解决方案,增强其训练超大规模模型的能力。同时,Cerebras 与高通合作,优化其Cloud AI 100加速器,实现了长语言模型(LLM)推理任务的10倍加速。
6、AI行业应用
Cerebras 的技术被广泛应用于多个行业。2022年,Jasper 利用Cerebras的Andromeda超级计算机,极大缩短了生成式AI模型的训练时间。同年,TotalEnergies 将 Cerebras 的 CS-2 系统整合到其位于德克萨斯州休斯顿的研究设施中,用于推进清洁能源研究,在地震波传播建模等任务上实现了200倍的加速。此外,一家未公开名称的金融机构使用 Cerebras 的系统后,训练时间缩短了15倍,准确率提高了一倍多,能耗减少了一半。
7、大型语言模型
Cerebras 开源了多款先进的模型。这些模型包括双语阿拉伯语模型Jais系列,以及BTLM-3B-8K模型,该模型在其紧凑的3B参数下实现了媲美7B参数模型的表现。在生物医学领域,Cerebras 开发了 MediSwift 和 Med42,超越了现有的模型,如谷歌的 Med-PaLM。值得注意的是,Cerebras 声称这些模型的训练效率极高,仅需一名工程师,而OpenAI则需要35名工程师分布式训练GPU集群。
8、AI推理能力
尽管 Cerebras 主要专注于大型AI模型的训练,但该公司在2024年推出了全球最快的推理服务。此推理能力自发布以来广受AI领域专家赞誉,DeepLearning.AI创始人吴恩达博士称Cerebras的推理能力“令人印象深刻”,而Perplexity的CTO Denis Yarats 表示,Cerebras 的低延迟和超快推理速度将极大提升用户互动体验。
七、公司估值
2021年11月,Cerebras完成了2.5亿美元的F轮融资,估值达到40亿美元,使公司累计融资金额超过7.2亿美元。此次融资由Alpha Wave Ventures、阿布扎比增长基金和G42领投,现有投资者如Eclipse Ventures、红杉资本、Altimeter Capital、Benchmark Capital和Coatue Management也参与了投资。在此之前,Cerebras在2019年11月完成了2.72亿美元的E轮融资,彼时估值为24亿美元。
Cerebras 还吸引了多位科技领域知名个人投资者的押注,包括OpenAI首席执行官Sam Altman、OpenAI创始人Ilya Sutskever、Sun Microsystems创始人Andy Bechtolsheim、AMD前首席运营官Saiyed Atiq Raza、AMD前首席技术官Fred Weber、Stripe前首席技术官Greg Brockman、Facebook前首席技术官兼Quora首席执行官Adam D'Angelo、Juniper Networks创始人Pradeep Sindhu、Facebook前工程副总裁Jeff Rothschild和Cadence前首席执行官Lip-Bu Tan。
2023年,Cerebras的收入估计超过2.5亿美元。2023年12月,公司宣布其收入和客户承诺总额接近10亿美元,且年收入同比翻番,达到现金流收支平衡。此外,公司还宣布花旗集团将担任其IPO的牵头银行,计划上市。
2024年8月,Cerebras提交了关于拟议IPO的保密文件。基于其47亿美元的估值,推测其收入倍数约为4.7倍。相比之下,截至2024年9月,AI半导体领域的上市公司收入倍数在2倍至27倍之间。
八、全文总结
AI革命为Cerebras提供了成为行业领导者的机会,类似于思科、英特尔和英伟达在过去技术变革中的崛起。Cerebras的计算方法相比传统GPU集群在AI训练中具有显著的速度和成本优势。公司目前拥有接近10亿美元的收入和不断增长的客户群,展现出强劲的市场发展势头。然而,它也面临着来自竞争对手的挑战、地缘政治风险以及未来AI方法论变化的威胁。如果成功应对这些挑战,Cerebras有望在塑造未来AI计算基础设施中发挥历史性作用。
硅谷科技评论(SVTR),在ChatGPT问世之际,创立于美国硅谷,是一家数据驱动的AI孵化器。依托AI创投库、AI创投社和风险投资,为创始人提供人才、资金和咨询服务,打造全球前沿科技(AI)创新生态系统。联系凯瑞(pkcapital2023),加入我们创业工作室,成为导师、顾问、创业合伙人等。更多内容,文末阅读原文访问AI创投库(svtr.ai)。
AI周报:
AI创投
+
AI行业
+
全球 Gen AI 独角兽大盘点,中国4家大模型上榜 | |
大模型系列:海外 | 数学 | 性价比 | 编程 | 医疗 | 评估 | 训练成本 | 小模型 | |
AI 公司创始人 | 华裔创始人 | 北美科技人才中心地图 | |
AI 公司地理和行业分布 | 以色列 | 德国 | 旧金山湾区 | 欧洲 | |
福布斯AI 50 | 斯坦福AI指数 | 企业科技AI 30 | 高增长AI 50 | C端AI 50 | 工具AI 50 | SVTR AI 100 | 自力更生AI 25 | |
AI+编程 | 医疗 | 企服 | 电商 | 设计 | 勘探 | 教育 | 写作 | 客服 | 法律 | 视频 | 3D | 音乐 | 搜索 | 心理精神 | 消费者科技 | 安全 | 生产力工具 | 浏览器 | 游戏 | 会计 | 数据分析 | 销售 | Scribe | 金融投资 | |
人工智能能做什么? | LLMOps |
AI是否会被垄断 | AI未解之谜 |
开源AI,开发者工具 | AI域名 |
生成式 AI 六大趋势 | 巨头的AI战争 |
AI Agent,自动化 | 具身智能 |
AI专利 | 2023年AI总结和展望 |
AI公司
+