ASIC行业正迅速崛起,以其高度定制化的特性适应不同业务场景和商业模式的需求。尤其是在大型云服务提供商(CSP)中,ASIC能够优化内部工作负载架构,实现更低的功耗和成本,以及为AI工作负载提供定制的内存和I/O架构,满足CSP客户的多样化需求。随着AI算力集群尤其是推理集群对加速计算芯片的需求日益增长,ASIC市场将快速增长。预计到2028年,数据中心ASIC市场的规模将提升至429亿美元,国产ASIC芯片制造商也有望逐步追赶。
本篇文章我们将深入探讨ASIC的概念、分类等基础知识,并分析其在市场上的应用前景。随后,我们将对ASIC与GPU进行详尽的对比,探讨ASIC的特点和优势。进一步地,我们将分析市场参与者及竞争格局,并对海外积极布局ASIC的厂商进行梳理。基于以上分析,我们将预测未来ASIC市场的规模。文章最后,我们将列举一些与ASIC相关的公司。希望通过这些内容,能够增进大家对ASIC的认识和理解。
01
行业概述
1、ASIC芯片概念
ASIC,全称为Application Specific Integrated Circuit,中文名为专用集成电路芯片,顾名思义,是一种为了专门目的或者算法而专门定制的芯片。ASIC芯片的架构并不固定,既有较为简单的网卡芯片,用于控制网络流量,满足防火墙需求等等,也有类似谷歌TPU,昇腾910B一类的顶尖AI芯片。ASIC并不代表简单,而是代表面向的需求,只要是为了某一类算法,或者是某一类用户需求而去专门设计的芯片,都可以称之为ASIC。
目前芯片的制造工艺已达极限,芯片性能提升速度放缓,同时芯片的散热问题也日趋严峻。ASIC相较于通用芯片,卸载了通用芯片不必要的逻辑单元,根据特定的应用需求进行优化,减小芯片的面积,以实现数据处理速度,能耗,计算效率的平衡。
2、ASIC芯片分类
当下,ASIC芯片的主要根据运算类型分为了TPU、DPU和NPU芯片,分别对应了不同的基础计算功能。TPU即为谷歌发明的AI处理器,主要支持张量计算,DPU则是用于数据中心内部的加速计算,NPU则是对应了上一轮AI热潮中的CNN神经卷积算法,后来被大量SoC进了边缘设备的处理芯片中。
ASIC芯片也分为全定制ASIC芯片、半定制ASIC芯片及可编程ASIC芯片。
(1)全定制ASIC芯片:全定制ASIC芯片是定制程度最高的芯片之一,研发人员基于不同电路结构设计针对不同功能的逻辑单元,于芯片板搭建模拟电路、存储单元、机械结构。全定制化ASIC芯片在性能、功耗等方面表现优异。全定制化ASIC芯片平均算力输出约为半定制化ASIC芯片平均算力输出的8倍,采用24纳米制程的全定制化ASIC芯片在性能上优于采用5纳米制程的半定制化ASIC芯片。
(2)半定制ASIC芯片:构成半定制ASIC芯片的逻辑单元大部分取自标准逻辑单元库,部分根据特定需求做自定义设计。1)门阵列芯片:门阵列ASIC芯片包括有信道门阵列、无信道门阵列和结构化门阵列。门阵列ASIC芯片结构中硅晶片上预定晶体管位置不可改变,设计人员多通过改变芯片底端金属层等方式调整逻辑单元互连结构;2)标准单元:该类ASIC芯片由选自标准单元库的逻辑单元构成。设计人员可按算法需求自行布置标准单元。
(3)可编程ASIC芯片:PLD亦称可编程逻辑器件,在结构上包括基础逻辑单元矩阵、触发器、锁存器等,其互连部分作为单个模块存在。设计人员通过对PLD进行编程以满足部分定制应用程序需求。
02
市场前景
1、大型云端服务供应商加速资本支出
大型云端服务供应商在资本支出方面投入巨大,支出的同比增速在加快。北美四大云端服务供应商的Capex规模今年来增幅显著提升,2024年前三季度整体规模达到1708亿美元,同比增长56%,且yoy逐季加快(Q1-Q3yoy分别为34.7%、64.6%、68%)。其中,微软530亿美元,yoy+78.5%;亚马逊551.7亿美元,yoy+44.6%;谷歌382.6亿美元,yoy+79%;Meta243.9亿美元,yoy+20.7%。
资本支出大幅提升的背后,是各家巨头在AI赛道上的竞赛、AI算力的稀缺、AI云赋能和AI生态的拓展等多方面驱动。
2、ASIC可适应不同的业务场景和商业模式的需求
大型云端服务供应商的业务模型、应用场景等很多通过自身的云来承载,每个云承载了独特的应用和商业模型,包括内部应用(比如搜索引擎、社交媒体等)、SaaS服务(比如AI聊天机器人、Copilot等)、IaaS服务等。ASIC可以适应不同的业务场景和商业模式的需求。
ASIC可以满足客户的需求:1)内部工作负载的架构优化;2)更低的功耗,更低的成本;3)为AI工作负载定制的内存和I/O架构。
3、训练和推理集群对加速计算芯片的需求
目前在训练阶段,训练集群对加速计算芯片的需求已提升到万卡级别。随着AI模型对训练需求的提升,未来10万卡级别指日可待。
而在推理阶段,由于计算量与业务和应用密切相关,单个推理集群对加速计算芯片的需求低于训练集群,但推理集群的部署数量要远多于训练集群,推理集群的数量预计会达到百万级别。
AI算力集群特别是推理集群对加速计算芯片的庞大需求,是ASIC快速成长的核心驱动力。
03
ASIC与GPU的对比
从芯片大类来看,目前人类的芯片可以被分为CPU、GPU、FPGA、ASIC四种大类,其中CPU是人类芯片之母,拥有最强的通用性,适合复杂的指令与任务;GPU通过大量部署并行计算核,实现了对于异构计算需求的优化。FPGA芯片则更加强调可编程性,可以通过编程重新配置芯片内部的逻辑门和存储器,但是运算性能较低。ASIC则完全为某类功能或者算法专门设计,通用性较低的同时,拥有对某一类算法最好的性能。下面我们用ASIC与GPU进行详细对比:
1、ASIC硬件性能:针对特定算法和应用优化设计,具有较高能效比
ASIC针对特定算法和应用进行优化设计,在特定任务上的计算能力强大,例如在某些AI深度学习算法中实现高效的矩阵运算和数据处理。GPU具有强大的并行计算能力,拥有众多计算核心,可同时处理多个任务,在通用计算和图形处理方面表现出色,适用于大规模的数据并行计算,如科学计算、图形渲染、视频处理等;但GPU在特定任务上的计算效率可能不如ASIC。
ASIC通常具有较高的能效比,因其硬件结构是为特定任务定制的,能最大限度减少不必要的功耗。GPU由于其通用的设计架构,在执行特定任务时可能存在一些功耗浪费;但随着技术的进步,新一代GPU也在不断提高能效比。
ASIC在处理特定任务时,能实现高吞吐量,数据处理速度快,可快速完成大量的数据处理工作。GPU具有较高的带宽和并行处理能力,在图形处理和通用计算中能实现较高吞吐量,但在处理一些复杂、非图形相关的特定任务时,其吞吐量可能会受到一定限制。
ASIC在绝对算力和片间互联方面普遍低于AIGPU,但ASIC的服务器间互联由于采用以太网为主,具有通用性强、生态开放、低成本等优势。
2、ASIC的单位算力成本更低,满足一定的降本需求
ASIC的单位算力成本更低,满足一定的降本需求。ASIC因其硬件结构是为特定任务定制的,减少了很多针对通用加速计算的不必要的硬件设计,其单位算力成本相比GPU或更低。例如谷歌TPUv5、亚马逊Trainium2的单位算力成本分别为英伟达H100的70%、60%。
3、ASIC与GPU软件生态对比
ASIC在软件生态上的优势:云厂商普遍具备较强的研发能力,为ASIC研发了配套的全栈软件生态,开发了一系列编译器、底层中间件等,提升ASIC在特定场景下的计算效率。部分第三方芯片厂商推出了开源平台,未来ASIC的软件生态将会愈发成熟和开放。
ASIC在软件生态上的劣势:软件生态相对较为单一,主要针对特定的应用场景和算法进行优化。与GPU相比,ASIC的编程难度较大,需要专业的知识和技能,开发工具和软件库相对较少。这使得开发者在使用ASIC时需要花费更多时间和精力进行开发调试。
GPU软件生态的优势:软件生态丰富成熟,拥有广泛的开发工具、编程语言和软件库支持,如英伟达的CUDA和AMD的ROCm等。开发者可使用熟悉的编程语言如C、C++、Python等进行开发,且有大量的开源项目和社区支持,方便开发者学习和交流。这使得GPU在各种应用场景中都能快速地进行开发和部署。
GPU软件生态的劣势:软件生态在特定任务上的优化程度可能不如ASIC。在一些对性能和功耗要求极高的特定场景中,需要进行大量的优化工作才能发挥出GPU的最佳性能。
4、ASIC以推理场景为主,并开始切入到部分训练环节
ASIC在执行特定AI算法时的高性能和高能效的优势,对于大规模数据中心等对能耗敏感的场景非常重要。由于ASIC不需要集成通用的功能模块,从而减少不必要的硬件资源浪费,如果AI应用场景明确且需求量大,ASIC在大规模生产后其单位成本可显著降低。但ASIC也有开发周期长且灵活性差的劣势,由于ASIC的设计和制造是针对特定算法和应用场景进行的,一旦设计完成其功能就固化下来,难以对芯片的功能和性能进行修改和升级,如果AI算法发生较大变化,ASIC可能无法快速适应这种变化。此外,ASIC的生态系统还不够完善,开发者在使用ASIC时可能需要花费更多时间和精力去搭建开发环境、编写底层代码等,开发难度较大。
ASIC更适用于推理:在推理阶段,AI模型已训练完成,需要对输入的数据进行快速的预测和分类。此时对芯片的计算精度要求相对较低,但对计算速度、能效和成本等要求较高。ASIC正好满足这些需求,其高度定制化的设计能针对推理任务进行优化,以较低的功耗实现快速的推理计算。且在大规模部署的场景下,ASIC的成本优势更加明显,可以降低企业的运营成本。
GPU更适用于训练:AI训练过程需要处理大量的数据和复杂的计算,对芯片的计算能力、内存带宽和并行处理能力要求非常高。GPU拥有众多的计算核心和高带宽内存,可以同时处理大量的数据样本和复杂的计算任务,能够加速AI模型的训练过程。且在训练过程中,需要不断地调整模型的参数和结构,GPU的灵活性使其更适合这种频繁的调试和迭代。
04
市场参与者及竞争分析
1、IP和产业链整合是芯片自研主要挑战,需借助外部厂商支持,综合能力强的厂商竞争优势显著
芯片的自研可分为前端、后端两个阶段,其中,IP和产业链整合是主要的挑战。前端即逻辑设计,涉及芯片的基本功能,后端则是将所有的功能落实到电路并且流片出来的物理实体。目前,电路设计生态已经相对成熟,自研团队面临的第一道门槛是有严密的知识产权保护的IP,为了获得这些IP,自研厂商往往需要与IP设计厂商合作,获得授权,此外,部分艰深的结构(如NOC,片上网络)也是自研团队难以独立完成的。除了设计环节,自研厂商还面临流片、量产、芯片组网、产业链整合、软件生态等一系列挑战。据芯潮IC调查了解到,每家迭代第一代产品,如果按7纳米中间节点去算,加量产至少小20亿美金。
云厂商自研芯片时,通常会选择博通、Marvell、英伟达、联发科等厂商合作设计芯片,再通过台积电等代工厂完成芯片制造,目前博通客户量产节奏领先。博通目前有三家定制芯片大客户,前两家客户已经进入量产期,新加入的客户预计在2025年进入量产。Marvell目前有三位客户,目前均未量产,A客户的AI训练芯片、B客户的ArmCPU处于产能爬坡期,A客户的AI推理芯片、C客户的AI芯片预计分别2025年、2026年开始产能爬坡。英伟达则处于更前期的阶段。据路透社报道,英伟达正在建立新的业务部门,专注于为云计算和其他公司设计定制芯片,包括AI处理器,已经与亚马逊、Meta、微软、谷歌和OpenAI的代表会面,讨论为他们生产定制芯片的事宜。据ITBEAR报道,联发科将为谷歌提供AI服务器芯片的串行器和解串器(SerDes)方案,并协助整合谷歌自研的TPU。
目前,博通和Marvell是较早进军ASIC市场的公司,在行业处于领先地位。博通占据一半以上的市场份额,Marvell市场份额在10%左右。
展望未来,产业资源整合能力强、IP库完整、有先发优势的厂商将保持领先,竞争格局不会过于分散。博通、Marvell均为完整布局通信、计算领域的厂商,在IP库、芯片设计平台、出货规模都具有综合优势;同时,客户与定制芯片厂商黏性较强。双方通常基于长期路线图,从逻辑设计到物理实现,双方团队需密切合作,因此迁移转换合作伙伴的成本较高。
2、国产芯片厂商有望逐步追赶
目前海外云厂商正加速布局ASIC芯片,国产AI芯片厂商有望在推理领域加速追赶。当前华为昇腾、寒武纪、燧原科技等厂商产品均基于ASIC架构,全球ASIC市场并未形成明显的头部厂商,国产公司后续有望逐步追赶。
05
海外云厂商ASIC布局情况
1、谷歌:谷歌专为AI定制设计的ASIC
TPU(Tensor Processing Units,张量处理单元)是谷歌专为AI定制设计的ASIC,其针对大模型的训练和推理进行了优化。TPU适合各种使用场景,例如聊天机器人、代码生成、媒体内容生成、合成语音、视觉服务、推荐引擎、个性化模型等。
截至2024年,谷歌TPU已迭代6代产品。TPUv5p单个Pod可达8960颗芯片的集群规模,借助Multislice训练技术,TPUv5p可实现5万卡线性加速。最新一代TPUv6 Trillium预计2024H2推出,TPUv6 FP16/BF16精度非稀疏算力可达926TFLOPS,约为H100、B100的93%、53%。相比TPUv5e,TPUv6能效高出67%,峰值性能高出3.7倍。
(1)谷歌TPU算力集群能力
TPUv4和TPUv5p算力集群采用3Dtorus(3D环面)架构和OCS,提供高速的网络连接,增强拓展性与互联效率。在TPUv4的架构中,每64颗TPUv4芯片组成4x4x4的立方体,每个CPU配备4颗TPUv4,64颗TPUv4和16颗CPU放入一个机架,形成一个模块。
一个模块有6个面的光路链接,每个面有16个链接,单模块共有96个光路连接到OCS。为了提供3D环面的环绕链接,对面的链接必须连接到同一个OCS。每个模块连接48个OCS(6×16÷2),最终实现所需的4096个TPUv4芯片互联。
TPUv4算力集群的物理架构:一个PCB包含4个TPUv4,通过ICI链路连接到其他托盘(tray),16个托盘共同放入一个机架,形成4x4x4的3D模块结构。64个机柜共同组成4096颗芯片规模的算力集群。
(2)谷歌TPU基准测试性能对比
TPUv4与英伟达A100在MLPerf基准测试中的性能对比:TPUv4在BERT上比A100快1.15倍,比IPU快约4.3倍;在ResNet上,TPUv4分别比A100和IPU快1.67倍和约4.5倍;运行MLPerf基准测试时,A100的平均功耗比TPUv4高1.3~1.9倍。虽然TPUv4单芯片算力为A100的88%,但在性能和功耗表现上要优于A100。
(3)谷歌TPU迭代推动大模型训练效率显著提升
TPU的算力成本随着产品更新迭代也在持续优化。TPUv5e的相对性价比(TFLOPs/$)是TPUv4的2.3倍,参考谷歌披露的TPUv4公开标价3.22美元/芯片/小时,TPUv5e的标价为1.2美元/芯片/小时,TPUv5e以更低的成本实现了更高的算力。TPUv5p训练LLM的速度比TPUv4快2.8倍,利用第二代SparseCores,TPUv5p训练嵌入密集模型的速度比TPUv4快1.9倍。
2、亚马逊:自研推理芯片Inferentia和训练芯片Trainium
AWS(Amazon Web Services)在AI芯片的布局主要包含推理芯片Inferentia和训练芯片Trainium两大系列。
(1)亚马逊自研AI芯片Trainium
AWS Trainium是AWS专门为超过1000亿个参数模型的深度学习训练打造的机器学习芯片。自2020年以来,亚马逊发布了两代Trainium芯片。Trainium1加速器提供190TFLOPS的FP16/BF16算力,配有32GB的HBM,内存带宽820GB/s;而新一代Trainium2达到了430TFLOPS的FP16/BF16算力,其HBM容量达到96GB,内存带宽为4TB/s。与第一代相比,AWS Trainium2的性能提高了4倍,能效提高了1倍。
每个Amazon Elastic Compute Cloud(AmazonEC2)Trn1实例部署多达16个Trainium加速器。AWS表示未来扩展到多达10万个芯片的EC2 UltraCluster集群中,从而高效训练大模型。基于Trainium的Amazon EC2Trn1实例与同类AmazonEC2实例相比,可节省高达50%的训练成本。Trainium已针对训练自然语言处理、计算机视觉和推荐器模型进行了优化,这些模型用于文本摘要、代码生成、问题解答、图像和视频生成、推荐和欺诈检测等各种应用程序。
(2)亚马逊自研AI芯片Inferentia
AWS Inferentia加速器由AWS设计,在AmazonEC2中以低成本为深度学习和生成式AI推理应用程序提供高性能。第一代AWSInferentia1加速器为Amazon Elastic Compute Cloud(AmazonEC2)Inf1实例提供支持,与同类AmazonEC2实例相比,该实例的吞吐量可提高多达2.3倍,每次推理的成本可降低多达70%。
2023年亚马逊发布了Inferentia2芯片和Inf2实例,与Inferentia相比,AWSInferentia2加速器的吞吐量提高了4倍,延迟低至上一代的1/10。Inferentia1加速器搭载4个第一代NeuronCore,配有8GB的DDR4内存,每个EC2Inf1实例最多有16个Inferentia1加速器。Inferentia2加速器搭载了2个第二代NeuronCore,支持190TFLOPS的FP16性能,配置32GB的HBM,与Inferentia1相比,总内存增加了4倍,内存带宽增加了10倍;每个EC2Inf2实例最多有12个Inferentia2加速器。
(3)亚马逊AWSNeuron
AWS Neuron是一款用于优化AWS Trainium和AWS Inferentia加速器上的机器学习性能的SDK。它支持在基于AWS Trainium的AmazonEC2Trn1实例上进行高性能训练。对于模型部署,它支持在基于AWS Inferentia的AmazonEC2Inf1实例和基于AWS Inferentia2的Amazon EC2 Inf2实例上进行高性能和低延迟推理。AWS Neuron SDK与PyTorch和TensorFlow原生集成,确保客户可继续在这些热门框架中使用现有工作流程,并在Amazon EC2 Trn1、Inf1和Inf2实例上以最佳方式训练和部署ML/DL模型。开发者可将基于GPU的实例迁移到AWS Tranium中,客户只要修改少量代码即可实现海量数据训练,降低了训练成本。
3、微软:自研芯片Maia100
微软将Maia100打造成定制的AI加速器,用于在Azure上运行OpenAI的模型和Copilot等AI工作负载。Maia100采用台积电5nm制程和CoWoS-S封装技术,配备64GB(4×16GB)的HBM2E,内存带宽达1.8TB/s。Maia100配备一个500MB的L1/L2缓存,芯片具有12倍400GbE的网络带宽,设计最大功耗700WTDP。
Maia100芯片在MXFP4数据格式下的性能达到3200TFLOPS,Int8下达到1600TFLOPS,BF16下达到800TFLOPS,算力性能超过英伟达A10028%,是英伟达H100的40%。
微软Maia100单SoC搭载16个集群,其中每个集群搭载4个图块Tile。Maia100拥有图像解码器和机密计算能力,支持广泛的数据类型,包括FP32和BF16。
Maia100基于自定义的RoCE类协议和以太网互连,内置AES-GCM加密引擎以保护用户数据,网络连接带宽达到600GB/s。Maia100还由统一的后端网络支持,用于扩展和横向扩展工作负载,提供了支持直接和交换机连接的灵活性。
微软Maia100芯片的Ares机架配备32颗Maia100。Ares一个机架中搭载了8台服务器,每台服务器中含有4个Maia100,因此一个机架中总共有32颗Maia100芯片。Ares机架功率可达40kW,配置了Sidekick液体冷却系统,在机架两侧设置副设备,冷液从副设备流向Maia100表面的冷板,副设备吸取液体中热量后再将冷液输出,以此构建散热循环。
Maia SDK上实现快速部署和模型可移植性。微软为Maia100创建了软件,该软件与PyTorch和ONNX Runtime等流行的开源框架集成。该软件栈提供了丰富而全面的库、编译器和工具,使数据科学家和开发人员能在Maia100上成功运行模型。微软集成了OpenAI的Triton;Triton是一种开源编程语言,通过抽象底层硬件简化了内核编写,这将赋予开发者完全的可移植性和灵活性,而不会牺牲效率和针对AI工作负载的能力。Maia的SDK允许用户将用PyTorch和Triton编写的模型快速移植到Maia。
4、Meta:自研芯片MTIA
2023年5月,Meta推出第一代AI推理芯片MTIAv1(Meta Trainingand Inference Accelerator),用于支持Meta的深度学习推荐模型,该模型是Facebook,Instagram,WhatsApp,MetaQuest,HorizonWorlds,andRay-BanStories业务的重要基础。MTIAv1芯片采用台积电7nm制程,Meta研究显示,对于低复杂度的深度学习模型,MTIA的运行效率(TFLOPS/W)优于GPU,而对于中高复杂度的模型,GPU的效率更佳,公司表示正在持续优
MTIAv2于2024年4月发布,用于AI推理,旨在增强Meta的排名和广告推荐引擎。MTIAv2采用台积电5nm制程,与上一代相比算力和内存带宽翻倍提升,INT8下的稠密算力354TFLOPS接近上一代的3.5倍,稀疏算力708TFLOPS达到上一代的近7倍。MTIAv2配备128GB的LPDDR5内存,内存带宽205GB/s,设计最大功耗90WTDP。目前Meta已有16个数据中心使用了新款芯片。
芯片架构方面,MTIAv2内部包含加速器、片上和片外存储以及互联结构。AI加速器由8x8的处理单元网格(PE,processingelement)组成,PE基于RISC-V内核,PE彼此互联,可作为一个整体运行任务,也可以独立处理任务。片上内存SRAM容量256MB,SRAM带宽为2.7TB/s,每个PE内存容量为384KB,PE带宽为1TB/s。每个加速器使用PCIe Gen5 x8主机接口。
MTIA v2加速器模块:每张卡2个MTIA芯片,每个MTIA都可以使用PCIe Gen5 x8接口,单模块共x16接口(2PCIe Gen5 x16)。
MTIA机柜系统结构:一个机架系统包含(2×MTIA芯片)×(12×模组)×(3×机箱),相当于每个机架系统搭载了72颗MTIA芯片。
MTIAv2软件堆栈与PyTorch2.0、TorchDynamo、TorchInductor完全集成,致力于提高开发者编程效率。MTIAv2的低级编译器从前端获取输出,生成高效且特定于设备的代码。下方是运行时堆栈,负责与驱动程序/固件接口,最后,运行时与驱动程序交互。Meta创建了Triton-MTIA编译器后端为芯片硬件生成高性能代码,Triton用于编写ML计算内核,极大提高了开发人员效率。
基于MTIA平台加速后的Meta推荐模型的效率得到提升,在大型片上SRAM的加持下,低复杂度(LC)模型具有开箱即用的优势,而高复杂度(HC)模型在4-6个月内性能提高了2倍以上。
5、特斯拉:自研Dojo计算平台,用于训练自动驾驶AI模型
Dojo于2019年发布,是特斯拉自研的超级计算机平台,用于训练其自动驾驶系统的人工智能模型。特斯拉在设计和生产过程中与合作伙伴台积电进行了合作,dojo平台的核心组件是D1芯片,是由台积电代工的定制专用集成电路(ASIC),采用7纳米制程和先进封装技术。Dojo可以有效训练全自动驾驶技术FSD,使其获得更多的学习经验,推动机器人出租车和网络服务加快应用。
(1)采用近存计算架构,单训练板功耗高达15kw
整体架构上,Dojo分成6个层级:内核、芯片、瓦片、模组,机柜,超算机群。1个D1芯片上有354个核心。25个D1组成一个训练板(trainingtile),6个训练板组成一个训练矩阵(Training Matrix),2个训练矩阵构成1个机柜,10个机柜构成1个超算机群。
D1单芯片FP32性能达22TFLOPS,矩阵计算单元提供了Dojo主要的算力。特斯拉矩阵计算单元相应的专利如下图。该模块关键部件是一个8x8矩阵-矩阵乘法单元(Matrix Computational Unit)。输入为数据输入阵列和权重输入阵列,计算矩阵乘法后直接在输出进行累加。每个Dojo核心包括4路8x8矩阵乘法单元。
包含25颗D1芯片的Dojo训练板设计成“三明治式”结构,实现了计算、存储、供电和通信无缝集成。每个训练板都配置了11GB的片上跨内核SRAM,这是一种近存计算架构,相应的耗电量也高达15kw,采用液冷封装,能效比为0.6TFLOPS/W(BF16/CFP8)。Dojo采用InFO_SoW封装,这种封装技术不需要额外PCB载板,就能将相关芯片集成散热模块,加速生产流程。
在高密度的计算芯片环境下,特斯拉面临较大的电力传输和散热问题考验。单颗D1芯片的热设计功率(TDP)为400W,一个训练板的功耗高达15千瓦。在电力方面,特斯拉在Dojo POD上使用了全自研的VRM(电压调节模组),单个VRM可在不足25美分硬币面积的电路上,提供52V电压和超过1000A巨大电流,电流目的为0.86A每平方毫米,共计12个独立供电相位。特斯拉的电源调节模块和液冷板采取与芯片本身垂直的立体结构,极大的减少了对处理器平面的面积占用,尽可能减少计算芯片间的距离。
特斯拉的V1训练矩阵包含150个D1芯片(6个训练板),4个主机CPU,每个主机装有5张DIP卡,这是一种PCIe卡,每个DIP含有32GB HBM(800GB/s存储带宽),支持特斯拉传输协议TTP,提供超高的TTP带宽和以太网带宽。训练板通过DIP连接至交换机。在BF16和CFP8精度下,V1训练矩阵算力可达1Exaflop。
一个Dojo POD机柜由两层、12个训练板组成,可提供108PFLOPS算力。多机柜可以拓展至一组ExaPOD,包含3000颗D1芯片(120个训练板)。
(2)自研TTP通信协议,提供高带宽低时延连接
Dojo采用TTP专有通信协议,提供高带宽芯片间通信。特斯拉为Dojo芯片设计了TTP作为通信协议,这是一种基于PCIe的专有协议,旨在提供高带宽和低延迟的数据传输,D1芯片间通信带宽高达900GB/s。
TTP支持桥接到标准以太网,降低通信时延。TTP TTPOE可将标准以太网转换至Z平面拓扑,降低了垂直延迟,大幅降低网络跳数,以50GB/s在以太网上运行。低延迟特性使得Dojo芯片在处理复杂计算任务时能够迅速响应,提高了整体的系统性能。另外每个训练模块外部边缘的40个I/O芯片达到了36TB/s的聚合带宽,或者10TB/s的横跨带宽。每层训练模块都连接着超高速存储系统:640GB运行内存可以提供超过18TB/s的带宽,另外还有超过1TB/s的网络交换带宽。
(3)特斯拉为Dojo创建全栈软件生态
软件层面,特斯拉构建了一套由PyTorch、编译器、驱动程序等共同构成的软件栈。整个软件生态的顶层是PyTorch框架,中间使用Dojo编译器和LLVM形成编译层,底层基于Dojo驱动。Dojo编译器负责划分任务、配置数据存储、进行细粒度的并行计算并减少存储占用。Dojo编译器支持的并行方式包括数据并行、模型并行和图并行。支持的存储分配方式包括分布式张量、重算分配和分割填充。在软件生态加持下,用户可将Dojo大型分布式系统视作一个加速器进行整体设计和训练。
06
市场预测
1、AI ASIC处于发展初期,2028年市场规模有望超400亿美元
北美云厂商对AI芯片需求量大,为了增强议价能力和供应链多元化,有充足的动力自研芯片。北美云厂商在AI领域的资本开支近两年有望保持高速增长,是英伟达的重要客户,谷歌、微软、亚马逊、Meta和甲骨文五家云厂商预计贡献了FY2025英伟达GPU六成以上的收入,预计接近500亿美元。而AI ASIC芯片当前规模远低于GPU,博通FY2024定制芯片收入预计70亿美元左右,Marvell FY2024可能仅有个位数亿美元收入。能够认为当前定制芯片仍处于发展初期,云厂商为了降低成本、增强供应链保障,会持续迭代ASIC并增大在特定场景的ASIC部署规模,ASIC市场规模有望高速增长。
目前ASIC在AI加速计算芯片市场占有率较低,预计增速快于通用加速芯片。据Marvell预测,2023年,定制芯片仅占数据中心加速计算芯片的16%,其规模约66亿美元,随着AI计算需求增长,以及定制芯片占比提升至25%,预计2028年数据中心定制计算芯片市场规模将达到429亿美元,2023-2028年CAGR达45%。而通用加速计算芯片2028年预计达到1716亿美元市场规模,2023-2028年CAGR为32%。
2、ASIC与通用芯片将带动AI螺旋上升
从全局来看,ASIC放量与对应的算力降本,是大模型走向一个更大产业的必经之路,AI的算力叙事足够宏大,能够认为在AI芯片的发展上,将会经历多轮螺旋上升式的发展,最终达到全社会的AGI,新的模型与算法通过通用性GPU被发现和初步开发,通过专用ASIC将需求繁荣,繁荣的生态吸引更多用户与参与者,最终培育出新的、更强的算法,循环往复,螺旋上升,最终达成AGI的宏伟目标。
07
相关公司
随着ASIC放量将助力Marvell AI、博通等专注于半导体平台的全球公司快速扩张。晶圆代工厂如台积电、英特尔、中芯国际的议价能力和产业链地位有望提升,利润上涨。同时,ASIC的兴起将带动国内ASIC芯片厂商的发展,华为昇腾、寒武纪等厂商有望转型为顶尖的模型ASIC制造商。
此外由于散热对ASIC性能至关重要,英维克、中航光电、高澜股份等散热公司将持续受益。大量中小ASIC公司将会催生大量的新建服务器需求。同时,国内芯片有望通过ASIC公司加速形成可用大模型算力,从而带动国内服务器需求起量,对工业富联、高新发展、中科曙光、紫光股份等服务器行业龙头企业形成利好。
1、博通
博通AI业务占比从2019年的低于5%提升至2023年的15%左右。根据公司的规划,预计2024年实现超过100亿美元的收入体量,占公司整体收入比例增长至35%。
目前博通已经为两家头部CSP客户批量供应了ASIC产品。此外,博通另一家客户正在产能爬坡中,预计2025年开始贡献业绩。
博通广泛的IP储备为ASIC产品线赋能。博通广泛的IP储备可为其XPU(博通对于AI ASIC的说法)产品线赋能,博通的IP主要分为4类:计算,存储,网络IO,封装。计算包括处理单元架构,设计流和性能优化。存储包括HBMPHY,整合和性能。网络IO包括架构实现,Chiplets软硬一体化解决方案。封装包括2.5D/3D封装,硅光架构和实现,垂直整合等。其中SerDes、基于AI优化NICs、高端封装、交换机、CPO、内存等IP处于行业领先水平。博通在相关领域投入了30亿美元研发费用。
博通充分利用已经布局完成的XPU平台工程,实现了业界最快的ASIC产品落地时间。XPU平台涵盖了经过10年XPU经验优化的AI设计流程、AIIP、SoC封装等一体化解决方案。ASIC产品设计阶段耗费7-9个月的联合开发时间,再用3个月左右的时间完成产品的生产和产能爬坡。
博通与客户在架构阶段就展开了深度的战略合作。在XPU设计启动的前几年,完成了关键组件的早期IP投资;并且为后两代XPU同时进行技术、IP和封装投资。
随着算力性能增长、网络和内存带宽提升、对电力输送、热完整度、机械可靠性等要求的升级,XPU的复杂度在加深。博通积极响应了客户对更复杂的XPU的需求。博通与多家大客户一起联合开发了十几款XPU产品。
三家大客户推出多代路线图。下一代3nmXPU有望在2025年下半年批量出货,大幅增长。目前有三家超大规模客户,已经开发多代AIXPU路线图,将在未来三年内以不同的速度部署。到2027年,三个客户都计划在单个结构中部署100万个XPU集群。
博通2019-2023财年收入年复合增速11.4%。2024年公司收购的Vmware并表后,2024财年实现收入515.7亿美元,同比增长44%。
博通Non-GAAP净利率从2019财年的41.8%提升至2023财年的51.3%。得益于利润率的提升,博通2019-2023财年Non-GAAP净利润年复合增速达14.4%。2024财年Non-GAAP净利润达到237.3亿美元,同比增长29%。
半导体解决方案是公司的最大业务,2023财年占据公司整体收入的78.7%;利润率从2019财年的50%提升至2023年的58.5%。2024财年公司半导体业务收入301亿美元,同比增长6.8%。
公司的基础设施软件业务占比不低于20%。其中,Vmware在2024年并表后显著推高了该业务板块的规模体量。
2、Marvell AI
Marvell的AI业务2023财年为2亿美元左右。公司预计24-26财年加速AI业务(连接+定制化计算)收入从5.5亿提升至25亿美元。
Marvell的数据中心业务TAM:根据Marvell预测,2023-2028年其数据中心业务TAM从210亿美元增长至750亿美元,CAGR为29%;其中,定制化加速计算TAM从66亿美元增长至429亿美元,CAGR为45%;交换机TAM从61亿美元增长至120亿美元,CAGR为15%;互联TAM从43亿美元增长至139亿美元,CAGR为27%;存储市场从42亿美元增长至59亿美元,CAGR为7%。
Marvell数据中心业务23年市占率10%,公司长期市占率目标为20%,即业务规模150亿美元,相当于23-28年CAGR高达46.6%。
Marvell的加速计算基础设施平台涵盖了“工艺制程-IP-封装-专家”的布局。
Marvell经过多年对完整定制平台的收购和重大投资,储备了一大批世界级的IP,覆盖模拟、数字、封装等多个层面的知识产权。其中,Cavium擅长网络加速计算,AveraSemi(原格芯子公司)擅长为各种应用提供定制芯片解决方案和2.5D/3D封装技术,Aquantia擅长网络传输,Inphi擅长模拟、硅光和DSP技术,Innovium擅长数据中心交换机芯片技术(竞品为博通的Trident和Tomahawk芯片)。
Marvell的定制计算产品包括AI加速芯片,针对安全、NIC/DPU、ARM计算、存储、视频和CXL功能的ASIC等。
Marvell的客户涵盖美国3/4的大型CSP。Marvell为亚马逊设计的AI训练加速器Trainium2已批量出货。B客户的ARMCPU正处于产能爬坡阶段。新介入的C客户其AI加速器将于2026年产能爬坡。
Marvell2021-2024财年收入年复合增速19.5%。2025财年随着经营改善,预计2025前三财季收入逐季改善(同比增速依次为-12.2%、-5%、6.9%);FY2025Q3单季度收入15.2亿美元,同比增长6.9%,增速重新转正。
Marvell2021-2024财年Non-GAAP净利润年复合增速达31%。2025前三财季Non-GAAP净利润为8.5亿美元,Non-GAAP净利率从17.8%提升至24.6%。
数据中心是公司的最大业务,2021-2024财年复合增速28%,高于整体收入增速。受益于AI对光学等产品的需求推动,最近两个财年数据中心业务占据整体收入比重超40%。
其他业务中,企业网络收入2021-2024财年复合增速21.2%,2024财年占收入比重22%左右;基础设施收入2021-2024财年复合增速23.2%,2024财年占收入比重19%左右;消费业务2024财年占收入比重11%左右;工业和汽车业务2021-2024财年复合增速44%,2024财年占收入比重7%左右。
3、寒武纪
寒武纪是AI芯片领域的独角兽。公司成立于2016年3月15日,专注于人工智能芯片产品的研发与技术创新,产品广泛应用于消费电子、数据中心、云计算等诸多场景。公司是AI芯片领域的独角兽:采用公司终端智能处理器IP的终端设备已出货过亿台;云端智能芯片及加速卡也已应用到国内主流服务器厂商的产品中,并已实现量产出货;边缘智能芯片及加速卡的发布标志着公司已形成全面覆盖云端、边缘端和终端场景的系列化智能芯片产品布局。
公司面向云端、边缘端、终端推出了三个系列不同品类的通用型智能芯片与处理器产品,分别为终端智能处理器IP、云端智能芯片及加速卡、边缘智能芯片及加速卡,其中云端智能芯片主要是为云端人工智能处理提供强大的计算能力支撑;云端智能加速卡是基于云端智能芯片,增加外围电路模块形成的卡板产品,通过主机的附加接口接入系统。
寒武纪云端推理主要包含8个产品,目前迭代至MLU370系列,最大峰值算力高达256TOPS(INT8)。寒武纪推理芯片包括MLU100、MLU270、MLU370和玄思1001等4个系列共8个产品,其中2022年推出的MLU370系列基于双芯片四芯粒思元370打造。思元370芯片采用7nm制程工艺,是寒武纪首颗采用chiplet芯片技术的AI芯片,也是国内第一款公开发布支持LPDDR5内存的云端AI芯片;公司还基于4张MLU370-X8产品集成了玄思1001智能加速器,以在生物信息、医疗影像、语言模型等行业及可沿长江广泛应用。
370系列在高密度云端推理领域具有明显优势。MLU370-X8提供256TOPS(INT8)的峰值算力,高于英伟达L20。同国内云端推理芯片相比,在150W功耗推理卡中,MLU370-X4峰值算力和昆仑芯R200和燧原I20一致,同为256TOPS(INT8)。在高密度云端推理领域,MLU370-S4的能耗比高达2.56,具有显著优势。
全面研发优化推理软件平台模型性能、大模型和AIGC推理业务支持、推理性能优化三个方面,助力客户降本增效。模型性能优化方面,寒武纪针对语音合成、搜索推荐和视觉处理中高频使用网络进行了优化,目前达到了可落地要求;大模型和AIGC推理业务支持方面,寒武纪研发大语言模型分布式推理加速库BangTransformer,进行了LLaMA、GLM、BLOOM、GPT-2等主流生成式大语言模型的适配工作;在推理性能优化方面,BangTransformer支持算子融合、张量并行、量化推理、Flash Attention等优化特性,用于辅助图像生成的MagicMind是业界首个基于MLIR图编译技术达到商业化部署能力的推理引擎,在功能、性能、兼容性上都有良好表现,同时基于MagicMind到PyTorch的集成,客户无需代码迁移也能够享受MagicMind带来的性能加速,同时,MagicMind新增了多款云、边、端、车硬件平台支持,并完善了Sample Code、BestPractice等用户文档,进一步提高了用户使用体验。推理软件平台三个维度的研发优化,大幅提升了推理业务运行效率,助力客户降本增效。
4、华为昇腾
华为昇腾(HUAWEI Ascend)系列芯片是基于华为自主研发的达芬奇架构设计的AI芯片,包括训练和推理芯片,其参数及表现在国内处于领先水平,并衍生出独特的昇腾计算产业。昇腾系列芯片主要由华为全资子公司深圳市海思半导体有限公司研发,该子公司成立于2004年,除昇腾外还拥有麒麟、巴龙、鲲鹏等自研芯片系列,研发实力强大。
“软硬件+全生态”打造面向“端、边、云”的全场景AI基础设施。昇腾计算产业是基于昇腾系列处理器和基础软件构建的全栈AI计算基础设施、行业应用及服务,包括昇腾系列处理器、系列硬件、CANN(ComputeArchitecture for Neural Networks,异构计算架构)、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。其中,以芯片为主的全硬件体系是实现AI训推的底层支撑,以自研计算架构为主的软件体系是吸引开发者的活力之源,以应用软件为主的产业生态是面向未来发展的不竭动力。
昇腾硬件体系是实现AI训推的算力基础和底层支撑。昇腾坚持“硬件开放”策略,为客户提供自有硬件和伙伴硬件的多样化算力选择。1)自有硬件为昇腾系列处理器以及基于昇腾处理器和业界主流异构计算部件的昇腾Atlas系列硬件产品。昇腾系列处理器主要包括昇腾310、昇腾910、昇腾910B等,昇腾Atlas系列硬件产品包括各类模组板卡、小站、服务器、集群等丰富的产品形态。昇腾自有硬件体系旨在打造面向“云、边、端”的全场景AI基础设施方案,可广泛用于“平安城市智能交通、智能医疗、智能零售、智能金融”等领域。2)伙伴硬件指华为开放自有硬件,合作伙伴可进行集成和二次开发,或者通过OEM/ODM方式开发自有品牌的服务器整机。
昇腾系列处理器是硬件体系的核心。昇腾处理器专为AI计算设计,拥有自研达芬奇架构的,能够覆盖端边云全场景,满足不同部署环境差异性的算力需求。华为于2018年10月的华为全联接大会上首次阐述了华为AI战略,并公布了昇腾910和昇腾310两款AI芯片,其中昇腾310是一款最大功耗仅8W的极致高效计算低功耗AI芯片,2018年商用量产,可用于推理端;昇腾910在2019年8月正式商用,用于训练端。昇腾910首次采用达芬奇架构,基于7nm增强版EUV工艺,集成32个立方体计算引擎,半精度(FP16)算力达320TFLOPs,相比英伟达当时的V100SXM的125TFLOPS高一倍以上。2023年9月,华为在受美国制裁三年后发布昇腾910B,其性能取得重大突破,单精度算力大幅提升,表明华为出色的芯片自研能力与昇腾AI处理器未来极高的增长空间。
自研达芬奇架构大幅提升AI算力。昇腾系列AI处理器创新使用达芬奇架构,是华为自研的面向AI计算特征的全新计算架构,具备高算力、高能效、灵活可裁剪的特性。基于达芬奇架构的AI核内含3DCube、Vector向量计算单元、Scalar标量计算单元等,共同保障AI计算的高效处理。在神经网络模型中99%的计算都需要用到矩阵乘法运算,这部分运算是AI计算的核心,在达芬奇架构中由3DCube来完。3DCube能够在一个时钟周期内完成4096次乘加运算,相比传统2D结构运算周期短、时延低、利用率高。此外,AI核中的BufferL0A、L0B、L0C用于向3DCube输送数据和存放计算结果。
高速互联方面:昇腾处理器还拥有自研HCCS接口,可以完成昇腾处理器之间的互联,最新一代昇腾910B的HCCS互联速度可达392GB/s,结合PCle5.0和RoCE接口可以组建更具规模的训练系统,全面释放硬件算力。
AI集群是大模型训练的最终硬件产品形态,昇腾AI集群可支持万卡规模。华为基于昇腾系列处理器开发有一系列昇腾Atlas硬件产品,包括模块、板卡、智能边缘、服务器、集群等,可广泛应用于教育科研、智慧城市、智慧交通等各种算力需求水平的领域。在大模型训练中由于单卡算力有限,通常会基于多卡互联形成千卡乃至万卡规模的集群,华为能够提供或组装包括集群在内的全系硬件产品。2023年7月华为宣布昇腾AI集群规模从最初的4000卡集群扩展至16000卡,成为业界首个万卡AI集群,拥有更快的训练速度和30天以上的稳定训练周期,十倍领先业界。
推出异构计算架构CANN,构筑生态护城河。CANN(ComputeArchitecture for Neural Networks)是华为针对AI场景推出的异构计算架构,对上支持PyTorch、MindSpore、TensorFlow等多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。
昇思MindSpore旨在实现易开发、高效执行、全场景覆盖三大目标。其中,易开发表现为API友好、调试难度低;高效执行包括计算效率、数据预处理效率和分布式训练效率;全场景则指框架同时支持云、边缘以及端侧场景。
5、紫光股份
拥抱AIGC发展浪潮,国内ICT企业领军者。公司是国内云计算基础设施建设和行业智慧应用服务的领先企业,已拥有计算、存储、网络、5G、网络安全、终端等全方位数字化基础设施能力,可提供云计算、大数据、人工智能、智能联接、工业互联网、网络安全、边缘计算等数字化解决方案,多个ICT产品市占率行业领先。随着生成式AI、大模型技术持续发展,有望拉动对AI服务器和高速率交换机需求,公司ICT基础设施及服务业务有望持续受益。
智算算力需求激增,AI服务器及高速率数据中心交换机加速放量。随着AIGC持续发展,AI智算集群规模持续增长,AI服务器以及高速率交换机作为算力底座,需求有望加速释放。公司发布“ALL in AI”以及“ALL for AI”战略,积极布局算力基础设施和AI私域大模型助力AI发展,公司服务器及交换机市场地位稳固,市占率多年稳健第二。
6、英维克
温控全链条自研企业,机房温控和机柜温控是两大增长引擎。公司成立于2005年,是技术领先的精密温控节能解决方案与产品提供商。公司主营业务聚焦设备散热和环境控制两个方向,其中机房温控和机柜温控为公司的主要业务。2018-2023年,公司营业收入由10.70亿元增长为35.29亿元,CAGR为26.96%,其中机房温控和机柜温控的CAGR分别为25.46%和43.63%。
全链条解决方案是核心竞争力,受益龙头客户盈利稳定增长。公司推出Coolinside全链条液冷解决方案和BattCool储能全链条液冷解决方案,通过纵向一体化实现降本增利。截至2024年9月,公司在液冷链条的累计交付已达1GW,“端到端、全链条”的平台化布局已成为公司在液冷业务领域的核心竞争优势。公司进入英伟达供应链,与储能电池第一大客户宁德时代保持长期合作关系,有利于稳定市场份额和收入持续增长。
08
参考研报
1. 西南证券-科技行业前瞻专题:AI ASIC,算力芯片的下一篇章
2. 国泰君安-海外科技行业:算力需求高增,AI ASIC突围在即
3. 浙商证券-通信行业海外AI跟踪报告:ASIC有望爆发式增长,利好核心光器件厂商
4. 国泰君安-海外科技行业:AI ASIC芯片,选择、空间与趋势
5. 国金证券-计算机行业算力深度报告一:算力研究框架~产业链全梳理
6. 中泰证券-半导体行业AI系列之国产算力:0~1,重视产业链历史机遇
7. 国泰君安-迈威尔科技-MRVL.US-Marvell首次覆盖报告:数通芯片龙头,开启AI计算新征途
以上相关研报原文可在“慧博智能策略终端”PC版或“慧博投资分析”APP中查看。
免责声明:以上内容仅供学习交流,不构成投资建议。
慧博财经
微信号【 huiboinfo】