算力新技术:ASIC对比GPU

财富   2024-12-18 19:14   广东  
星球收录10W+上市公司闭门会议纪要、
产业专家调研纪要、行业及公司数据库
卖方观点、精选研报。
日均更新200+机构投研资料。

要点(文末有彩蛋)
1、算力市场背景及ASIC的出现
算力市场现状:算力总体从训练侧向推理侧转换,面临大规模部署问题,如漏液、PCB连接等,而GPU存在功耗大、价格贵、成本及性价比等问题。
ASIC的优势:功耗小、价格便宜、性价比高,市场热度较高,有取代GPU的趋势,是新的技术方向。
2、ASIC发展的推动因素
高性能计算优化需求:厂商看重高性能计算的优化,提升计算密度和能效比,推动AI ASIC在云厂商中的应用。
集成多种功能:英伟达研究DPU光子集成及更多ASIC集成网络、存储功能,以减少数据传输瓶颈,厂商对模型定制化要求提高,推动ASIC发展。
英伟达供应链问题:英伟达芯片供不应求,台积电扩产短期内难以缓解其GPU紧张情况,促使云厂商考虑采用ASIC方案。
性价比及供应链稳定性:云厂商采用ASIC方案可降低成本、功耗,弥补英伟达芯片缺货空缺,还可在设计初期针对特殊应用进行优化。
3、ASIC在训练和推理方面的应用
ASIC并非只能用于推理:谷歌最新TPU分推理芯片和训练芯片,适合大规模深度学习及矩阵乘法等运算,但结构不适合某些大语言模型和深度学习框架,英伟达在训练方面的芯片仍具优势。
4、ASIC与GPU的性能及价格对比
性能对比:H100算力强,可达3000到8000个TOPS(tera operations per second),按FLOPS(浮点运算)算为12000到40000的TeraFLOPS,功耗约700瓦;TPU V5E功耗约200瓦,算力在TFlops浮点上约400,TOPS约1000;V5P功耗约300瓦,算力在TFlops浮点上约500,TOPS约1000。TPU内存相对于英伟达芯片较少,如H100的HBM可达80个GB,V5P只有95到100个GB左右。
价格对比:英伟达H100年初价格约3万美金,A100约1万到12000美金,H100价格可能高达5万美金左右;谷歌TPU V5E价格约2000到3000美金,V5P约5000到6000美金,ASIC价格约为英伟达H100的5分之1。谷歌基于V5E的云服务每小时运算成本可低至0.4元,基于V5P约八毛钱,且价格呈下降趋势,而英伟达训练成本高且芯片难买。
5、ASIC的市场应用及需求
国内外公司应用情况:国外方面,谷歌采购英伟达芯片今年约20万片,自用ASIC芯片TPU V5E、V5P已超百万片;Meta和微软对英伟达芯片需求量大,采购量各约60万片。国内方面,阿里巴巴、腾讯、百度、字节等对大模型或训练、推理需求较高,美团等需求相对较弱。字节先委托美国公司定制ASIC芯片,国内公司在AI设计上受美国限制,芯片设计公司在针对特殊模型定制方面能力不成熟,导致国内ASIC芯片市场相对滞后。
ASIC设计服务商:ASIC设计服务商可分几个阵营,博通和Marvell、高通属于第一阵营,设计服务历史长且先进,博通客户包括谷歌、Meta、亚马逊、字节跳动、OpenAI、苹果等,Marvell客户包括微软等;MTK联发科、海思等为第二阵营,芯片设计能力强,但在IP丰富性和设计能力上比第一阵营稍弱;还有其他Fabless及国内的芯原股份等公司,部分公司虽有设计服务能力,但暂无法做大规模AI加速器芯片。目前AI加速器芯片市场主要玩家为博通、Marvell(含高通)和MTK,博通占约70%市场,Marvell占近30%市场。
出货量情况:谷歌今年TPU出货量约120万片,明年预计超150万片,其中V5P和V5E比例为2比1,反映其业务以推理为主;Meta第一代芯片出货量少,第二代预计明年出货30万片;亚马逊两款芯片今年出货量不到10万片,明年预计接近50万片;字节跳动芯片明年下半年推出,明年量较小,后年规模预计接近30万片;OpenAI芯片研发中,预计明年年底或后年年初推出,初期规模约10万片;苹果芯片处于早期,预计26年出货,量约10万片。
6、ASIC的应用场景及潜在风险
应用场景:TPU主要应用于谷歌自身服务,如搜索(包含图像、视频搜索)、YouTube及其他AI应用,谷歌内部数据中心和TPU服务也会用到,其围绕特定应用做了优化,因此TPU在内部采用比例较高。
潜在风险:目前ASIC未被美国商务部禁令限制,但未来存在风险,尤其若中国ASIC接近美国TPU或英伟达芯片,美国可能采用限制生产制造的方式放缓中国公司开发节奏。不过,目前中国芯片公司与英伟达、谷歌等仍有较大差距,美国政府暂未认为其构成威胁,短期内不太可能下禁令。此外,先进制程可能更易遭禁令,设计服务行业受管制可能性较小,可通过调整参数满足客户需求及政府技术要求。博通等公司未来增长点可能来自海外客户,包括中国客户,若对中国业务受限,其未来增长将受影响。
7、光模块技术发展趋势
未来发展趋势:光模块以可插拔光模块为主,到26年CPO形态将逐渐成熟并量产,会带来交换机和光模块的革命,可插拔光模块将逐渐在1.6T以上光互联中消失;到28年,全硅光集成互联产业工艺路线将走向成熟。目前很多厂家在硅光集成方面做布局,包括格罗方德、Tower及国内很多公司,台积电等制造厂商负责集成,未来交换机和光电器件集成度将越来越高,会带来新机会,也会使部分市场萎缩,如PCB市场,同时会增加CW光源需求,降低液冷需求,使数据中心能效更高。
6T光模块交付及价格情况:200G的EML市场上主要有博通、Coherent、住友、森田等五家厂商,年底均可做出200G的EML,但博通更早,不过200G的EML良率有挑战,今年基于200G的1.6T光芯片出货量预计约200万片,折算成光模块约二三十万,明年会快速增长,预计光模块接近400万套,光芯片接近两三千万片。200G的EML价格目前较贵,平均价格约50到60美金。
硅光的竞争格局:有能力做硅光的主要有格罗方德、Tower、三星、Intel等,国内中芯国际和华天在做相关研发,但尚未达到量产能力。
Q&A
Q:ASIC在推理侧应用较多,它能否满足大模型训练的要求?
A:可能大家对ASIC存在只能做推理、不能做训练的误解。像谷歌推出的TPU的V5E和V5P,分推理芯片和训练芯片。这些芯片基于TensorFlow、矩阵乘法加速设计,适合大规模深度学习、矩阵和向量计算、高吞吐量的训练和推理,但这种结构不适用于大语言模型(如LLM模型)和其他深度学习框架(如PyTorch)。并且像谷歌、微软、亚马逊等公司的ASIC架构都有自己的特点,更多面向自身应用和模型,不具备通用性。
Q:请对比英伟达芯片(如H100)与TPU(如V5E、V5P)在功耗、算力(包括TOPS和TFlops)、售价、内存方面的参数?
A:从功耗看,H100约700瓦,V5E约200瓦,V5P约300瓦;算力方面(TFlops),H100为12000 - 40000,V5E约400,V5P约500,(TOPS)H100为3000 - 8000,V5E约1000;售价上,H100年初约3万美金,现在可能达5万美金,A100约1 - 1.2万美金,V5E约2000 - 3000美金,V5P约5000 - 6000美金;内存方面,H100的HBM达80GB,V5P约。
Q:ASIC与英伟达芯片相比,在集群方面有何优势?
A:像谷歌、Meta等公司做的ASIC芯片功能虽可能不如英伟达,但可以做更好的集群,例如谷歌最新推出的TPU的V6可实现10万片的集群。
Q:基于ASIC(如谷歌TPU)和英伟达芯片的云服务运算成本分别是多少?
A:谷歌基于V5E提供的云服务每小时运算成本可低到0.4元,基于V5P约0.8元且价格呈下降趋势,而基于英伟达芯片的训练成本可能是这个价格的几倍,甚至达到每小时4元。
Q:能否对国内像字节、美团等客户在对ASIC接受度方面做一些画像和集群的分析?
A:在国内对大模型或基于训练、推理需求较高的第一阵营是阿里巴巴、腾讯、百度和字节。百度更多基于自动驾驶和搜索业务,字节更多用于视频、内容生成和推荐业务,字节的ASIC芯片前期更多用于美国TikTok业务。阿里类似亚马逊,是大型云服务提供商。腾讯业务更接近Meta,有微信、视频、AR/VR等需求。美团等也在布局,但需求相对较弱,在ASIC需求方面后期可能更多是跟随者角色。
Q:国内有ASIC的出货量吗?
A:国内现在没有。像阿里巴巴有自己做芯片且有自己的架构,但内部可能只是试用,没有批量试用;百度的昆仑芯有部署几万片,但使用范围小,还未用于核心的大语言模型或AI加速。国内目前在这方面滞后有几点原因,一是AI设计可能受美国限制,做ASIC可能要从台积电获取5纳米工艺,这对很多国内公司是挑战;二是国内芯片设计公司目前还不具备针对特殊模型定制ASIC的成熟能力。字节跳动已委托美国公司定制ASIC芯片,谷歌从委托设计到现在已组建很强的芯片设计团队,相信字节未来也会走这样的路,但这需要时间。
Q:ASIC的主要供货商有哪些?
A:目前在整个市场上,ASIC的供货主要以博通和谷歌为主。
Q:能介绍一下ASIC的设计服务商吗?还有他们24年的产能规划或者出货量情况?
A:ASIC的设计服务商可分几个阵营。博通和Marvell属于第一阵营,博通的设计服务团队来自LSI Logic,有很长的设计服务历史,其设计流程先进,能保证一次流片成功;Marvell收购了格罗方德的一个设计服务团队,在收购前微软已是该团队的客户,收购后微软继续成为Marvell的客户。第二阵营有MTK联发科、海思等,他们不是传统意义上的设计服务商,芯片设计能力强,更多源于消费电子领域,在IP丰富性和设计能力上比第一阵营的博通和Marvell弱一点。还有一些其他的Fabless,如国内的芯原股份,以及Cadence这类公司也有设计服务能力,但更多是面向通用IP的设计服务,还没有能力做大规模的AI加速器芯片。在AI加速器芯片市场中,博通占差不多70%的市场份额,主要客户有谷歌、Meta、亚马逊、字节跳动、OpenAI、可能未来还有苹果;Marvell占接近30%的市场份额,最主要的客户是微软。从出货量来看,谷歌今年出货量大概120万片左右,主要来自V5P和V5E,明年预计超过150万片,其中V5P和V5E的比例约为2比1,反映谷歌业务以推理为主;Meta第一代MTIA 1.0芯片出货量很少,大概几万片,明年第二代出货量预计30万片;亚马逊今年两款芯片Inferentia和Trainium出货量不到10万片,明年预计两款芯片加起来接近50万片;字节跳动的芯片明年下半年可能会出来,明年量应该比较小,可能不到10万片,之后规模会接近30万片;OpenAI研发还在进行中,可能明年年底或26年年初芯片会出来,刚开始规模可能在10万片左右;苹果可能要到26年才出货,量可能也在10万片左右。
Q:博通给谷歌定制TPU,博通在芯片的供给和应用上是不是市场第一名?
A:是的,无论从绝对价值量还是出货量来看,博通在芯片的供给和应用上都是市场第一名。
Q:TPU主要应用于哪些场景?
A:TPU主要的应用场景是谷歌的一些自身服务,像谷歌搜索(包含图像和视频搜索)、YouTube以及谷歌内部数据中心和其他AI应用中的深度学习(基于Transformer形式),由于TPU针对这些应用做了优化,所以在谷歌内部采用比例较高。
Q:ASIC是否会对中国禁运?
A:目前来说还没有。美国商务部目前主要关注英伟达、AMD、Intel等传统芯片公司以及博通、马威尔等设计服务公司,但这些公司目前除博通服务字节(字节为TikTok在美国的公司服务)外,还未真正服务中国大陆公司,所以暂时不会触发禁令。不过未来存在风险,尤其是特朗普上台之后。设计服务行业可能因可根据客户需求调整参数以符合政府技术要求而较少受到管制,但更可能被禁的是先进制程。如果中国的ASIC在AI方面逐步接近美国的TPU或英伟达的芯片,美国可能会限制生产制造来放缓中国公司的开发和设计节奏,但目前中国的AI芯片与美国相比仍有很大差距,在通用AI加速领域的应用更多是特定市场如自动驾驶,美国政府不认为这是威胁,短期内应该不会下禁令,因为禁令可能会牵连美国很多公司,像博通未来很多增长点可能来自海外包括中国客户,谷歌未来可能自己设计芯片,Meta等公司未来也可能转入内部研发从而减少对博通的依赖。
Q:如果使用ASIC,像夜冷、光模块(如800G、1.6T、LPO、CPU等)这些原本在炒股视角下的技术路线或发展趋势是否会发生变化?因为看到功率变小了。
A:从美国主流厂商对未来的研判来看,800G、1.6T光模块目前可能还是以可插拔光模块为主。到2026年,CPO形态会逐渐走向成熟并量产,这将带来交换机和光模块的革命,1.6T及以上光互联中可插拔光模块会逐渐消失。到6.4T到12.8T时,CPO形态可能无法满足要求,到2028年全硅光的产业工艺路线会走向成熟实现硅光集成。目前很多厂家在做硅光集成,国内很多厂商也在上游布局,因为台积电等制造厂商更多是研究如何在硅CMOS工艺上集成,而不是深度做每个器件,这需要很多做光芯片的公司提供技术IP支持。这一趋势会使交换机和光电器件集成度变高,带来新的材料机会如CPO封装材料、光纤等,也会使部分市场萎缩如传统交换机中的PCB市场,还会使CW光源有更多需求,并且如果进入CPO交换机,液冷需求不会像以前那么严格,数据中心能效会更高。
Q:1.6T硅光(单通道200G)的交付进度如何?其单价以及下降幅度是怎样的?
A:做硅光主要有五家,美国三家(博通和Coherent),日本两家(住友和森田),到年底都能做出200G的EML,但良率有挑战,所以今年基于200G的1.6T光芯片出货量不高,预计到年底200G模组光芯片出货量约200万片左右,折算到1.6T光模块约二三十万光模块。明年会快速增长,预计从光模块角度能达到接近400万套,折算成光芯片接近两三千万。200G的EML目前价格较贵,平均价格大概在一片50 - 60美金之间。
Q:硅光这块是否百分百都是硅光了?
A:目前光模块里光引擎是采用硅光的形式来做的,不能再用传统800G或者400G的分类方式来看。
Q:硅光目前的竞争格局是怎样的?
A:目前有能力做硅光的主要有格罗方德、Tower这两家,三星和Intel也有这方面的能力。
Q:国内在硅光方面是否有量产能力?
A:国内目前在硅光方面还没有量产能力。例如中芯国际和华天在做硅光方面的研发,但尚未实现量产。

加微信领取星球优惠券

股市调研
投资必备利器,每日更新上市公司、产业专家调研纪要。
 最新文章