继续狙击英伟达, AMD子弹已上膛

2024-11-06 08:42   广东  
关注我的你,是最善良的!

只为苍生说话,用笔杆子道明事态原委、丈量人间温情。






继续狙击英伟达





10月10日,一年一度的Advancing AI大会上,美国芯片巨头AMD发布了一系列重磅的芯片产品更新,覆盖AI PC的处理器、EPYC处理器、DPU等等。


01
AMD子弹已上膛
在英伟达最新的Blackwell芯片面临交付困境的当下,AMD最新的GPU产品系列(AMD Instinct MI325X)将如何出牌,直接关系到AMD的未来,自然成为各界的关注焦点。在参数上猛追英伟达,是AMD MI系列一以贯之的打法,此次的AMD Instinct MI325X芯片也不例外,
选择紧密对标英伟达上一代芯片产品H200。

不过,好消息是,
从产品信息来看,AMD如今逐渐找到了差异化竞争的策略——AMD这款产品逐渐把精力都放在了提升内存、推理能力上。首先,AMD Instinct MI325X上配备了256GB的HBM3E高带宽内存,提供了6TB/s的内存带宽——参数上比英伟达H200大许多(H200分别是141G、4.8TB/s)。
其次,尽管AMD这款产品在FP16(16位浮点数)上的算力没有英伟达那么强,但推理能力却比英伟达H200整体高出20%-40%。重仓推理,不失为一项明智之举。一位行业人士向表示,今年算力中心的一大趋势是,随着部分大模型厂商逐渐放下预训练,推理和模型微调的诉求增加。
“某算力中心客户,去年预训练和推理的比例是7:3,今年完全反过来了”。下游大模型、
应用厂商的需求变化,

上游芯片厂商更需要及时做好策略转向。
不过,只有单芯片的差异化竞争是远远不够的。AMD此次也从体系化入手,弥补在连接、软件生态上的短板。而这也正是英伟达的壁垒最高处。
英伟达产品的一大优势是,依靠NV-link,使得多个单芯片连接起来之后依旧强大,不因芯片互联传递而折损算力。而此次,AMD则依靠他们的Infinity Fabric互连技术,使得多卡的效果比单兵作战更强。据介绍,当8张AMD Instinct MI325X搭配在一起时,相比于同样数量级的英伟达(即H200 HGX),内存是其1.8倍、内存带宽是其1.3倍、算力更是其1.3倍。
在软件生态方面,AMD也持续补短板。AMD的软件平台ROCm通过持续调教、以及与多个AI开发平台深度合作,不仅不会拖后腿,反而提升了整体效率。经过AMD方面的实测,当跑meta Llama-2模型时,AMD MI325X单卡在ROCm的加持下,训练效率超过了英伟达H200。而若用AMD的8卡集群跑,训练效率仍也与H200 HGX相当。
在此前的台北电脑展上,AMD创始人苏姿丰已经明确,GPU产品节奏向英伟达看齐,要“一年一更新”。AMD除了发布Instinct MI325X系列之外,也顺便透露了未来产品的情况——据其介绍,AMD下一代芯片Instinct MI350系列将在明年下半年推出,同样延续了这一代的产品逻辑,推理性能将有35倍提升、提供288GB的HBM3E内存,峰值算力提升1.8倍,与英伟达B200的算力持平。
在逐渐明确了产品打法、发布节奏后,AMD 2024年在数据中心领域大有高歌猛进趋势。苏姿丰此前透露,AMD已经拿下了上百家AI客户和OEM厂商的订单。其在数据中心服务器的份额,也从早前可怜的个位数,上升到如今的30%左右。
财报数据正是最好的说明。7月份,AMD方面公布的信息显示,今年第二季度的数据中心业务收入达到了28亿美元,虽然相比于英伟达,数据还有很大差距(226亿美元),但同比大增115%,也是AMD所有业务中增速最快的一项。AMD在数据中心领域的突围,其实是多项因素的综合作用——除了AMD上一代产品(MI300系列)找对了打法,成为AMD有史以来的爆款产品之外,还要叠加智算中心市场整体的大爆发,以及一丝对手失误的因素。
在去年一整年,英伟达的GPU产品受困于产能,交货周期达到惊人的8-11个月。供应问题,直到2024年第一季度才有所缓解,但客户依旧需要等待漫长的3个月。而好景不长,当英伟达的H系列今年终于顺利进入出货高峰后,其最新的Blackwell系列芯片产品又陷入新一轮交付难题。
综合多方信息显示,英伟达原定于今年三季度排产的全新Blackwell系列芯片,因为芯片设计缺陷,导致稳定性不足,又遇到供应链封装良率不高等原因,整体往后又推迟了一个季度。
当对手持续受困于生产、设计难题,AMD的产品自然成为弥补算力缺口的一项最佳选择。不过,英伟达也担心错失市场机遇,把蛋糕拱手让人,也在努力摆脱延期的阴霾。
在AMD大会的同期,摩根士丹利为英伟达办了一场为期三天的非交易路演。路演上着重向投资人传递的信息是——Blackwell的难题已经解决, 需求大热,英伟达“已经把未来一年内的芯片全部卖光”。黄仁勋此前也多次在公开场合暗示这一点,提示“这颗芯片正是每个客户都想拥有最多的产品,大家都想当第一个收到货的人”。
对于AMD来说,这可能算不上是好消息。随着对手产能的阴霾散去,幸运的是,AMD也逐渐找到适合自己的竞争节奏。2025年,两家芯片巨头,在GPU领域又再一次回归正面战场,这才是考验双方真正综合实力的关键一年。在芯片界铁娘子苏姿丰的职业生涯里,有两场至关重要的战役。第一场,是在2014年接手AMD(美国超威半导体),以力挽狂澜之势让AMD从深陷财务危机到一举成为英特尔最强劲对手。
另一场则是在当下,其刚刚推出的新品AMD MI325X的内存容量相比英伟达H200提高2倍,内存带宽性能、计算性能均提升1.3倍,该芯片将于2024年第四季度上市。
那么AMD真的能成为英伟达强劲的对手吗?一起来看。
在GPU 市场份额上,目前,英伟达在AI领域处于制霸地位,它在AI处理器市场上占据超80%的份额,其高端处理器已被用于训练和运行各种聊天机器人。从业绩看,AMD2024财年第一季度财报显示其营收为54.73亿美元,同比增长2%,环比则下降了11%;净利润为1.23亿美元,而上年同期的净亏损为1.39亿美元,相当于同比增长188%,环比则大幅下降了82%;不按照美国通用会计准则的调整后净利润为10.13亿美元,同比增长4%,环比则下降了19%。
在科技行业的激烈竞争中,AMD这份财报数据并不尽如人意。虽然营收方面勉强达到了市场的预期,但在利润端,AMD却再次遭遇了大幅下滑的尴尬局面。这一结果,无疑给这家知名科技公司的未来蒙上了一层阴影。
详细剖析这份财报不难发现,即便剔除了此前收购产生的递延费用,AMD的核心经营利润也仅为4.15亿美元,环比竟下滑了45.1%。这一数字的背后,反映出的是下游需求不足的严峻现实。在这个以技术为驱动的时代,需求的疲软对于任何一家科技企业而言,都是一个不容忽视的警示信号。
与之形成对比的是英伟达2025财年的第一季度财报显示在美国通用会计准则(GAAP)下,其营收达260.4亿美元,同比增长262%,环比增长18%;净利润148.8亿美元,同比上涨628%,环比上涨21%。而比业绩差距更明显的是市值,英伟达目前的市值(截止6月14日)收盘已经达到了3.24万亿美元,而AMD市值仅为2580亿美元,不足英伟达的十分之一。这说明华尔街对英伟达未来的预期要远远好于AMD,那么为什么同样是做GPU ,两者差距会这么大呢?
我们来看双方目前的主流产品MI300X和H100。虽然AMD的MI300X的内存达到了192GB,但英伟达也能提供具备相同内存规格的产品,因此这不会成为绝对优势。此外AMD在与英伟达的H100对比时,不会有显著的成本优势,因为高密度的HBM价格昂贵。
并且最关键的问题在于,MI300并不具备H100所拥有的Transformer Engine。Transformer Engine能够用于加速Transformer模型,以在AI的训练和推理中以较低的内存利用率提供更好的性能。
AMD的MI300系列是目前从硬件水平上最接近H100的产品,但MI300X并没有像H100的Transformer Engine(用加速Transformer大模型的引擎),H100可以将大语言模型(LLM)的性能提高两倍,这也意味着用同样数量的MI300X将花费更长的训练时间。
Transformer Engine是英伟达H100显卡的一大亮点,专为加速Transformer网络设计。这类网络是现代AI的基础,用于处理语言理解、机器翻译等任务。H100通过其Transformer Engine,能够在保持高精度的同时,将大型语言模型的训练时间缩短至原来的一小部分。这种技术的突破为AI研究和应用带来了革命性的速度提升。
这款号称是“世界最强大的GPU芯片”:集成2080亿颗晶体管,采用定制4NP工艺,承袭“拼装芯片”的思路,采用统一内存架构+双芯配置,将2个受光刻模板(reticle)限制的GPU die通过10TB/s芯片间NVHyperfuse接口连一个统一GPU,共有192GB HBM3e内存、8TB/s显存带宽,单卡AI训练算力可达20PFLOPS。跟上一代Hopper相比,Blackwell因为集成了两个die,面积变大,比Hopper GPU足足多了1280亿个晶体管。对比之下,前代H100只有80GB HBM3内存、3.35TB/s带宽,H200有141GB HBM3e内存、4.8TB/s带宽。
英伟达除了Transformer Engine的优势外,它还通过研发开放CUDA平台统一计算架构,为开发者提供高效、易用的环境,构建庞大生态系统。举个苹果手机和IOS生态的例子:用户使用一部苹果手机,而他必然就要使用苹果的IOS生态体系。在苹果IOS的生态体系里,APP开发者上架发布各类应用、或者买家支付都需要给苹果支付一笔生态费用,俗称“苹果税”。而Cuda平台就有点形似于GPU领域的IOS生态了,它就是通用GPU API接口,可以让不同领域的开发者访问GPU的计算资源,从而实现GPU的日常通用化。
这样一来,CUDA丰富的底层支持和软件生态服务极大降低了GPU算力调用的门槛,而在此生态中已有几百万开发者推出了各种生态服务如图形引擎、算法库及各类API接口等。
而AMD也有自己的平台即ROCm。本质上CUDA和ROCm大同小异,从芯片供应商的角度来讲,都是为了给芯片使用者或者Al的开发者,提供一个更方便使用Al芯片、异构计算的计算机模型的软件栈,都是方便用户使用他的CPU或DSA,从这个角度来看,二者解决的需求相同。
二者的区别在于CUDA推出的时间比较早,在2006年的时候,英伟达已经开始推CUDA,当时CUDA比较难用。经过了10多年的发展,2015年开始Al成为比较热门的发展方向。再加上在图形图像和并行计算领域,英伟达本身就已经是国际上最著名的公司,所以不管是高校还是企业,天然地就会选择N卡。从这个角度来讲,英伟达赶上了这一波风口浪潮,再加上CUDA做并行计算的研发时间要早很多,就带来了这种无与伦比的优势。

AMD与英伟达在研发实力和软件栈方面的具体差异是什么?

从研发实力来看,英伟达拥有庞大的研发预算,这使得其在未来的设计和创新方面具有更强的竞争力。相比之下,AMD的研发实力相对较弱,这直接影响了其在软件栈的丰富度和易用性方面,无法与英伟达的CUDA相媲美。

在软件栈方面,英伟达的CUDA(Compute Unified Device Architecture)是一个成熟的生态系统,涵盖了GPU编程编译器、API和运行时库等多个方面,特别在人工智能和高性能计算(HPC)领域表现出色。CUDA-X AI和CUDA-X HPC分别针对AI和HPC两大领域,提供了远超其他竞品的性能。

另一方面,AMD推出了ROCm(Radeon Open Compute)软件栈,这是一个开源的软件栈,旨在为数据中心加速提供完整的工具集。然而,ROCm在过去一年内与主流AI开发平台的适配性仍在磨合期,导致其训练效果有待提升。尽管AMD在不断加强升级ROCm,并与AI开发平台进行合作,但其整体表现仍不如英伟达的CUDA。

AMD芯片迭代速度慢的具体原因及其对市场竞争力的影响如何?

AMD芯片迭代速度慢的具体原因可以从多个方面来分析。首先,从历史发展来看,AMD在早期的芯片组更迭非常频繁,从690到780、785和880,但之后迭代速度明显放缓,甚至几乎停滞。这可能与技术挑战和市场策略有关。例如,在更高的时钟速度下,AMD的K5和K6存在缩放问题,而NexGen的Nx686已经展示了更高的核心速度,这也影响了AMD的迭代速度。

此外,市场竞争加剧也是一个重要因素。近年来,AMD在AI芯片市场的竞争愈发激烈,尽管其硬件表现出色,但英伟达在AI软件上的优势仍然是其核心竞争力。这种复杂的市场反应表明,投资者对AMD的硬件表现虽然看好,但在整体市场竞争力上仍存在疑虑。

AMD芯片迭代速度慢对市场竞争力的影响是显著的。首先,迭代速度慢可能导致AMD在技术创新和产品更新方面落后于竞争对手,特别是在快速发展的AI芯片市场。例如,尽管AMD发布了新的AI芯片MI325X,并预计在2025年进入量产,但市场对其能否挑战英伟达仍持观望态度。其次,股价波动也反映了市场对AMD竞争力的担忧。近期AMD股价波动较大,尽管在AI芯片市场表现强劲,但股价仍受市场情绪影响,多次出现下跌。AMD芯片迭代速度慢的具体原因包括技术挑战、市场策略以及激烈的市场竞争等多方面因素。

AMD处理器稳定性较差的具体表现包括处理器故障、温度管理不足、性能问题和系统兼容性问题。虽然英伟达在算力芯片上仍然具有绝对领先的地位,但AI芯片的竞争还是处在一片正在快速扩张的蓝海之中,英伟达尽管通过长期积累建立了强大的优势,但还有足够的市场需求等待AMD满足,

这也是后者的机会所在。

数字化转型行家
只为苍生说话,用笔杆子道明事态原委、丈量人间温情。
 最新文章