最近Semi Analysis公司的创始人兼首席分析师迪伦·帕特尔发布了一份英伟达H100、H200与AMD MI300X在大模型训练端的全方位对比手册,整个实验历时5个月,最后不出意外,再次证明英伟达的全方位碾压。后面大概率还会出大模型推理端的比对,让我们拭目以待。
理论上,MI300X 在规格和总拥有成本(TCO)方面应该远超 Nvidia 的 H100 和 H200。然而,现实是,纸面上的规格并不能代表在现实世界环境中可以期待的性能。如果 AMD 能够提供以下宣传的性能和这种内存,它将成为市场上的一个非常强大的竞争者。其中,第一行是GPU功耗,第二行是GPU全系统功耗,包括GPU、主板、电源单元、冷却设施等。第四行是内存大小,第五行是内存带宽,第七行是FP16/BF 16浮点数计算能力,最后一行是FP8/FP 6/Int 8浮点数计算能力。
仅通过对比理论 FLOP/s 和 HBM 带宽/容量来评估硬件性能,就像仅通过比较相机的像素数来评价相机质量一样。实际性能的评估必须通过基准测试才能得出结论。这句话的意思就是只看外包装宣传是没有用的,必须通过实际的基准测试应用程序才能看出谁才是真正的王者。大家也看到了,通过上图来分辨的话,MI300X高出H100和H200一头。实际上,如下图所示,H100和H200在BF16矩阵计算上的性能(图中绿色柱体)都要高于MI300X(图中红色和黄色柱体)。在FP 8矩阵计算上也比较了性能,结果是保持一致的。除此之外,通过 HBM 内存带宽基准测试,发现 MI300X 的内存带宽确实远胜于 H200 和 H100。正如您将在即将发布的 H100 vs H200 vs MI300X 推理对比文章中看到的那样,内存带宽对于推理性能具有重要意义。
Nvidia 的即开即用性能和用户体验非常出色。在我们的基准测试中,没有遇到任何 Nvidia 特有的 bug。此外,Nvidia 为我们指派了一名工程师提供技术支持,但由于没有遇到软件 bug,因此我们对技术支持的需求不多。AMD 的即开即用体验则较为困难,需要相当大的耐心和努力才能达到可用状态。在大多数基准测试中,公开发布的 AMD PyTorch 稳定版本仍存在问题,我们不得不使用各种解决方法。AMD派出了多个团队帮助修复大量AMD软件的bug。一位首席工程师专门提供了一个包含 140 多条命令的 Dockerfile,耗时 35 小时。相比之下,Nvidia 提供了开箱即用的预构建镜像,只需一行代码即可完成,形成了鲜明的对比。如果没有多个 AMD 工程师团队帮助排查和修复遇到的软件 bug,AMD 的结果将远低于 Nvidia 的表现。这也是ASIC卡存在的巨大问题,用户体验会非常差,而不是和英伟达一样即插即用。讲到这里,你还会觉得在推理端ASIC卡会存在巨大的优势吗?会有这么多的中小企业购买ASIC卡,然后亚马逊、谷歌等CSP会派多个团队过去调试吗?
我们在与 Sustainable Metal Cloud 合作的过程中,使用 250 张 H100 卡进行了非官方的 MLPerf Training GPT-175B 测试,以评估不同 VBoost 设置的影响。结果发现,启用 vboost 不仅在 GEMM 微基准测试中表现出色,而且在实际训练模型中也能带来更好的性能。
vBoost 是一种优化技术,主要用于提升 GPU 的性能表现,尤其是在高负载计算任务(如深度学习训练和推理)中。具体来说,它通过动态调整 GPU 的运行参数(例如核心频率、显存频率和功耗限制)来最大化性能,同时在一定程度上考虑系统的稳定性和功耗需求。
对于 AMD,在公开发布的稳定版软件中,其实际性能与标称的 TFLOP/s 相去甚远。虽然 Nvidia 的实际性能也低于其标称 TFLOP/s,但与 AMD 相比,其偏差要小得多。换句话说,就是宣传的时候吹太多了,其实大部分ASIC卡也存在这个问题。有兴趣的话,可以看看相关的调研文章。
在 总拥有成本(TCO) 方面,MI300X 相较于 H100/H200 更有成本优势,即部署和运行的总费用更低。然而,如果仅使用 AMD 官方发布的公共稳定版本软件,MI300X 在单位成本下的训练性能会表现得更优。也就是说,相对于 H100/H200,MI300X 在性能/成本比上占据优势。
但如果切换到 AMD 的自定义开发版本软件,这种性能优势可能会发生改变。具体来说,使用自定义开发版本软件可能会改善或优化 MI300X 的性能,从而使其性能表现更接近或超越 H100/H200,但这也可能带来额外的复杂性或开发成本。
训练性能较弱,如 MI300X 的矩阵乘法微基准测试所示。在单节点训练吞吐量方面,使用 AMD 公共版本软件的性能仍然落后于 Nvidia 的 H100 和 H200。
MI300X 的性能受制于 AMD 的软件。虽然 AMD 软件的 BF16 开发分支表现更好,但这些改进尚未合并到 AMD 内部代码库的主分支中,也未进入 PyTorch 的稳定版本发布。在这些改进合并完成并发布之前,Nvidia 的下一代产品(如 Blackwell)可能已经上市。
AMD 的训练性能还受到扩展性能较弱的限制。这是由于其 ROCm 计算通信库(RCCL) 的性能较弱,以及 AMD 在网络与交换硬件的垂直整合程度较低。而 Nvidia 在这方面具有较强的整合能力,包括其 NCCL、InfiniBand/Spectrum-X 网络结构和交换机。
许多 AMD AI 库是 Nvidia AI 库的分支,导致性能次优且存在兼容性问题。
AMD 用户往往只在推理中使用手工优化的内核,这意味着其性能仅在非常狭窄的明确用例中表现良好,而在应对快速变化的工作负载方面缺乏灵活性。
其实从上面的发现就看出来了,英伟达的优势就是软件更好用,架构也更通用,不同的工作负载都可以较好的支持,网络方面整合优势突出,具有很好的可扩展性。软硬件的优势决定了英伟达在大模型训练端的霸主地位。对于大厂来说有资金有人,自研ASIC在特定大模型下进行训练和推理还有一定道理。大模型说不定什么时候又会发生变化,你觉得大厂自研ASIC,就会放弃对更通用的GPU的资本开支吗?此外,对于其他的中小企业来说该怎么办?我想答案一目了然,尤其是在大模型训练端。
那英伟达可以的话,产业链上的个股呢?最近听说英伟达也看上AEC有源电缆了,英伟达阵营+ASIC阵营的交叉共振,再加上最新LightCounting的推波助澜,那么相关的个股也是到了该释放业绩的时候了。新易盛是AEC增量来了,但是预期光模块是减少的,情绪上肯定是被压制了,目前也没到业绩期,到底业绩如何还需要算一算,那么短期我认为股价上肯定是不会表现出来。兆龙互联,两年前开始布局AEC,主要是给Credo代工,最近博弈的是能不能大批量进ZJ。还有一家其实预期差非常大,未来会大批量的出货,同时确定进入了NV链和ZJ链,有心的朋友一定会知道是哪家。
最后再说一下LightCounting中的一句话。部署 50 米传输范围的 CPO(共封装光学) 不会减少对可插拔光模块或任何高速电缆的市场需求。相反,它将 NVLink 的连接范围从机载或铜背板拓展到多机架配置,实际上开辟了一个全新的光互连市场。这句话很多人解释说,以后长时间光模块、CPO、铜缆会共存,其实不是这样的。长距离的比如50米CPO不会强有力的改变这个格局,但是未来短距离的呢?机柜内的呢?所以你可以说是几年内,甚至都不用几年,就会有CPO更大的发展,到时候你的情绪上会不会受影响?所以大家在看一些人解读的时候一定要加强独立思考。
您的赞赏就是我们坚持的动力,文末赞赏后会自动回复我们最看好的AEC标的,同时也会赠送文中提到的文档,Semi Analysis公司英伟达分析报告、LightCounting 未来CPO光模块市场研究报告。
专注分享财经信息的专业社区,喜欢请点击下方名片关注。
免责声明:本文材料整理于公司公告、新闻、机构公开研报及社交媒体网络等,对文中所涉专业及个股均不构成投资建议。市场有风险,投资需谨慎。图文如有侵权或违反信批规则请后台留言联系删除。
文章精彩,防止走失,可关注、转发、投币打赏。