AMD尴尬了!​AI芯片被指重大缺陷,比英伟达差太多!

科技   2024-12-24 21:00   广东  

芯片顾问机构Semianalysis着手进行5个月的调查后发现, AMD最新「MI300X」AI芯片因为重大软件缺陷、效能不如预期,难以撼动英伟达的市场主导地位。


据Semianalysis发表研究报告指出,AMD的软件有缺陷,若未大量除错,会让训练AI模型变成几乎不可能的任务。AMD如今在质量、使用易度方面陷入挣扎,而英伟达却持续推出全新功能、工具库并升级效能,遥遥保持领先。


Semianalysis执行了大量测试,当中包括GEMM标竿、单节点训练(single-node training)等,最终发现AMD尚无法突破「CUDA护城河」,此乃英伟达强大的软件优势。


MI300X规格看来令人印象深刻,提供1,307 TeraFLOPS的FP16精度算力、192 GB HBM3内存。相较之下,英伟达「H100」提供989 TeraFLOPS算力及80 GB内存,而较新的「H200」则配备141 GB内存。AMD系统的总持有成本也较低,主要是拜定价较便宜、使用更平价的以太网络之赐。


然而实务上,这些优势却几乎起不了作用。SemiAnalysis指出,旗下分析团队必须跟AMD工程师一同修正无数软件缺陷,才能达到堪用的标竿测试结果。相反地,英伟达系统一开箱就能顺畅运作。


报告称,「AMD产品开箱后非常难以操作,需要相当大的耐心及努力才能达到可用的状态。」


SemiAnalysis并揭露,AMD最大GPU云端客户Tensorwave,必须免费提供GPU使用时间给AMD团队来解决软件问题,这实在疯狂,毕竟Tensorwave已经支付了这些GPU的费用。


SemiAnalysis建议AMD执行长苏姿丰重金投入软件开发与测试,尤其应配置数千颗MI300X芯片来做自动化测试——跟进英伟达的做法。另外,也建议苏姿丰简化复杂的环境变量,实施更好的预设设定。他们写道:「请让产品开箱便可用!」


Semianalysis首席分析师Dylan Patel 23日透过社交平台X指出,他跟苏姿丰开了1.5小时的会议,逐一检视问题。苏姿丰坦承AMD软件方面的不足之处,并认真看待该机构的建议,还向AMD团队及Semianalysis提出许多问题。很多变革正在进行中!很高兴看到即将到来的改进。


苏姿丰则响应贴文表示,感谢Patel具有建设性的对话。回馈是个礼物、即便它很严苛。AMD已大量投入客户和工作量优化作业,但为支持广泛的生态系统,尚有许多努力空间。非常感谢大家的回馈。AMD致力打造世界一流的开放软件,2025年有很多计划。祝大家佳节愉快!


AMD一年前发表专为AI、高效能运算(HPC)打造的加速器「Instinct MI300X」时,亚马逊旗下云端运算提供商Amazon Web Services (AWS)曾表达在云端布署的意愿。然而,根据亚马逊内部人最近说法,目前的市场需求不足以让AWS部署这些芯片。

免责声明:封面图片/配图来源网络,文章综合网络,仅供参考交流,不构成任何投资/采购等建议,投资者据此操作风险自担。


半导体前线
汇聚全球半导体最新动态
 最新文章