英伟达下一代GPU，真实性能发布

文摘 2024-11-14 09:35 安徽

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~

来源：内容编译自IEEE，谢谢。

Nvidia、甲骨文、谷歌、戴尔和其他 13 家公司报告了他们的计算机训练当今使用的关键神经网络所需的时间。这些结果包括首次亮相的Nvidia 下一代 GPU B200和谷歌即将推出的加速器Trillium。B200在某些测试中的表现比当今的主力Nvidia芯片H100提高了一倍。而且Trillium 的性能比谷歌在 2023 年测试的芯片提高了近四倍。

该基准测试称为 MLPerf v4.1，包括六项任务：推荐、大型语言模型(LLM) GPT-3和 BERT-large 的预训练、 Llama 2 70B 大型语言模型的微调、对象检测、图形节点分类和图像生成。

训练GPT-3是一项艰巨的任务，如果只是为了提供一个基准而完成整个任务是不切实际的。相反，测试是将其训练到专家认为的水平，这意味着如果你继续训练，它很可能会达到目标。对于 Llama 2 70B 来说，目标不是从头开始训练 LLM，而是采用已经训练过的模型并对其进行微调，使其专注于某一特定专业知识——在这种情况下，政府文件。图节点分类是一种用于欺诈检测和药物发现的机器学习。

随着人工智能的重要性不断演变，主要转向使用生成式人工智能，测试集也发生了变化。MLPerf 的最新版本标志着自基准测试工作开始以来测试内容的彻底转变。“目前，所有原始基准测试都已逐步淘汰，” MLCommons 基准测试工作负责人David Kanter表示。在上一轮测试中，执行某些基准测试仅需几秒钟。

根据 MLPerf 的计算，新基准套件上的 AI 训练正在以摩尔定律预期速度的两倍左右的速度改进。随着时间的推移，结果比 MLPerf 统治时期开始时更快趋于稳定。Kanter 将此主要归因于公司已经弄清楚了如何在非常大的系统上进行基准测试。随着时间的推移，Nvidia、Google和其他公司已经开发出允许近乎线性扩展的软件和网络技术——将处理器数量增加一倍可以将训练时间缩短大约一半。

第一个 Nvidia Blackwell 训练结果

这一轮是 Nvidia 下一代 GPU 架构 Blackwell 的首次训练测试。对于 GPT-3 训练和 LLM 微调，Blackwell (B200) 的每 GPU 性能大约是 H100 的两倍。对于推荐系统和图像生成，收益略有下降，但仍然相当可观——分别为 64% 和 62%。

Nvidia B200 GPU 所采用的Blackwell 架构延续了使用越来越低精度数字来加速 AI 的趋势。对于 Transformer 神经网络的某些部分（例如ChatGPT、Llama2 和Stable Diffusion），Nvidia H100 和 H200 使用 8 位浮点数。B200 将其降至仅 4 位。

英伟达表示，在 MLPerf Training 4.1 行业基准测试中， NVIDIA Blackwell平台在所有测试的工作负载上都取得了令人印象深刻的成绩，在 LLM 基准测试中，每块 GPU 的性能提高了 2.2 倍，包括 Llama 2 70B 微调和 GPT-3 175B 预训练。此外，NVIDIA 在 NVIDIA Hopper 平台上的提交继续在所有基准测试中保持大规模记录，包括在 GPT-3 175B 基准测试中使用 11,616 个 Hopper GPU 提交的提交。

如上所说，Blackwell 首次向 MLCommons 联盟提交训练，该联盟为行业参与者创建标准化、公正且经过严格同行评审的测试，重点介绍了该架构如何提升生成式 AI 训练性能。

例如，该架构包含新的内核，可以更有效地利用 Tensor Core。内核是经过优化的专用数学运算，例如矩阵乘法，是许多深度学习算法的核心。Blackwell 更高的每 GPU 计算吞吐量和更大、更快的高带宽内存使其能够在更少的 GPU 上运行 GPT-3 175B 基准测试，同时实现出色的每 GPU 性能。

利用更大、带宽更高的 HBM3e 内存，仅需 64 个 Blackwell GPU 即可在 GPT-3 LLM 基准测试中运行，且不会影响每个 GPU 的性能。使用 Hopper 运行相同的基准测试则需要 256 个 GPU。

Blackwell 训练结果遵循了之前提交给 MLPerf Inference 4.1 的结果，与 Hopper 一代相比，Blackwell 的 LLM 推理性能提高了 4 倍。利用 Blackwell 架构的 FP4 精度以及 NVIDIA QUASAR 量化系统，提交结果展现了强大的性能，同时满足了基准的准确性要求。

英伟达表示，NVIDIA 平台不断进行软件开发，为各种框架、模型和应用程序的训练和推理提供性能和功能改进。在这一轮 MLPerf 训练提交中，自推出基准以来，Hopper 的 GPT-3 175B 每 GPU 训练性能提高了 1.3 倍。

NVIDIA 还使用 11,616 个 Hopper GPU 通过NVIDIA NVLink 和 NVSwitch 高带宽 GPU 到 GPU 通信以及 NVIDIA Quantum-2 InfiniBand 网络连接，在 GPT-3 175B 基准上提交了大规模结果。

自去年以来，NVIDIA Hopper GPU 在 GPT-3 175B 基准测试中的规模和性能提高了三倍多。此外，在 Llama 2 70B LoRA 微调基准测试中，NVIDIA 使用相同数量的 Hopper GPU 将性能提高了 26%，这反映了软件的持续增强。

NVIDIA 不断致力于优化其加速计算平台，从而持续改善 MLPerf 测试结果 - 提高容器化软件的性能，为现有平台上的合作伙伴和客户提供更强大的计算能力，并为他们平台投资带来更高的回报。

谷歌推出第六代硬件

谷歌展示了其第六代 TPU Trillium 的首批结果（上个月才发布），以及第五代变体 Cloud TPU v5p 的第二轮结果。在 2023 年版本中，这家搜索巨头推出了第五代TPU 的另一个变体 v5e，其设计更注重效率而非性能。与后者相比，Trillium 在 GPT-3 训练任务上的性能提升高达 3.8 倍。

但与所有人的劲敌 Nvidia 相比，情况并不那么乐观。由 6,144 个 TPU v5ps 组成的系统在 11.77 分钟内到达了 GPT-3 训练检查点，远远落后于由 11,616 个 Nvidia H100 组成的系统，后者在大约 3.44 分钟内完成了任务。顶级 TPU 系统仅比其一半大小的 H100 计算机快约 25 秒。

戴尔科技公司的计算机使用了约 75 美分的电力对 Llama 2 70B 大型语言模型进行了微调。

在 v5p 与 Trillium 最接近的正面比较中，每个系统由 2048 个 TPU 组成，即将推出的 Trillium 将 GPT-3 训练时间缩短了整整 2 分钟，比 v5p 的 29.6 分钟提高了近 8%。Trillium 和 v5p 的另一个区别是 Trillium 与AMD Epyc CPU 配对，而不是 v5p 的Intel Xeon。

谷歌还使用 Cloud TPU v5p 训练了图像生成器 Stable Diffusion。Stable Diffusion 有 26 亿个参数，难度不大，MLPerf 参赛者需要将其训练到收敛，而不是像 GPT-3 那样只训练到检查点。1024 TPU 系统排名第二，在 2 分 26 秒内完成任务，比由 Nvidia H100 组成的相同大小的系统慢了大约一分钟。

训练能力仍不透明

训练神经网络的高昂能源成本长期以来一直令人担忧。MLPerf 才刚刚开始测量这一点。戴尔科技是能源类别的唯一参赛者，其八服务器系统包含 64 个 Nvidia H100 GPU和 16 个Intel Xeon Platinum CPU。唯一的测量是在 LLM 微调任务 (Llama2 70B) 中进行的。该系统在 5 分钟的运行中消耗了 16.4 兆焦耳，平均功率为 5.4 千瓦。按照美国的平均成本计算，这意味着大约 75 美分的电费。

虽然结果本身并不能说明什么，但确实可能为类似系统的功耗提供大概的数据。例如，Oracle 报告了接近的性能结果——4 分 45 秒——使用相同数量和类型的 CPU 和 GPU。

END

👇半导体精品公众号推荐👇

▲点击上方名片即可关注

专注半导体领域更多原创内容

▲点击上方名片即可关注

关注全球半导体产业动向与趋势

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3946期内容，欢迎关注。

推荐阅读

『半导体第一垂直媒体』

实时专业原创深度

公众号ID：icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

http://mp.weixin.qq.com/s?__biz=Mzg2NDgzNTQ4MA==&mid=2247763417&idx=7&sn=bc16533750513fc185ce132e939b5b9c

半导体行业观察

半导体深度原创媒体，百万读者共同关注。搜索公众号：半导体芯闻、半导体产业洞察，阅读更多原创内容

最新文章

后摩尔时代光计算芯片成破局关键，国产厂商大有可为！

自研DPU发布：微软芯片，火力全开

丹麦机器人巨头，邀您一起“搞事”

英伟达发布迄今最大的“芯片”

英特尔下一代AI芯片，首次曝光

特斯拉也在抢购HBM 4

美国大幅资助这项半导体技术

台积电2nm太猛了，联电太惨了

EUV光刻机争夺战，风云突变

AMD，杀疯了

亚洲疯狂投资芯片

台积电到处买厂，大力扩产

美国两大芯片公司，同时换帅

全球半导体设备巨头，都不好

开源软件，陷入危机

ASML，最新分享

台积电先进制程：加速赴美，10座工厂同时开建

Chiplet，十年展望

英伟达最新GPU，碰到问题了

Wi-Fi 5、6、7 ，有什么区别？

AMD CPU销量，惊人增长

寻找GaN的替代品

OpenAI曾想收购Cerebras

芯片行业，惊弓之鸟

苹果芯片，成功的秘诀

USB诞生背后的故事

芯片设备，面临风险

用全球最大芯片打造超算，细节曝光

分析师：三星短期内复苏可能性不大

英伟达取代英特尔的原因

钻石冷却GPU即将问世

WiFi 8，要来了！

中国10月份芯片产量放缓

100000块Nvidia芯片，马斯克出手

石墨烯：正在从实验室走向产业化

美国“芯片法案”新补贴计划，敲定！

汽车市场放缓，欧洲汽车芯片制造项目面临暂停

揭秘超算Aurora，如何打造一台超级计算机？

台积电在美中台间走钢索

TSV，太贵了！

一家晶圆厂，改变了一座城

芯片太耗电，怎么办？

英伟达首颗Arm PC芯片，太猛了

高通这颗等了四年的芯片，终于来了

SK海力士DRAM，威胁三星？

悼念，BASIC语言的创始人去世

芯片设备巨头确认：市场疲软

免费听会 | 智己/翊杰/Solidigm/奕成/安似/AT&S等20+重磅嘉宾与您11.27相约苏州SiP China！

八英寸晶圆厂，何去何从？

北京大学FFET技术，开创全球三维集成新篇章

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉