谷歌云计算,用了哪些芯片?

文摘   2024-11-06 10:11   安徽  

👆如果您希望可以时常见面,欢迎标星🌟收藏哦~


来源:内容编译自hpcwire,谢谢。


谷歌云计算正在迎来大量硬件,该公司正在进行重大升级,准备在明年将 Nvidia 的 Blackwell GPU 纳入旗下。


10 月下旬宣布的升级包括其名为 Trillium 的新 TPU、自主研发的 Axion CPU 和 Nvidia 的新 H200 GPU 的预览。


新硬件被输入到谷歌的“超级计算机”中,这是一台遍布谷歌云基础设施的大型超级计算机。它包括一套适用于多种工作负载的多样化软件和芯片产品。


谷歌在系统和软件层面重新考虑了其基础设施,为硬件和软件提供了一个通用层。


这也催生了谷歌的超级计算机,它支持传统计算和现代计算。它融合了计算、网络、存储和软件,以满足不同的 AI 和 HPC 消费模式。


谷歌副总裁兼计算和人工智能基础设施总经理 Mark Lohmeyer 在一篇博文中表示,该公司在 10 月下旬还分享了人工智能超级计算机的概念,它“集成了工作负载优化的硬件(TPU、GPU 和 CPU)、开放软件和灵活的消费模型,为最先进的人工智能模型提供支持”。


Lohmeyer 对 Google Cloud 运作方式的技术愿景类似于 Google 公司的精神——欢迎所有硬件和软件,为其提供用户友好的工具,并提供一系列消费选项。


一款名为 Hypercompute Cluster 的新产品就是按照这个思路建立起来的,它是一种高度可扩展的集群系统。超级计算领域正在努力平衡传统的高精度计算和人工智能猜测,因此 Hypercompute Cluster 处理各种工作负载的能力可以弥补模拟和科学计算之间的差距。


Lohmeyer 表示,该集群将结合谷歌的人工智能基础设施技术,“无缝部署和管理大量加速器作为一个单元”。


密集托管功能将多个资源聚集在一起,吞吐量高,因此工作负载可以快速可靠地完成。此功能对于科学计算和 AI 都很重要。


Google 的目标是为超级计算机所执行的任务提供保障。例如,Google 希望通过其消费模型为时间和结果带来可靠性和灵活性。


在软件和硬件层构建硬件和虚拟化层可能很复杂,但 Google 可以通过在 Google Cloud 上进行预配置部署的单一 API 调用使其变得简单。


科学家可以选择一个环境,将集群部署到 Google Cloud,并选择节点数量、CPU 或 GPU 核心以及内存。


Lohmeyer 解释说:“这包括具有框架和参考实现的容器化软件(例如 JAX、PyTorch、MaxText)、编排(例如 GKE、Slurm)以及流行的开放模型(例如 Gemma2 和 Llama3)。”


此功能使 HPC 堆栈的部署变得更容易,因为部署 HPC 堆栈可能相当复杂,因为它们涉及管理硬件和软件。借助 Google Cloud 管理硬件和软件资源,具有技术知识的创意科学家可以确定使用开源 AI 模型补充科学计算的方法。


当全世界都在追求 Nvidia GPU 时,谷歌也为客户提供了更快速、更具成本效益的替代方案来完成他们的 AI 工作。


Google 将 Trillium TPU 添加到其云产品中,该产品现已推出预览版。在 Google I/O 大会上发布的 Trillium TPU 可以扩展到大规模集群,为 Nvidia GPU 提供替代方案,用于训练 AI 模型并缩小规模以进行推理。Trillium 是 TPUv5 产品的后继者。


Trillium 芯片将能够运行继当前 Gemini 大型语言模型之后的 AI 模型。谷歌声称,通过比较 BF16 与 Cloud TPU v5e 的每芯片峰值计算性能,Trillium 的速度提高了 4.7 倍。


Trillium 芯片拥有下一代 HBM 内存,但谷歌并未具体说明它拥有的是 HBM3 还是 HBM3e,Nvidia 在其 H200 和 Blackwell GPU 中使用了后者。TPU v5e 上的 HBM2 容量为 16GB,因此 Trillium 将拥有 32GB 的容量,HBM3 和 HBM3e 均有提供。HBM3e 提供最大的带宽。


服务器舱可承载 256 个 Trillium 芯片,AI 芯片的通信速度将比类似的 TPU v5 舱设置快 2 倍。这些舱可排列成更大的集群,并通过 Jupiter 光路交换网络结构进行通信,该结构可提供 400 Gb/s 的带宽。


谷歌还增加了其自主研发的 Axion CPU,该公司表示,与同类当前基于 x86 的通用工作负载实例相比,该 CPU 可提供“高达 65% 的性价比和高达 60% 的能效”。


Axion CPU 基于 ARMv9 架构和指令集。


Axion 融入了名为 Titanium 的核心基础设施技术,该技术通过各种技术承担大部分计算工作负载,包括定制硅片、网络、基础设施处理单元和块存储。这些技术减轻了 AI 加速器和 CPU 的负载。


Titanium 也得到了升级。谷歌宣布推出搭载 Nvidia H200 Tensor Core GPU 和全新 Titanium ML 网络适配器的 A3 Ultra VM,该适配器经过优化,可为“AI 工作负载提供安全、高性能的云体验”,谷歌表示。


谷歌发言人在一封电子邮件中表示,Titanium ML 网络适配器“包含并构建在”Nvidia 的 ConnectX-7 NIC 上,当与数据中心范围的 4 向轨道对齐网络集成时,可以通过 RoCE 提供 3.2 Tbps 的 GPU 到 GPU 流量。


谷歌在一封电子邮件中表示,超级计算集群将从 A3 Ultra VM 开始提供。


Google Cloud 的理想情况是客户启动 AI 工作负载,从而充分利用多个加速器。然而,该公司在一封电子邮件中表示,本周宣布的 Titanium 更新并未实现 TPU-GPU 互操作性。


Google Cloud 升级是 Nvidia Blackwell GPU 的预热,该 GPU 将于明年加入 Google 的云服务。Google 正在将其自己的“Gen4”液体冷却技术引入 GB200 服务器托盘,但 Google 尚未透露太多细节。


包括 AWS 和微软在内的竞争对手都拥有自己的 AI 基础设施,其中包括自主研发的 CPU 和 AI 加速器。各大公司正投资数十亿美元建立 AI 大型数据中心。


参考链接

https://www.hpcwire.com/2024/11/05/google-cloud-sporting-a-new-look-in-hpc-and-ai-hardware/


END


👇半导体精品公众号推荐👇

▲点击上方名片即可关注

专注半导体领域更多原创内容


▲点击上方名片即可关注

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。



今天是《半导体行业观察》为您分享的第3938内容,欢迎关注。


推荐阅读


EUV光刻机重磅报告,美国发布

碳化硅“狂飙”:追赶、内卷、替代

芯片巨头,都想“干掉”工程师!

苹果,玩转先进封装

GPU的历史性时刻!

大陆集团,开发7nm芯片

张忠谋最新采访:中国会找到反击方法

EUV光刻的新“救星”

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank


喜欢我们的内容就点“在看”分享给小伙伴哦

半导体行业观察
半导体深度原创媒体,百万读者共同关注。搜索公众号:半导体芯闻、半导体产业洞察,阅读更多原创内容
 最新文章