NVIDIA 危?亚马逊计划推出AI芯片Trainium2

科技   2024-12-05 12:18   北京  

亚马逊正在挑战英伟达在人工智能硬件市场的主导地位,开发了一种新的AI芯片Tranium 2,声称性能是前代的四倍,内存增加三倍,并计划将多达10万个芯片连接在一起。这一战略不仅涉及技术创新,还包括在亚马逊自家的数据中心部署这些芯片,以及与Databricks和Anthropic等公司建立合作伙伴关系,以此作为测试和改进的平台。

亚马逊推出的Trainium 2芯片和相关架构,旨在通过自研AI计算硬件减少对NVIDIA等第三方的依赖。

Trainium2被设计为AWS的核心硬件,主要应用于生成式AI(GenAI)模型的训练和推理,同时提升整体计算能力和成本效益。亚马逊的目标是通过AWS建立一个“AI超市”,提供包括工具和培训在内的完整生态系统,声称Tranium 2芯片能提供比竞争对手高出30%的性能价值。


Trn2每个芯片大概500w, 仅需要风冷散热, 单芯片的BF16浮点算力为650TFLOPS,大约为H100的60%左右, 内存为96GB HBM3e, 内存带宽和H100持平。



Trn2采用NeuronCores架构,每个芯片包含专用的Tensor引擎、向量引擎、标量引擎和通信引擎,分别处理张量计算、向量操作、点对点操作和高效通信。Trainium2推测的芯片架构如下:


网络拓扑:

• NeuronLink:低延迟、高带宽的点对点网络连接,替代传统的NVLink。
• Elastic Fabric Adapter (EFA):用于大规模分布式集群间通信,适配AWS整体网络架构。

部署模式与拓扑结构

两种配置模式

1. Trn2:
• 适合中等规模的训练和推理任务。
• 每芯片提供800 Gbps的网络带宽。

2. Trn2-Ultra:
• 针对大规模AI模型训练的需求。
• 使用三维Torus拓扑,连接多达256颗芯片,实现更高计算密度和并行效率。

服务器架构

采用一个2U x86的CPU机头配合 8个2U的Trn2 ComputeTray构成16卡的trn2服务器。

然后CPU HeadTray通过PCIe AEC铜缆链接到8个ComputeTray上

整个机器的PCIe拓扑如下:

CPU机头也配置了两块Nitro, 一块走EBS一块走前端网络, 并且放置了多个NVMe本地盘

与NVIDIA和Google对比性能与对比


H100在算术强度(FLOP/Byte)和计算密度方面领先,但Trainium2更适合生成式AI工作负载(如专家混合模型MoE),因其优化了内存带宽和通信效率。

TPUv6e在超大规模集群中占据优势,但Trainium2通过减少复杂的光学连接,降低了硬件成本和可靠性风险。

其实从模型的实际MFU来看, H100综合MFU大概也就只能到50%左右 ,所以Trainium2稍低的算力配置应该是恰当的, 从Roofline来看和Google TPUv6e和NV GB200都很有竞争力



至少从整体架构而言, ScaleUP不需要复杂的224G Serdes的铜连接器和背板, 也不需要液冷, 感觉整体的可运维能力和可靠性比NV好了很多。

任务优化

• Trainium2芯片设计适配当前生成式AI模型(如GPT系列),并优化了混合专家模型(MoE)等新兴技术。

主要挑战

• 软件生态适配:
• 尽管硬件提升显著,但AWS的软件栈(如Neuron SDK)仍需改进,与PyTorch等主流框架的集成尚不完善。
• 系统可靠性:
• 大规模的点对点网络设计可能在节点故障时影响整体集群性能。
• 需要更高效的故障隔离机制,以降低因单点故障导致的计算能力损失。


数据中心基础设施部分


1. 功耗


单机功耗


Trainium2芯片功耗:每颗芯片设计功耗约为 500W。


服务器总功耗


•标准配置(Trn2):每台服务器由10颗芯片组成,总功耗约 5kW。

•超大规模配置(Trn2-Ultra):包含4台物理服务器(40颗芯片),总功耗约 20kW。


单机架功耗密度


•标准配置(Trn2):单机架包含两台服务器,总功耗约 27kW。

•超大规模配置(Trn2-Ultra):双机架设计,总功耗为 28kW。


2. 冷却需求


冷却设计


•Trainium2服务器采用前冷后排的冷却设计。

•冷空气从服务器前端吸入,热空气从后端排出,通过热通道管理(hot aisle containment)引导热量。


服务器内部热管理


•高功率组件(如HBM3内存和计算芯片)通过直接接触式散热器进行冷却。

•部分区域可能需要 NUMA感知(NUMA-aware) 的编程,以优化热负载均衡。


数据中心冷却


• 数据中心整体冷却设计采用 热通道和冷通道分离 的方式,确保冷空气流向服务器前端,避免热空气混入。


• 在印第安纳州的“Project Rainier”数据中心预计 PUE值 (能源使用效率)在 1.10~1.15,得益于北部地区较低的环境温度和高效的冷却基础设施。


冷却方式


部分机房可能采用封闭冷却系统(如液冷或冷板冷却)以进一步提高高功耗服务器的散热效率。


3. 供电要求


供电架构


•服务器采用 48V直流供电架构:

•电力从AC(交流电)转换为DC(直流电)在机架级完成,以减少每台服务器单独转换的能耗损失。


每台服务器


•CPU托盘和存储设备的供电通过内部直流母线完成。

•GPU/AI芯片和网络设备(如NIC)的供电独立分配,确保关键任务运行稳定。

•每个机架有独立的供电分配单元(PDU),支持高达 30kW 的总功耗。


容错与冗余


数据中心供电设计强调高可靠性


•主供电系统和备用发电系统的切换时间控制在毫秒级。

•采用N+1或2N冗余设计,确保关键任务不受单点故障影响。


针对“Project Rainier”


•数据中心单栋建筑的供电容量为 25MW。

•第一阶段建设完成7栋建筑,总功率 175MW。

•第二阶段计划增加9栋,总功率达到 1,000MW。


4. 优化措施


功率密度优化


•使用高密度机架和高效网络拓扑(如3D Torus)来最大化功率密度。

•尽量减少长距离光纤互联,采用短距离铜缆(DAC和AEC)连接,以降低耗能和提高可靠性。


能耗控制


•Trainium2的低算术强度设计(20 BFLOP/Byte)使其内存带宽瓶颈较少,从而提高整体计算效率,降低浪费功耗。

•数据中心运行中,通过动态负载均衡(Dynamic Workload Balancing)减少高峰期的能源压力。


5. 冷却与供电的挑战


高功率密度挑战


超大规模配置(如Trn2-Ultra)可能需要更先进的液冷技术,以应对超过30kW的机架功耗。


可靠性


点对点网络拓扑的单点故障可能导致较大的性能损失(影响整个scale-up域)。


扩展性


为应对未来更大规模部署(如256芯片配置),需要更灵活的冷却和供电架构。


来源:zartbot、Jess Knowledge Share 等

关注我们获取更多精彩内容


往期推荐

● 智慧金融 算力未来 | 2024中国金融行业数据中心发展论坛报名通道正式开启

● CDCC 2024数据中心标准大会胜利闭幕:七色光融合,精准映射AIDC发展蓝图

● 腾讯落地全国首个风光储一体化数据中心微电网项目

CDCC
数据中心标准、技术沟通交流平台
 最新文章