亚马逊正在挑战英伟达在人工智能硬件市场的主导地位,开发了一种新的AI芯片Tranium 2,声称性能是前代的四倍,内存增加三倍,并计划将多达10万个芯片连接在一起。这一战略不仅涉及技术创新,还包括在亚马逊自家的数据中心部署这些芯片,以及与Databricks和Anthropic等公司建立合作伙伴关系,以此作为测试和改进的平台。
亚马逊推出的Trainium 2芯片和相关架构,旨在通过自研AI计算硬件减少对NVIDIA等第三方的依赖。
Trainium2被设计为AWS的核心硬件,主要应用于生成式AI(GenAI)模型的训练和推理,同时提升整体计算能力和成本效益。亚马逊的目标是通过AWS建立一个“AI超市”,提供包括工具和培训在内的完整生态系统,声称Tranium 2芯片能提供比竞争对手高出30%的性能价值。
Trn2每个芯片大概500w, 仅需要风冷散热, 单芯片的BF16浮点算力为650TFLOPS,大约为H100的60%左右, 内存为96GB HBM3e, 内存带宽和H100持平。
采用一个2U x86的CPU机头配合 8个2U的Trn2 ComputeTray构成16卡的trn2服务器。
然后CPU HeadTray通过PCIe AEC铜缆链接到8个ComputeTray上
整个机器的PCIe拓扑如下:
CPU机头也配置了两块Nitro, 一块走EBS一块走前端网络, 并且放置了多个NVMe本地盘
数据中心基础设施部分
1. 功耗
单机功耗
Trainium2芯片功耗:每颗芯片设计功耗约为 500W。
服务器总功耗
•标准配置(Trn2):每台服务器由10颗芯片组成,总功耗约 5kW。
•超大规模配置(Trn2-Ultra):包含4台物理服务器(40颗芯片),总功耗约 20kW。
单机架功耗密度
•标准配置(Trn2):单机架包含两台服务器,总功耗约 27kW。
•超大规模配置(Trn2-Ultra):双机架设计,总功耗为 28kW。
2. 冷却需求
冷却设计
•Trainium2服务器采用前冷后排的冷却设计。
•冷空气从服务器前端吸入,热空气从后端排出,通过热通道管理(hot aisle containment)引导热量。
服务器内部热管理
•高功率组件(如HBM3内存和计算芯片)通过直接接触式散热器进行冷却。
•部分区域可能需要 NUMA感知(NUMA-aware) 的编程,以优化热负载均衡。
数据中心冷却
• 数据中心整体冷却设计采用 热通道和冷通道分离 的方式,确保冷空气流向服务器前端,避免热空气混入。
• 在印第安纳州的“Project Rainier”数据中心预计 PUE值 (能源使用效率)在 1.10~1.15,得益于北部地区较低的环境温度和高效的冷却基础设施。
冷却方式
部分机房可能采用封闭冷却系统(如液冷或冷板冷却)以进一步提高高功耗服务器的散热效率。
3. 供电要求
供电架构
•服务器采用 48V直流供电架构:
•电力从AC(交流电)转换为DC(直流电)在机架级完成,以减少每台服务器单独转换的能耗损失。
每台服务器
•CPU托盘和存储设备的供电通过内部直流母线完成。
•GPU/AI芯片和网络设备(如NIC)的供电独立分配,确保关键任务运行稳定。
•每个机架有独立的供电分配单元(PDU),支持高达 30kW 的总功耗。
容错与冗余
数据中心供电设计强调高可靠性
•主供电系统和备用发电系统的切换时间控制在毫秒级。
•采用N+1或2N冗余设计,确保关键任务不受单点故障影响。
针对“Project Rainier”
•数据中心单栋建筑的供电容量为 25MW。
•第一阶段建设完成7栋建筑,总功率 175MW。
•第二阶段计划增加9栋,总功率达到 1,000MW。
4. 优化措施
功率密度优化
•使用高密度机架和高效网络拓扑(如3D Torus)来最大化功率密度。
•尽量减少长距离光纤互联,采用短距离铜缆(DAC和AEC)连接,以降低耗能和提高可靠性。
能耗控制
•Trainium2的低算术强度设计(20 BFLOP/Byte)使其内存带宽瓶颈较少,从而提高整体计算效率,降低浪费功耗。
•数据中心运行中,通过动态负载均衡(Dynamic Workload Balancing)减少高峰期的能源压力。
5. 冷却与供电的挑战
高功率密度挑战
超大规模配置(如Trn2-Ultra)可能需要更先进的液冷技术,以应对超过30kW的机架功耗。
可靠性
点对点网络拓扑的单点故障可能导致较大的性能损失(影响整个scale-up域)。
扩展性
为应对未来更大规模部署(如256芯片配置),需要更灵活的冷却和供电架构。
关注我们获取更多精彩内容
往期推荐
● 智慧金融 算力未来 | 2024中国金融行业数据中心发展论坛报名通道正式开启