01 AWS Trainium1 / Inferentia2 GenAI 弱点
02 AWS Trainium2 规格概述
03 Trainium2 与 TPUv6e/GB200/H100 的比较
04 AWS Trainium2 的封装
05 AWS Trainium2 微架构
张量引擎
矢量引擎
标量引擎
GPSIMD
06 服务器架构
07 CPU 托盘(Tray)
08 计算托盘
Trainium2 (Trn2)
Trainium2-Ultra (Trn2-Ultra)
09 系统/机架架构
10 功率预算
11 Rainier 项目 – 400k Trainium2 集群
12 网络概述
1.扩大规模:NeuronLinkv3
(A)服务器内 NeuronLinkv3
(B)服务器间 NeuronLinkv3
2.横向扩展:Elastic Fabric Adaptor EFAv3
3.前端和存储:弹性网络适配器 (ENA)、弹性块存储 (EBS)
4.带外管理网络
13 NeuronLinkv3 扩展网络
14 2x2x2x2 超立方体 == 4×4 环面的同构证明
15 服务器间 NeuronLinkv3 扩展
16 无 NeuronLinkv3 PCIe 光学元件
17 Trn2-Ultra-Max-Plus 4x4x16 概念 SKU
18 工作爆炸半径(Job Blast Radius)
19 EFAv3 横向扩展以太网网络
20 EBS+ENA+OOB
21 网络连接器和电缆成本
22 软件
23 XLA
24 NKI 内核语言
25 分布式调试和分析工具
26 集体交流库(Collective Communication Library)
27 超级服务器对之间的异步检查点
28 工作负载编排
29 自动被动和主动健康检查