发布会图文|直击亚马逊re:Invent 2024: 发布新一代T2 AI芯片、下一代Claude将在数十万片T2集群上训练

文摘   2024-12-04 10:08   浙江  

👇关注公众号后设🌟标,掌握第一手AI新动态

本文内容整理自亚马逊re:Invent 2024大会的Keynote演讲,公开发表于2024年12月03日。原始内容参考:https://www.youtube.com/watch?v=vx36tyJ47ps

亚马逊re:Invent 2024大会上的AI相关的Keynote演讲

内容导读

1. AI工作负载的特性与挑战:

  • AI工作负载是纵向扩展的,而非横向扩展的。模型规模不断扩大(从数十亿参数到万亿参数),计算需求呈指数级增长(损失减半需要百万倍计算量)。
  • 数据并行是AI模型训练的主要方法,但受限于全局批量大小,限制了横向扩展的效率。

2. AWS在纵向扩展方面的创新:Trainium 2芯片和服务器:

  • Trainium 2芯片:  采用先进制造工艺,利用先进封装技术将多个芯片(包括计算芯片和高带宽内存模块HBM)集成在一个封装体中,以实现高计算能力和内存带宽。
  • 工程挑战与解决方案:  讨论了芯片尺寸限制(光刻掩膜版)、封装体尺寸限制、电压降问题等工程挑战,并介绍了相应的解决方案(例如,将电压调节器移至更靠近芯片的位置)。
  • Trainium 2服务器:  是AWS功能最强大的AI服务器,拥有极高的计算能力(20 petaflops)和内存(1.5 TB HBM),并针对自动化制造和组装进行了优化,实现快速交付。
  • 独特的收缩阵列架构: Trainium 2采用systolic array架构,优化了内存带宽利用率,并通过神经元内核接口(NICI)支持更底层的硬件访问,提升性能。

3.  AWS在横向扩展方面的创新:Neuron Link和10P10U网络:

  • Neuron Link:  一种专有Trainium互连技术,将多个Trainium 2服务器连接成一个“超级服务器”,实现极高的带宽和低延迟。
  • 10P10U网络:  为AI集群提供高容量、低延迟和高可靠性的网络连接,支持快速扩展和高密度互联。
  • 网络创新:  介绍了干线连接器和萤火虫光纤插头等创新,提高了网络安装效率和可靠性。
  • CIDR路由协议:  一种新型网络路由协议,结合了集中规划和去中心化优势,实现快速故障恢复。

4.  AI推理优化:

  • AI推理包含预填充和分词生成两个工作负载,对计算和内存带宽的需求不同。
  • AWS推出Amazon Bedrock的延迟优化选项,利用Trainium 2硬件和软件优化,大幅提升LLlama和Claude 3.5模型的推理性能。

5. 与Anthropic的合作:

  • AWS与Anthropic合作,优化Claude 3.5模型,在Trainium 2上实现60%的推理速度提升。
  • Anthropic的下一代Claude模型将在Project Rainier(一个拥有数十万个Trainium 2芯片的集群)上进行训练。

Amazon Web Services (AWS) 简介

亚马逊网络服务(Amazon Web Services,AWS)是一套庞大的云计算平台,是亚马逊公司提供的各种按需付费的云计算服务,如同一个虚拟的巨型数据中心。它为个人、企业和政府机构提供计算能力、存储、数据库、分析、机器学习、人工智能等一系列服务。

演讲图文

AWS SVP Peter DeSantis:  太棒了!Dave 向大家很好地展示了 AWS 计算方面的一些创新成果。现在,我想花几分钟时间讨论一种完全不同类型的负载:人工智能。实际上,是两种工作负载:AI 模型训练和 AI 推理。AI 工作负载真正酷的一点在于,它们为我们的团队提供了以完全不同的方式进行创新的新机会。今晚我们将探讨其中的一些创新,例如努力构建性能最高的芯片并使用新技术将它们互连。但我们还将探讨如何将过去十年来推动的创新应用于这个新领域,为 AI 工作负载带来 AWS 的性能、可靠性和低成本。

现在,我们经常谈论横向扩展的工作负载,例如 Web 服务、大数据应用程序和分布式系统。当您向系统添加更多资源时,横向扩展的工作负载运行效率非常高。我们投入巨资创建了针对这些工作负载优化的基础设施。事实上,Dave 刚才已经介绍了其中一些创新。但是,AI 工作负载并非横向扩展的工作负载,而是纵向扩展的工作负载。让我解释一下原因。

推动 AI 能力发展的一个因素是模型越来越大,而且大得多。当我上次在 2022 年谈到这个问题时,我们对参数数量达数十亿的模型感到兴奋。去年,我们对参数数量达数百亿的模型感到兴奋。很快,前沿模型的参数很可能达到万亿级别。为什么会出现这种增长?好吧,在 2020 年,研究人员发表了一篇具有开创性的论文,名为《规模定律》(Scaling Law)。它假设模型能力会随着某些因素的扩展而提高,即参数数量、数据集大小和计算量。从那时起,我们看到了构建更大、更计算密集型模型的趋势。这些模型确实变得更强大,您在日常生活中也体验到了这一点。

现在,如果您仔细观察这些图表,您会发现一些非常有趣的东西。这些是对数-对数图表,这意味着图表具有对数 X 轴和对数 Y 轴。对数-对数图表上的直线可能会产生误导。让我们仔细看看计算图。我们习惯了线性图,其中每次添加 x 时,您都会得到 y;这是一种线性关系。但是,在对数-对数图中,直线表示乘法关系,例如,如果我们将 X 乘以四倍,我们可以将 Y 乘以两倍。我们在这些缩放图中看到的东西令人难以置信。为了将损失(Y 轴上的度量)减半,我们需要使用一百万倍的计算量!一百万倍!

现在,在 Y 轴测量上好 50% 的模型实际上在许多其他基准测试中会更智能。计算量和模型损失之间的这种关系解释了为什么业界正在投资数百亿美元来构建更好的 AI 基础设施。但是,更好的 AI 基础设施意味着什么?为了理解这一点,让我们看看大型 AI 模型是如何训练的。

现代生成式 AI 应用程序的核心是预测引擎。您用一组标记(基本上是单词的一部分)提示它们,它们会依次预测下一个标记,一次一个。从预测下一个标记的这项非常基本的能力中,出现了一些非常惊人的特性,例如推理和解决问题。

为了构建这样的预测模型,您需要在一个包含数万亿个标记的数据集上训练一个模型,直到找到一组可以最大限度地减少训练数据中预测误差的模型权重。在这个过程中,在所有这些标记上进行训练需要大量的计算量。在单个服务器上,即使是最大的单个服务器,训练最大的模型也需要几个世纪甚至几千年。

所以,当然,我们需要并行化训练过程。首先要做的明显的事情是分割训练数据。这似乎很简单。如果您将在一台服务器上需要一千年的任务,在 1000 台服务器上运行,它应该需要一年。

如果工作负载是横向扩展的工作负载,情况确实如此。但是,情况并非如此简单。我刚才描述的过程(分割数据)称为数据并行。像生活中许多美好的事物一样,数据并行也有一些附加条件。如果您采用我刚才描述的简单的分而治之的方法,您实际上是在构建许多独立的模型,然后尝试在最后将它们组合起来。这根本行不通。相反,在使用数据并行时,所有服务器都需要持续共享和组合它们的模型权重,从而使大型服务器集群能够构建模型的一个共享版本

这就是所谓的全局批量大小(Global Batch Size)发挥作用的地方。全局批量大小是在需要组合所有服务器的结果之前可以处理的最大数据集。此全局批量大小只是您的整体训练数据的一小部分。

所以,数据并行的工作原理如下。您获取一部分数据(不大于全局批量大小),然后将其分成许多相等的部分,并将其分配给所有服务器。然后,每台服务器在其分配的数据段上进行训练。完成后,它会将结果与集群中的所有其他服务器组合起来。组合所有结果后,所有服务器都可以继续处理下一批数据

实际上,这种全局批量大小限制意味着您实际上只能将训练集群扩展到最多几千台服务器。如果超过这个数量,每台服务器获得的数据量会非常少,以至于它花费在协调结果上的时间比处理数据的时间还要多。因此,如果您继续添加服务器,速度不会加快;只会增加成本。

因此,了解数据并行及其限制突出了 AI 基础设施的两个基本支柱。首先,由于我们受到了全局批量大小的横向扩展限制,构建更大模型的途径是构建更强大的服务器。这是基础设施挑战的纵向扩展部分

其次,尽管在构建 AI 模型时横向扩展受到限制,但我们仍然可以从构建这些非常大的集群中获得很多价值。为了做到这一点,我们需要利用我们多年来一直在构建的横向扩展工具。例如,高效的数据中心、快速扩展和出色的网络。

现在让我们从第一部分开始,即纵向扩展挑战。构建最强大的服务器意味着什么?这意味着您需要一个具有凝聚力的计算系统,该系统将尽可能多的计算能力和高速内存打包到尽可能小的空间中。

现在,为什么它在尽可能小的空间中很重要?因为将所有这些计算能力和内存紧密结合在一起意味着您可以使用大量高带宽、低延迟的连接将所有内容连接在一起。延迟部分可能非常直观。

但是,物理距离越近,你也可以获得更高的吞吐量。原因是,如果将元件放置得更靠近,可以使用更短的导线在它们之间传输数据,这意味着可以容纳更多导线。这也意味着延迟更低,并且可以使用更高效的协议来交换数据。所以这看起来很简单,但这是一个非常有趣的挑战。去年,我们发布了Trainium 2,这是我们下一代Trainium芯片。今晚,我将向大家介绍我们如何使用Trainium 2来构建我们有史以来最强大的AI服务器。

现在,让我们从系统的最小部分——Trainium-2芯片开始。在尝试使用这款芯片构建最大的AI服务器的过程中,我会指出我们将遇到的某些工程限制。

芯片是使用极其先进的制造技术在硅晶圆上制造的,而这些工艺一直在改进。因此,如果你想在一个系统中获得最多的计算能力和内存,一个好的起点就是使用最先进的制造技术来制造最大的芯片。而这正是我们在Trainium 2上所做的。

但是,我们在这里遇到了第一个工程限制。芯片制造工艺对芯片的生产尺寸有限制,这来自于用于蚀刻硅晶圆的镜头。这个镜头被称为光刻掩膜版(reticle),它将芯片的最大尺寸限制在约800平方毫米,或1.25平方英寸。

现在你可能认为我手中的东西看起来远大于1.25平方英寸,那是因为我拿着的不是芯片本身,而是封装体(package)。

当我们大多数人想到计算机芯片时,我们会想到安装在主板中央,散热器下面的那个东西。但那实际上是封装体。芯片在封装体里面。几年前,封装体是一个相当简单的东西。它基本上是一种封装单个芯片并将其连接到主板的方法。封装体使我们能够从硅芯片的微小世界转向连接主板上所有元件的更大的导线。

但如今,封装体更加先进。你可以将先进封装视为使用称为中间件(Interposer)的特殊设备将多个芯片连接在一个封装体中。中间件本身实际上也是一个小芯片,它充当一个小型的主板,能够以比基于PCB的主板高约10倍的带宽互连芯片。

在过去几代Graviton处理器中,我们一直在使用先进的封装技术。这里可以看到Graviton 3和Graviton 4。可以看到这两个封装体内部都有多个芯片或小芯片。Graviton 4封装体实际上包含七个小芯片。中间的大芯片包含计算核心,而周围较小的芯片则有助于访问内存和系统总线的其他部分。

通过分离计算核心,我们能够以经济高效的方式将Graviton 4处理器的核心数量增加50%。这种方法对Graviton非常有帮助,但在构建出色的AI服务器时却是基本要求。

这是Trainium 2封装体,也就是我刚才手中拿着的那个。你可以看到,我们在该封装体的中间有两个Trainium芯片并排放置。每个Trainium 2芯片旁边都有两个其他芯片。这些芯片是HBM,或高带宽内存模块。HBM是包含内存芯片堆栈的专用模块。通过堆叠芯片,可以在相同区域内容纳更多内存。这是可能的,因为内存芯片实际上功耗更低,散热更少。好的,所以如果你看这个封装体,那就是大量的计算能力和内存。但你可能想知道,为什么我们不能使封装体更大呢?继续下去。这就是我们遇到第二个限制的地方。为了理解这一点,让我们仔细看看。

如今,封装体的尺寸实际上仅限于最大芯片尺寸的三倍左右,如果你考虑这两个芯片和HBM,那就是你在这里看到的尺寸。在此图示中,我们取下了一些HBM,以便让你看到下面的中间件。你可以看到所有用于将芯片连接到中间件的小凸点。

但是有一个更好的角度来看这个。这是Annapurna团队为我创建的一张非常酷的图片。他们通过沿着那条紫色线小心地切片来对芯片进行横截面分析。然后,他们使用显微镜从侧面放大图像。你可以看到一些非常有趣的东西。在左上方,你可以看到Trinium-2计算芯片,在其旁边,你可以看到HBM模块。一件非常酷的事情是你实际上可以看到HBM模块的层数,并且它们都位于薄而连续的晶圆上。

这是连接芯片的中间件。你在这里还可以看到将芯片连接到互连器的小型连接。这些连接实际上是微小的点,芯片和中间件顶部之间的电连接非常小。每一个都大约100微米——小于你见过的最细的盐粒。所有这些连接都需要保持到位,才能使芯片保持连接状态。

这就是为什么我们对封装体的尺寸有限制,因为封装体必须足够稳定才能保持所有这些连接的连接。不要让这些微小的尺寸误导你,因为这些芯片有大量的电力和热量在四处移动。其中一个Trinium芯片可以在一秒钟内完成需要人类数百万年才能完成的计算。为了完成这项工作,这些芯片需要提供大量的电力。

现在,通过以低电压移动所有这些电力,我们需要使用粗导线。当然,“粗”是一个相对的术语,但是你可以在这里看到封装体底部的导线。芯片人员会称这些为电源过孔(power vias)。我们需要使用粗导线的原因是为了避免电压降。

半导体使用微小的电荷存在或不存在来存储和处理信息。当芯片遇到电压下降或骤降时,它们通常需要等到电力供应系统调整完毕。等待不是你想要对芯片做的事情。

虽然芯片需要低电压电力,但以较高电压供电效率更高。数据中心实际上以多种电压供电,随着电力越来越靠近芯片,电压逐渐降低。最后一步发生在电力进入封装体之前。

你可以通过查看我们的Trainium 1主板来了解这通常是如何完成的。最后的降压步骤是通过尽可能靠近封装体放置的电压调节器来完成的。

我在白板上重点标注了它们。现在,为了降低压降并优化Trainium-2,我们的Trainium-2团队努力将这些电压调节器更靠近芯片。在这里我们可以看到Trainium-2电路板,您不会在电路板顶部看到这些电压调节器的任何迹象。相反,电压调节器实际上位于封装的周边,这样做非常具有挑战性,因为电压发生器会产生热量,因此您必须进行一些新颖的工程设计,但是通过将这些电压调节器移至更靠近芯片的位置,我们实际上可以使用更短的导线,而更短的导线意味着更小的压降。

这是Trainium 1的视图,您可以看到它在负载增加时的响应。当您开始进行大量计算时,就会发生这种情况。您可以看到,当负载激增时,电压会明显下降。虽然这很短暂,但电压下降意味着芯片没有以最佳状态进行计算。这种极端的波动实际上会损害芯片,可能缩短其使用寿命。现在让我们看看在Trainium 2上施加相同负载的情况。请注意,您没有明显的电压下降,这是因为导线更短,这意味着芯片不会降频,这意味着更好的性能,好了,关于芯片就先说到这里,让我们看看服务器。

这是一个带有两台Trainium 2服务器的机架,一台在上,一台在下。它们是大型服务器。每台Trainium 2服务器由八个加速器托盘组成,每个托盘包含两块Trainium 2加速器板,每块板都有其专用的Nitro卡。

就像基于NVIDIA的系统中的GPU一样,Trainium服务器也是加速器。它们旨在执行构建AI模型所需的数学运算和操作。但是,它们不支持运行操作系统或程序所需的正常指令。为此,您需要一个头节点。

这实际上是我们服务器的工程极限。我们可以放入服务器中的训练加速器的数量受到头节点有效管理和馈送这些节点的能力的限制。因此,添加超出我们已完成数量的额外加速器实际上只会增加成本而不会提高性能,而这并非我们想要的结果。

最后,您需要一个交换机来将所有加速器和头节点连接到网络。那么,Trainium 2服务器的性能如何呢?

Trainium 2服务器是功能最强大的AWS AI服务器,提供20 petaflops的计算能力。这比Trainium 1快七倍,比我们当前最大的AI服务器快25%。Trainium 2服务器还拥有1.5 TB的高速HBM内存。这比我们当前最大的AI服务器多2.5倍。这是一个规模扩展的服务器。但是,拥有功能最强大的AI服务器只有在您可以快速将其交付给客户手中时才有意义。

几年前,当新的芯片或服务器出现时,你会看到类似这样的采用曲线。在新服务器生命周期的最初几个月,一些早期采用者可能会采用它,通常是最大的数据库和需求最高的负载。当这些早期采用者将他们的新工作负载迁移到硬件时,许多早期生命周期制造挑战就可以得到解决。

但AI的情况并非如此。由于更强大的服务器对于构建更好的模型具有价值,客户希望从第一天起就能访问最佳的AI基础设施。为了预测这种前所未有的增长,我们也在此进行了创新。

让我们再看看刚才看到的Trainium 2托盘。现在,有趣的是你看不到的东西,那就是大量的电缆。这是因为团队竭尽全力减少了电缆数量。这些组件不是通过电缆连接,而是通过下方主板上的导线迹线互连。

他们为什么要这样做?因为每个电缆连接都可能存在制造缺陷。而制造缺陷会降低速度。

事实上,Trainium 2服务器最酷的事情之一就是它专门设计用于实现自动化制造和组装。这种高度的自动化使我们能够从第一天起就快速扩展。因此,Trainium 2不仅是我们功能最强大的AI服务器,而且其扩展速度也比我们以往拥有的任何其他AI服务器都快。但这并非全部。强大的AI服务器不仅仅是将原始计算能力和内存打包到狭小的空间中。它是一种用于优化AI工作负载的专用工具。这就是Trinium 2的架构发挥作用的地方。

首先要了解的是,Trainium 使用的是与传统 CPU 或 GPU 完全不同的架构,称为 systolic array(收缩阵列)。让我快速向您展示它与众不同的地方。在这里,我们演示了一些标准 CPU 内核执行指令的情况。虽然 CPU 类型不同,但它们都有一些共同的特征。首先,每个 CPU 内核都是一个完全独立的处理器。这就是为什么您可以在现代 CPU 上同时运行多个进程的原因。另一个需要注意的是,每个 CPU 内核在返回内存读取或写入数据之前只做少量工作。这使得 CPU 非常通用,但也意味着性能最终受限于内存带宽。最后,虽然近年来 CPU 的核心数量大幅增加,但当今最大的 CPU 也最多只有几百个核心。

GPU 则完全不同。现代 GPU 拥有数百或数千个计算核心,它们被组织成并行处理单元。通过让多个核心对不同的数据执行完全相同的操作,GPU 可以在相同空间内容纳更多核心。这意味着每个 GPU 核心并非完全独立。它实际上与其他核心绑定在一起。但这也意味着每个 GPU 核心可以用比 CPU 上完全独立的核心更少的晶体管构建。GPU 架构极大地加速了许多工作负载,从图形开始,但最值得注意的是 AI。GPU 无疑是一种变革性的硬件架构。但我们选择了不同的方法。

收缩阵列架构是一种独特的硬件架构,因为它允许您创建长而相互连接的计算管道。对于 CPU 或 GPU,每个计算指令都需要读取内存、执行其工作,然后写回内存。

使用收缩阵列,我们可以通过将结果直接从一个处理单元传递到下一个处理单元来避免计算步骤之间的内存访问。这减少了内存带宽压力,并使我们能够优化计算资源。

使用 Trainium,我们实际上是为 AI 工作负载设计的收缩阵列。因此,我们没有像前面图示那样具有线性处理单元链,而是拥有更像这样的东西。我们的布局专门设计用于适应构成 AI 代码基础的常见矩阵或张量运算。

这种架构使Trainium在AI服务器上能够更有效地利用可用内存和带宽,优于传统的硬件架构,帮助我们充分利用我们辛辛苦苦集成到Trainium 2服务器中的计算能力和内存。

我们对Trainium做的另一个决定是,让您可以直接访问硬件,以便您可以优化应用程序的性能。神经元内核接口(NICI)是一种新语言,使您可以开发和部署充分利用底层Trainium硬件的代码,从而可以尝试新的方法,更经济高效地构建AI应用程序。我们很高兴让更多人体验Trainium。因此,上个月,我们宣布了“基于Trainium构建”计划,该计划向研究人员提供Trainium硬件以开发新技术。来自加州大学伯克利分校、卡内基梅隆大学、德克萨斯大学奥斯汀分校和牛津大学等大学的研究人员都渴望使用Trainium及其新颖的硬件功能来进行AI领域的创新研究。我们很高兴能与这些研究机构合作,创新将为未来最苛刻的AI工作负载提供动力的硬件。

好的,我们构建了功能最强大的AI服务器,它采用了针对AI工作负载优化的全新硬件架构。我们准备比以往任何时候都更快地提升速度。但是,那些支持最新前沿模型的最苛刻的AI工作负载呢?对它们来说,最强大永远都不够。

这就是Neuron Link发挥作用的地方。NeuronLink是我们的专有Trainium互连技术。NeuronLink使我们能够将多个Trainium 2服务器组合成一个逻辑服务器,这些服务器之间具有每秒2太字节的带宽连接,延迟为1微秒。

与传统的高速网络协议不同,Neuron Link连接的服务器可以直接访问彼此的内存,使我们能够创建一些特殊的东西,我们称之为“超级服务器”。

我一直想把硬件搬上舞台,但每年都被劝阻了,因为会挡住屏幕。顺便说一句,我很抱歉它挡住了屏幕。但是今年,为了向大家展示什么是超级服务器,我们把一台超级服务器搬上了舞台。

这是一台超级服务器。64个Trainium 2芯片协同工作,提供比任何现有的EC2 AI服务器高五倍的计算能力,以及十倍的内存。如果您要构建一个万亿参数的AI模型,这就是您需要的服务器类型。非常酷。现在,我猜在座的至少有一个人正在考虑构建一个万亿参数的AI模型。但对于你们其他人来说,也有一些东西。让我们看看每个人都在做很多的事情,那就是AI推理。

大型模型推理本身就是一个非常有趣且要求很高的工作负载。实际上,它是两个工作负载。第一个工作负载是输入编码,其中提示和其他模型输入在准备分词生成之前进行处理。此过程称为预填充。预填充需要大量的计算资源才能将输入转换为传递给下一个过程的数据结构。

预填充完成后,计算出的数据结构将传递给第二个推理工作负载,该工作负载进行分词(token)生成。分词生成的一个有趣方面是,模型按顺序生成每个分词,一次一个。这对AI基础设施提出了非常不同的要求。每次生成一个分词时,都必须从内存中读取整个模型,但只使用少量计算。因此,分词生成对内存总线提出了很大的要求,但只使用了少量计算,这几乎与预填充工作负载完全相反。

那么这些工作负载差异对您和AI基础设施意味着什么呢?让我们从您开始。不久以前,许多工作负载(例如聊天机器人)主要关心预填充性能。这是因为当预填充发生时,用户通常会等待并盯着屏幕或旋转的轮子。但是,一旦开始生成分词,您只需要比人类阅读速度更快地生成它们即可。而那并不快。

但是,越来越多的模型被用于自主工作流程中。在这里,您需要在继续执行工作流程的下一步之前生成整个响应。因此,现在客户都关心快速预填充和非常快的分词生成。这让我们想到了AI推理基础设施需求中正在发生的一件有趣的事情。对真正快速推理的需求意味着AI推理工作负载现在也在寻找功能最强大的AI服务器。现在好的一点是,我们讨论的这两个不同的工作负载是互补的。预填充需要更多计算,分词生成需要更多内存带宽,因此在同一台强大的AI服务器上运行它们可以帮助我们实现卓越的性能和效率。因此,我们问自己,如何才能将Trainium 2 的优势带给AWS客户用于推理?

我很高兴地宣布Amazon Bedrock的一个新的延迟优化选项,它允许您访问我们最新的AI硬件和其他软件优化,以获得各种领先模型的最佳推理性能。延迟优化的推理现已开始为选定模型提供预览,其中一个模型是广受欢迎的LLlama。

我们很高兴延迟优化的Llama 405B和较小的Llama 70B模型现在在AWS上提供了任何提供商中最佳的性能。这是Llama 405B(最大且最受欢迎的Llama模型)的性能。我们正在查看处理请求并生成响应的总时间。因此,它包括预填充工作流程和分词生成工作流程。此处降低得更好,您可以看到Bedrock延迟优化产品远低于其他产品。

但是,如果您使用其他模型呢?我很高兴地宣布,我们与Anthropic合作,推出了一个延迟优化的全新且广受欢迎的Claude 3.5模型版本。根据请求的不同,延迟优化的Claude 3.5运行速度比我们的标准Claude 3.5快60%,它提供了任何地方最快的Claude 3.5推理速度。并且像LLlama一样,Claude 3.5正在利用Trainium 2来实现这一性能。但是您不必只相信我的话。

我非常荣幸地邀请到我之前提到的规模法则论文的合著者之一上台。让我们欢迎Anthropic的联合创始人兼首席计算官Tom Brown,让他来分享他们如何与Trainium和AWS进行创新。

Tom Brown:   谢谢,Peter。在Anthropic,我们构建值得信赖的AI。每天,全球数百万人都依靠Claude完成工作。Claude编写代码、编辑文档并使用工具完成任务。老实说,我即将要做的这个主题演讲,大约有一半是由Claude撰写的。现在,由于我们与AWS的合作,大大小小的企业都可以在他们已经信任的安全云上使用Claude。我将花一些时间更深入地探讨我们的合作方式。

首先,让我们谈谈Peter刚才提到的Claude 3.5 Haiku。它是最新、最快的模型之一。尽管它体积小巧,但功能强大,有时甚至可以与我们最大的模型Opus匹敌,而成本却只有它的1/15。正如Peter提到的,我们合作构建了这个延迟优化的模型,让客户能够在Trainium 2上更快地运行Haiku。这意味着,从今天起,您可以将Haiku的运行速度提高60%,无需任何更改。您只需在API上切换一个开关,您的请求就会被路由到新的Trainium 2服务器。非常简单。

现在,这种速度对于交互式操作非常重要。我是一个程序员。想象一下自动补全,你需要在按键之间很短的时间内完成建议的选项卡补全。60%的速度提升在这里意义重大,它可能决定了你的补全是否能够显示出来。那么我们是如何做到这么快的呢?首先,看看这个大家伙。它是一个庞然大物。看看这台机器。然后,其中的每个芯片都拥有Peter告诉你们的那些惊人的规格——在那些 systolic arrays 中拥有超过 petaflop 级别的计算能力、充足的内存带宽以及快速的互联。它拥有强大的规格。但每个工程师都知道,规格并不够。

为了获得最佳性能,我们需要始终为那些“饥饿的”systolic arrays 提供充足的数据。这意味着要对工作进行排序,确保它们不会阻塞,等待来自内存、互联或其他任何地方的输入。这就像玩俄罗斯方块游戏,你塞得越紧密,模型就越便宜越快。

那么,我们如何解决这个“俄罗斯方块”难题呢?Anthropic的性能工程团队与亚马逊和Annapurna在这个挑战上已经合作了一年多。我们发现编译器可以做很多事情,但它并不完美。在我们的规模下,追求完美是值得的。Anthropic的一个单一性能优化就可以解锁足够的计算能力来服务一百万新客户。

这意味着值得降低到更低的级别,比如使用Nicky,编写尽可能接近原始硬件的内核。这就像为程序中最重要部分从Python切换到C语言。我们发现Trainium的设计非常适合这种低级别编码。

所以,大家可能不知道,对于其他AI芯片来说,实际上无法知道你的内核中正在运行哪些指令。这意味着你必须猜测。这就像蒙着眼睛玩俄罗斯方块。Trainium是我见过的第一个能够记录系统中任何位置执行的每条指令的执行时间的芯片。

让我来给大家展示一下。这是一个我们在Anthropic开发的真正的低级Trainium内核的例子。在这里,您可以准确地看到systolic arrays 运行的时间、阻塞的时间,以及我们确切地知道它们为什么被阻塞以及它们在等待什么。您可以摘下眼罩了。这使得编写低级内核更快、更容易,在我看来,也更有趣。

好的,说到有趣的事情,我要宣布一件事。到目前为止,我们一直专注于推理,但他们可不是随便给它起名叫Trainium的。我很高兴地宣布,下一代Claude将在Project Rainier上进行训练,这是一个拥有数十万个Trainium 2芯片的新型亚马逊集群

Tom Brown:   所以,数十万个芯片意味着数百个密集的 exaflops,比我们曾经使用过的任何集群都要多五倍以上。那么Rainier对客户意味着什么呢?好吧,世界已经看到了我们在上一个集群中取得的成就。今年早些时候,Anthropic推出了Claude 3 Opus,这是世界上最智能的模型。四个月后,我们推出了Claude 3.5 Sonnet,它比Opus更智能,成本却只有它的1/5。然后,在上个月,我们发布了3.5 Haiku和一个升级版的3.5 Sonnet,它可以像人类一样使用计算机。

Project Rainier 将进一步加快我们的开发速度,为我们的研究和下一代扩展提供动力。这意味着客户将以更低的价格和更快的速度获得更强大的智能。更智能的代理,他们可以信任这些代理来处理更大、更重要的项目。凭借Trainium 2和Project Rainier,我们不仅仅是在构建更快的AI,我们还在构建可扩展的值得信赖的AI。

AWS SVP Peter DeSantis:   谢谢Tom。在过去的一年中与Anthropic一起创新是一段令人兴奋的旅程。未来可能性的出现也让我们充满活力。我之前提到过,要构建最佳的AI基础设施,就需要构建功能最强大的服务器。这是问题中的“纵向扩展”部分。但这只是故事的一半。如果你想训练最大的模型,你还需要构建最大的集群,比如Project Rainier。这让我想到故事的另一半,即“横向扩展”的故事。这就是AWS在高性能横向扩展基础设施创新方面长期积累的经验发挥作用的地方。

一个很好的横向扩展创新的例子就是构建弹性的AI优化网络。现在,一个优秀的AI网络与一个优秀的云网络有很多共同之处,尽管一切都被大幅提升了。如果这是一场拉斯维加斯的比赛,甚至都不会是一场势均力敌的比赛。当然,云网络需要大量的容量来确保网络永远不会阻碍客户。事实上,James Hamilton 在我们第一天晚上的主题演讲中谈到了这一点。但是AI网络需要更多的容量。回想一下,每个Trainium 2 Ultra服务器都拥有近13 Tb的网络带宽。在训练过程中,每台服务器都需要与其他每台服务器同时通信。

因此,网络需要非常庞大,以确保它不会减慢这些服务器的速度。云网络需要快速扩展以适应增长。我们每天都在全球数据中心添加数千台服务器。但正如之前讨论的那样,AI 的扩展速度更快。当你花费数十亿美元构建AI基础设施时,你希望它能够立即安装。

云网络需要可靠性。它们已经做到了这一点,提供的可用性比即使是最复杂的内部网络也能达到的都要高得多。我们的全球数据中心网络具有五个九的可用性。

但是,在这里,AI工作负载的要求更高。如果AI网络出现即使是短暂的故障,训练过程也可能延迟整个集群,导致空闲容量和更长的训练时间。

那么,如何利用云网络的创新来构建强大的AI网络呢?

这是我们最新一代AI网络架构的图片,我们称之为10P10U网络。这是一个为我们的Ultra Server 2集群提供动力的网络架构。而且,我们使用该网络连接Trainium和基于NVIDIA的集群。我们称之为10P10U,因为它使我们能够为数千台服务器提供数十PB的网络容量和数十PB的网络带宽,延迟低于10微秒。10P10U网络具有大规模并行性和高密度互联性,并且具有弹性可扩展性。我们可以将其缩小到只有几台机架,也可以将其扩展到跨越多个物理数据中心园区的集群。

您在这里看到的只是一台10P10U机架。您可能已经注意到交换机呈现美丽的绿色。绿色实际上是我的最爱。我更喜欢英式优雅绿,但这颜色也不错。我以前从未在我们的数据中心见过绿色的交换机,所以我问团队为什么是这种绿色?嗯,这种绿色被称为绿意盎然,是2017年潘通年度代表色。显然,我们的一家供应商有一些剩余的油漆,并给我们提供了一个非常优惠的价格。

我喜欢这个故事,因为它体现了我们的设计理念:在对客户至关重要的方面花钱,在不重要的方面省钱,比如油漆。您可能还注意到了,这个机架有很多网络电缆。除了绿色部分之外,还有网络配线架。要构建这样的密集型网络架构,需要以非常精确的模式互连交换机。这就是配线架的作用。这些配线架已经为我们服务多年了。但正如您所看到的,随着10P10U网络的规模增长,情况变得相当混乱,因为电缆的复杂性显著增加。正如我们所讨论的,我们正在更快地安装设备。因此,这对团队来说是一个创新的绝佳机会。

他们的创新之一是开发了一种专有的干线连接器。您可以将其视为一种超级电缆,它将16根独立的光纤电缆组合成一个坚固的连接器。这项技术的革新之处在于,所有复杂的组装工作都在工厂完成,而不是在数据中心现场。这大大简化了安装过程,并且几乎消除了连接错误的风险。虽然这听起来可能很不起眼,但其影响是巨大的。使用干线连接器可以将我们AI机架的安装时间缩短54%,更不用说使外观更整洁了。那些绿色的交换机现在看起来更加醒目了。

团队并没有止步于此。这是另一个伟大的创新:他们称之为萤火虫光纤插头。这个巧妙的低成本设备充当微型信号反射器,使我们能够在机架到达数据中心机房之前全面测试和验证网络连接。这意味着当我们的服务器到达时,我们不必浪费任何时间调试布线。在AI集群的世界里,时间就是金钱。

但这并没有结束。萤火虫插头兼具保护密封的作用,可以防止灰尘颗粒进入光连接。这听起来可能很微不足道,但即使是微小的灰尘颗粒也会严重降低网络的完整性并导致网络性能问题。因此,这个简单的设备也提高了网络性能。通过一个巧妙的解决方案,我们解决了两个关键挑战,这说明了一石二鸟的道理。

这样的创新帮助我们使10P10U网络成为我们有史以来扩展速度最快的网络。您可以从该图表中看到我们在不同网络架构中安装的链路数量。10P10U网络的增长速度前所未有,即使对我们来说也是如此。我们在过去12个月中安装了超过300万个链路,这甚至在我们开始考虑Trinium 2的增长之前。这让我们面临最终的挑战:提高网络可靠性。

AI网络中最大的故障来源是光链路。光链路是微型激光模块,用于发送和接收我们一直在讨论的所有这些电缆上的光信号。多年来,AWS一直在设计和运行我们自己的定制光学器件。由于我们的运营严格性和规模巨大,我们已经能够持续降低故障率。这是规模带来的令人印象深刻的进步。然而,无论我们将这些故障降低到什么程度,我们都永远不可能完全消除它们。因此,我们需要研究如何才能使故障的影响减小。

每个网络交换机都需要数据来告诉它们如何路由数据包。这些基本上是网络地图。在AI网络中,这张地图可能需要考虑数十万条路径。每次光链路发生故障时,都需要更新地图。那么我们如何快速可靠地做到这一点呢?简单的方法是集中管理地图。一个大脑优化网络听起来非常有吸引力,但有一个问题。当您的网络规模庞大时,集中控制会成为瓶颈。检测故障很困难,更新交换机可能非常缓慢,而中央控制器是一个单点故障。

这就是为什么大型网络通常采用去中心化的方法,使用BGP和OSPF等协议。在这些协议中,交换机与邻居共享健康更新,并协作生成对它们有效的网络地图。这些方法很强大,但并非完美无缺。在大型网络中,当链路发生故障时,网络交换机可能需要花费大量时间才能协作并找到新的最佳地图。在AI网络中,这是您没有工作的时间。因此,当面临两个次优选择时,您通常需要开辟一条新路径。

对于我们的10P10U网络,我们决定构建一个全新的网络路由协议,我们称之为可扩展的意图驱动路由(CIDR)。是的,对于房间里的网络人员来说,这可能是一个双关语。CIDR让您同时获得两全其美的优势。一个理解CIDR的简单方法是,它允许中央规划者将网络提炼成一个可以下推到所有交换机的结构。这使它们能够在遇到故障时做出快速、自主的决策。因此,CIDR将中央规划的控制和优化与去中心化的速度和弹性相结合。

结果,即使在我们最大的10P10U网络上,CIDR也能在不到一秒钟内响应故障。这比我们在其他网络架构上使用的替代方法快十倍。当其他网络可能仍在重新计算路由时,10P10U网络已经恢复工作了。

好的,今晚我们讨论了很多内容。从Dave谈到的我们投资中的核心创新,例如Nitro、Graviton和存储,到我们如何使用Trainium 2构建最大、最强大的AI服务器,再到AI如何受益于我们多年的大规模云计算创新,我们都进行了探讨。希望今晚各位都能了解到,我们如何在整个技术栈中进行创新,从而为您创造真正差异化的产品。

参考资料: https://www.youtube.com/watch?v=vx36tyJ47ps,公开发表于2024-12-03

关注公众号后设🌟标,掌握第一手AI新动态

往期精选

  1. 黄仁勋专访:OpenAI在大模型混战中达到“逃逸速度”
  2. 李飞飞与Justin深度解读空间智能:数字世界需要三维表征,才能与现实世界融合
  3. PayPal创始人彼得·蒂尔:人类科技停滞源于原子方面的进展远慢于比特
  4. 谷歌联合创始人布林:巨头们打造的“上帝模型”几乎可以理解一切
  5. 马斯克:AI将使商品和服务的成本趋近于零
  6. Karpathy最新专访:人形机器人、特斯拉、数据墙与合成数据


瓜哥AI新知
紧追AI业界一手观点、访谈、动态,点滴构建AI底层认知
 最新文章