AWS CEO加尔曼接受彭博社专访:10万Trainium2超级集群2025年初上线、信价比超GPU 30-40%

文摘   2024-12-05 07:31   浙江  

👇关注公众号后设🌟标,掌握第一手AI新动态

本文内容整理自AWS CEO Matt Garman接受Bloomberg Television Youtube频道专访,公开发表于2024年12月03日。原始内容参考:https://www.youtube.com/watch?v=9QYgekgE9L4

AWS CEO加尔曼接受彭博社电视专访

内容导读

  1. 自研芯片Tranium对抗英伟达: 亚马逊推出自研芯片Tranium 2,并正在研发Tranium 3,旨在为客户提供比英伟达GPU更具性价比的AI计算解决方案,目标是提升30%-40%的性价比,但同时强调与英伟达的合作关系,认为两者可以共存,市场足够大。
  2. 巨型AI超集群的建设:  亚马逊与Anthropic合作,正在建设一个包含数十万颗自研芯片的超集群,用于训练更大、更强大的AI模型,这将大幅提升算力。集群的具体位置和上线时间未公开。
  3. 大型语言模型Nova的推出: 亚马逊发布了自研大型语言模型Nova,强调其在多模态能力、成本和效率方面的优势,并表示其内部和外部客户都在使用多种不同来源的LLM,亚马逊推出Nova是为了提供更多选择。
  4. 与其他厂商的合作关系: 亚马逊与英特尔保持长期合作关系,对英特尔高层变动表示不担忧;期待英伟达Blackwell芯片的推出,并认为其性能将有显著提升;虽然目前没有与OpenAI合作,但表示未来可能根据客户需求提供OpenAI的模型,以提供更多选择。
  5. Bedrock平台的快速发展:  亚马逊的Bedrock平台发展迅速,用户数量一年内增长了5倍,客户正将其用于生产环境中的AI应用。

采访全文

主持人:  我们来聊聊超集群、超服务芯片以及大型语言模型的开发。内容很多,让我们从超集群开始。能否详细介绍一下这个将超过10万颗芯片集成到单一区域的AI硬件?为什么要这么做?它能提供什么?

马特·加尔曼:  是的,这是我们与合作伙伴Anthropic合作开发的项目,实际上将会有数十万颗芯片。它们专注于我们的新型训练芯片。我们预计这将为他们提供比上次模型训练多五倍的算力。我们对他们能够取得的成就感到非常兴奋。他们期望利用这个大型计算集群构建更大、能力更强的AI模型。

主持人:  它在美国有部署地点吗?除了2025年初之外,有确切的时间表吗?

马特·加尔曼:  没有,地点信息不便透露。

主持人:  Matt,那么技术挑战呢?为我们的听众描绘一下。在散热和能耗方面,这有多难?你们克服了哪些问题?

马特·加尔曼:  是的,首先,核心创新在于我们自己制造了芯片,名为Tranium 2,我们对其性能非常兴奋。这些芯片组合成大型超集群,每个节点包含64颗Tranium芯片,可提供83 petaflops的算力。因此,第一个创新是我们亚马逊自主设计的定制硅片,它为生成式AI能力提供了无与伦比的性能。然后,我们将其与我们内部开发的高性能网络相结合。当然,还需要建设数据中心来进行冷却、加热和供电。但这实际上始于底层的硅片。我们在AI的整个技术栈上进行创新,以确保我们可以控制集群中的所有内容。

主持人:  能否谈谈对比?这在很大程度上减少了对英伟达GPU的依赖,为您的客户提供了一种替代方案。客户能节省多少成本?他们能获得什么样的能源效率?

马特·加尔曼:  是的。首先,我认为我们可以将其视为英伟达GPU的补充。英伟达拥有非常棒的产品,他们的团队执行能力出色。我们认为,绝大多数工作负载在很长一段时间内都将继续在英伟达处理器上运行。但客户想要选择,他们想要能够为他们提供一些更低成本选择的方案。我们认为,对于某些工作负载,对于许多工作负载而言,Tranium 2可以为客户提供比目前的GPU驱动实例高30%到40%的性价比。因此,我们认为这对客户来说是一个巨大的优势,尤其是在他们寻求降低生成式AI工作负载成本的情况下。但我们将与英伟达成为伟大的合作伙伴,并继续与他们一起努力开发伟大的技术。

主持人:  Tranium 2已经问世,Tranium 3正在研发中。而英伟达目前估计占据约95%的市场份额。您是否认同这个数字?您认为这一份额将会下降到什么程度?

马特·加尔曼:  是的,我认为实际情况可能比这更高。我认为当今生成式AI中的绝大多数工作负载都在英伟达技术上运行。他们绝对是该领域的领导者。但我们确实听到客户表示他们希望有选择权。就像我们的处理器一样,我们与英特尔和AMD保持紧密的合作关系。但我们决定开发一款名为Graviton的通用处理器,它在我们的客户中获得了巨大的成功。但我们目前还在云端提供大量的英特尔和AMD处理器,这些业务也在持续增长。所以我预计我们客户对英伟达的使用也会持续增长,这种选择将会非常强大。随着生成式AI使用的爆炸式增长,我认为将会有足够的空间让多家公司都能取得成功。

主持人:  英特尔是你们的关键合作伙伴。您对英特尔高层变动有多担忧?

马特·加尔曼:  没关系。我祝帕特一切顺利。我认识帕特,他一直是我们很好的合作伙伴。但我们与英特尔合作已久。自从AWS和EC2首次推出以来,我们已经与英特尔合作了18年。我们将继续与英特尔保持良好的合作关系,他们拥有一个优秀的技术团队。我们期待继续推出英特尔的最新技术,让我们的客户能够使用。

主持人:  您一直在推出英伟达产品,正如您所说。上次您来的时候,我们还在谈论Blackwell。许多人对它的上市速度缓慢感到沮丧。您预计Blackwell会在什么时候推出?这有多难?

马特·加尔曼:  他们显然遇到了一些制造方面的问题,但我们对此非常期待。我认为Blackwell的早期回报和早期测试结果看起来非常棒。我们预计,Blackwell的计算能力将比H100提高近2.5倍。因此,我认为一旦我们推出这些产品,它将为客户带来实质性的飞跃。我认为这些产品将在明年初上市,我们很高兴能将它们交付到客户手中。一旦它们可用,我们就会尽快推出它们。

主持人:  然而,投资者们发现这种“亦敌亦友”的关系很奇怪。您真的认为投资者会认为:“我们希望看到英伟达的依赖,以及AWS拥有自己的产品”。您认为每个人都能接受这种状况吗?或者最终除了英伟达独赢之外,还会有其他公司崛起?

马特·加尔曼:  我认为这是合作伙伴关系。如果您考虑AWS,我们从一开始就考虑这种合作思维。我们围绕AWS构建了整个业务,思考AWS如何拥有服务,我们的合作伙伴如何拥有服务,以及我们所有人都有足够的空间来发展和壮大我们的业务。这对软件提供商、服务提供商和技术提供商都是如此。因此,我认为我们在过去18年中一次又一次地证明,AWS可以拥有产品,我们的合作伙伴也可以拥有产品。然后,当我们提供所有这些产品时,整个蛋糕会变得更大。因此,我认为双方都有充足的机会。所以这并不是……我认为这会产生一种“非此即彼”的有趣说法。但我们是英伟达的伟大合作伙伴,我们将继续保持这种关系。这一切都是为了让蛋糕变得更大。

主持人:  我们还要讨论大型语言模型。您发布了Nova。您表示,Nova在多模态方面,以及在成本和效率方面,都与其他产品进行了良好的比较。既然您已经提供了其他服务,为什么还要在LLM上投入如此多的资源?

马特·加尔曼:  是的。再说一次,这一切都是为了给客户提供更多选择。我认为我们亚马逊之所以投资这些模型,是因为我们找不到内部需要的功能和定制的完美组合。所以我们开始构建它们。在我们开始构建这些模型的过程中,我们发现这些模型实际上变得相当出色。基准测试结果非常好,我们看到了一些不错的功能。我们的模型在某些特定领域非常出色。它们非常擅长执行自主工作流程,非常擅长从大型索引中提取知识,而且延迟非常低,成本也很低。因此,我们认为这种能力对于许多用例来说都将非常有吸引力。我们在亚马逊内部找到了用例,但即使在亚马逊内部,我们也使用了多种不同的模型。我们使用了Anthropic的模型,使用了Meta和Llama的模型,还使用了许多其他来源的模型。所以,我希望客户能从这些新的Nova模型中看到很多价值。但我们也预计客户将以多种不同的方式组合许多不同的模型。

主持人:  你们还没有获得OpenAI的访问权限,原因显而易见,因为你们与微软的关系,但您认为这种情况会在某个时候改变吗?

马特·加尔曼:  我认为,只要客户有需求,最终总会有办法解决。OpenAI显然也有一套很棒的模型,我相信我们的许多客户都希望在Bedrock中使用它们。我们也很乐意在那里支持它们。

此外,我认为我们对这件事有长远的眼光。从长远来看,我们希望在亚马逊和AWS内部提供所有技术。这意味着我们希望在Bedrock中提供所有现有的模型,以及AWS内部的所有可用软件。

我们希望提供所有第三方提供的服务。这种方法与我们对客户选择的承诺相一致。因此,随着时间的推移,我相信我们很乐意在AWS中提供OpenAI模型。

我们绝对会倾听客户的意见。如果这是客户想要的,我们完全赞同。当然,由于合作关系涉及多个方面,正如您所暗示的那样,可能还有一些复杂的问题需要解决。但我认为,随着时间的推移,这种情况很可能会发生。

主持人:  在之前的业绩发布会上您说AI是一项数十亿规模的成长型业务,并且以100%增速发展,您能给出具体的增长数字吗?

马特·加尔曼:  你说得对。对我们来说,这是一个数十亿美元的业务,而且发展迅速。以Bedrock为例,这是我们的平台,许多客户都在其之上构建所有生产AI应用程序。仅去年一年,Bedrock的用户数量就增长了5倍。因此,构建它的用户数量正在迅速增长。我认为真正令人兴奋的是,人们使用Bedrock不仅仅是为了做概念验证,他们还在用它来深入集成他们自己的企业数据,并启动生产应用程序,我认为这尤其说明了这项技术的发展方向和发展程度。

主持人:  在充满不确定性的时期,客户愿意花钱,新一届政府即将上任。您是否看到任何担忧?

马特·加尔曼:  没有。我的意思是,看看过去18年来AWS的发展历程,我们与历届政府都有过合作,我们非常乐意与新政府合作。我认为,每个人都希望确保我们拥有技术的连续性,这里有很多机会。这就是我们推动经济发展的方式,我认为所有政府都希望继续确保我们能够推动经济向前发展。AWS是实现这一目标的重要推动者。因此,我们很高兴与新政府合作。我们显然正在密切关注世界各地的局势,以确保我们尽可能地保护我们的客户免受任何意外事件的影响。但是,我认为我们谨慎乐观地认为我们处于一个良好的状态。

关注公众号后设🌟标,掌握第一手AI新动态

往期精选

  1. 黄仁勋专访:OpenAI在大模型混战中达到“逃逸速度”
  2. 李飞飞与Justin深度解读空间智能:数字世界需要三维表征,才能与现实世界融合
  3. PayPal创始人彼得·蒂尔:人类科技停滞源于原子方面的进展远慢于比特
  4. 谷歌联合创始人布林:巨头们打造的“上帝模型”几乎可以理解一切
  5. 马斯克:AI将使商品和服务的成本趋近于零
  6. Karpathy最新专访:人形机器人、特斯拉、数据墙与合成数据


瓜哥AI新知
紧追AI业界一手观点、访谈、动态,点滴构建AI底层认知
 最新文章