黄仁勋：传统 SaaS 平台不会被 AI 颠覆，还将诞生无数AI 工厂｜亮马桥小纪严选

企业 2024-11-19 10:30 上海

小纪有话说：

不久前，硅谷知名风险投资人 Sarah Guo 以及 Elad Gil 采访了英伟达 CEO 黄仁勋（Jensen Huang）。

黄仁勋认为，英伟达已彻底改变了计算方式，推动了计算边际成本的大幅降低。他将现代计算描述为一个新的「AI 工厂」，这是一个不再只是存储数据，而是生成 AI 和智能体的新工业。

过去，数据中心主要用来存储和处理数据，但黄仁勋认为，未来的数据中心将演变为专门生成 AI 内容的「AI 工厂」，其生成的「token」可以重构为各种形式的智能，这种演变代表了一个全新的产业——AI 工厂，这将成为社会基础设施的重要组成部分，并被广泛应用于各行各业。

此外，黄仁勋认为，未来将出现大量特定于各 SaaS 平台的智能体，这些智能体在特定任务上具备极高的专业性。

例如，Salesforce、SAP 和英伟达的 Omniverse 都会有独特的智能体与各自的工具生态系统协同工作，这些 SaaS 平台并非会被颠覆，相反，它们将成为智能体创新的沃土。

以下为这场对话的主要内容。

来源于公众号”有新Newin“

Sarah Guo：

欢迎回来，仁勋，进入 NVIDIA 30 年之后，展望未来 10 年，你认为还有哪些值得下注的大机会？是否仅仅是扩大规模？在我们现有的架构中，是否面临如何挤出更多计算内存的局限？你关注的重点是什么？

黄仁勋：

嗯，如果我们退一步思考，我们经历了从编程到机器学习的转变，从编写软件工具到创建 AI，这些都在最初设计用于人类编程的 CPU 上运行，而如今则运行在为 AI 编程设计的 GPU 上，基本上就是机器学习。

因此，世界已经改变了我们进行计算的方式。整个技术栈发生了变化。因此，我们能够解决的问题的规模也发生了巨大的变化。

如果你可以在一台 GPU 上并行化软件，就可以为在整个集群上，甚至多个集群或数据中心上并行化打下基础。

我认为我们已经为能够在一个全新的层面上扩大计算规模并开发前所未有的软件做好了准备。

未来 10 年，我们的目标是每年在规模上（而非芯片级别）将性能提升 2～3 倍，从而每年将成本降低 2～3 倍，并将能耗降低 2～3 倍。当你每年都这样做，几年的积累就会非常显著。

因此，我不会感到惊讶，如果像大家所理解的摩尔定律那样——即每两年性能翻倍——我们会走上一条超摩尔定律的曲线。我完全希望我们能够继续实现这一点。

Elad Gil：

你认为是什么推动了这种比摩尔定律更快的速度？我知道摩尔定律是一种自我反思的过程，是一种提出来之后人们就会实施的方向。

黄仁勋：

是的，两个基本技术支柱。一个是 Denard 缩放，另一个是 Carver Mead 的 VLSI 缩放。这两种技术是严谨的方法，但这些方法确实已经到了瓶颈。

因此，我们现在需要一种新的缩放方式。显然，新的缩放方式涉及多种协同设计相关的事物。

除非你可以修改或改变算法来反映系统的架构，或者改变系统以反映新软件的架构，并来回调整，否则你毫无希望。

但如果你能控制这两个方面，你就可以做一些事情，比如从 FP64 转到 FP32，再到 BF16，到 FPA，到 FP4，等等。

所以我认为协同设计是其中的一个关键部分。第二个部分我们称之为全栈。第二个部分是数据中心规模。

除非你能将网络视为一种计算结构，将大量工作推向网络，推向计算结构，进而在非常大规模上进行压缩。这也是我们购买 Melanox 并开始积极整合 InfiniBand 和 NVLink 的原因。

现在看看 NVLink 将要发展到什么程度。计算结构将扩展成一个看似单个不可思议的处理器——一个 GPU。现在，我们有数百个 GPU 一起工作。

我们目前面临的计算挑战中最令人兴奋的之一，当然就是推理时间的扩展，这与以极低延迟生成 token 有关，因为正如你提到的，自我反思的过程会涉及树搜索、连锁思维，可能还会进行一定程度的模拟。

你会反思自己的答案，会自我激发生成文字，而希望在一秒内做出响应。要做到这一点，必须保持极低的延迟。

与此同时，数据中心的目标仍是生产高吞吐量的 token，因为我们希望控制成本、保持高吞吐量、提高回报。

因此，工厂的两个基本要素——低延迟和高吞吐量——彼此相悖。为了创造一个在这两个方面都出色的产品，我们必须去发明一些新的东西，而 NVLink 是我们实现这一目标的方式。

现在你有一个虚拟 GPU，拥有大量计算能力，因为你需要它来提供上下文支持。你需要大量的工作内存，同时还要有极高的带宽用于生成 token。正如我想的那样。

Elad Gil：

与此同时，你也有很多人在构建模型并进行非常显著的优化，比如 David 和我的团队在过去 18 个月里获取的数据表明，GPT-4 等效模型的百万 token 成本基本上下降了 240 倍。因此，在这方面也进行了大规模的优化和压缩。

黄仁勋：

是的，仅在我们工作的这一层上，我们非常关心的是我们栈的生态系统和我们软件的生产力。

人们经常忘记，因为有了 CUDA 的基础，所以在这个坚实的基础上，以上的部分可以随意改变。如果基础不断变化，你就很难在上面建造一座建筑，难以在上面创建任何有趣的事物。

CUDA 使我们得以快速迭代，仅在去年，我们就回头对比了 LLaMA 刚推出时的表现，发现 Hopper 的性能提升了五倍，而算法和上层没有任何变化。

在一年内提升五倍是传统计算方式无法实现的，但已在异构计算中实现。使用这种协同设计方法，我们能够引入各种创新。

Sarah Guo：

你的大客户有多关注其基础设施在大规模训练和推理之间的互换性？

黄仁勋：

嗯，基础设施现在是解耦的。Sam 刚刚告诉我他最近退役了 Volta。它们有 Pascal、Ampere 等各种不同配置的 Blackwell。部分设计为空气冷却，部分为液体冷却。你的服务需要利用所有这些。

NVIDIA 的优势在于你今天为训练构建的基础设施，明天在推理方面也会表现出色。我相信大多数 ChatGPT 都是在最近刚训练的相同系统上运行的推理。因此，你可以在训练系统上进行推理，留下了一条非常出色的基础设施。

你可以对投资的基础设施充满信心，因为 NVIDIA 和整个生态系统将继续优化算法，使你的基础设施在一年内提升五倍。这种发展不会改变。

人们思考基础设施的方式就是这样，即便今天建的是用于训练的，它必须适合训练，我们知道它也会适合推理。推理会是多规模的。

首先，你可以将更大的模型提炼成较小的模型，从而创建用于前沿工作的模型，可以用于合成数据生成、大模型训练小模型、再压缩成更小的模型。

因此，你可以做很多事情，但最终你会有从巨型模型到微小模型的整个模型链。微小模型非常有效，虽然不具备广泛的适应性，但在某一任务上非常出色。

我们将会看到超级人类水平的微小任务可能来自一个微小的模型，也许这不是一个小型语言模型，但可能是微型语言模型，TLMs 或其他。我认为我们会看到各种大小的模型，并希望这条路线是对的。

就像今天的软件一样。在很多方面，人工智能使我们可以更轻松地创建新应用程序，但关于计算的一切几乎保持不变。例如，维护软件的成本依旧高昂。

一旦你创建了软件，你希望它能在尽可能大的安装基数上运行，不希望重复开发同样的软件。很多人仍有这种期望，希望通过工程推进发展。

因此，如果架构允许你今天创建的软件在未来的新硬件上运行得更好，那太棒了，或者你明天创建的 AI 能在一个大的安装基数上运行，那也很好。这种思考软件的方式将不会改变。

Sarah Guo：

变化。NVIDIA 已经逐步扩大对客户的支持规模，从单一芯片到服务器，再到机架甚至 NVL 72。你如何看待这个进展？接下来会怎样？NVIDIA 是否应该提供完整的数据中心？

黄仁勋：

实际上，我们以构建一切的方式来构建完整的数据中心。如果你在开发软件，你就需要完整形态的计算机。我们不会只是制作 PowerPoint 幻灯片或仅发送芯片，而是构建整个数据中心。

直到我们构建出整个数据中心，才能知道软件是否正常运行；直到构建出整个数据中心，才能知道你的架构是否运行有效，所有预期的效率是否能够实现。这就是为什么在现实中看到某些人的实际性能远低于他们在 PowerPoint 中展示的峰值性能并不罕见。

计算已经不再是以前的样子了。我会说新的计算单元是数据中心，这对我们而言就是要交付的东西，我们就是这么做的。

我们就是以这种方式构建整个系统。然后我们为每种组合构建冷却方式（如空气冷却）、架构（如 x86、Grace）、网络连接（如 Ethernet、InfiniBand、NVLink）等配置。公司目前有五台超级计算机，明年我们将轻松新增五台。

如果你对软件是认真的，你就会构建自己的计算机，如果你对软件是认真的，那么你会构建整套计算机系统，而且我们在规模上构建这一切。

真正有趣的部分是我们在规模上构建并垂直集成，我们进行全栈优化，然后解耦每个部分并销售模块化组件。这种做法的复杂性实在令人震撼。

原因在于我们希望能够将我们的基础设施融入 GCP、AWS、Azure、OCI，它们的控制平面和安全平面各不相同，集群大小的考虑也不同，但我们使它们都能兼容 NVIDIA 的架构，这样它就可以无处不在。

最终的核心想法是，我们希望拥有一个计算平台，开发者可以使用它，在很大程度上是统一的、模块化的，可能会有 10% 的调整以适应不同的基础设施优化需求，但他们构建的任何东西都可以在各处运行。

这是软件开发的一个原则，不应被放弃，我们非常珍视这一点。它使我们的软件工程师能够一次构建，随处运行。

我们认识到软件的投资是最昂贵的，而且测试很容易。看看整个硬件行业的规模，再看看全球各个行业的规模，硬件是万亿级，而行业是百万亿级，这说明了什么。

你构建的软件基本上要维护到你有生之年。我们从未放弃过一块软件，CUDA 之所以被使用，是因为我告诉所有人我们会维护它直到永远。我们是认真的。我们仍在维护。

前几天我看到了一篇评论，提到 NVIDIA SHIELD，我们的 Android TV，这是世界上最好的 Android TV，七年前发布的，它仍然是喜爱电视的人群的首选 Android TV。上周我们刚更新了它的软件，大家还在写新报道。

GeForce 拥有 3 亿全球玩家，我们从未抛弃过其中任何一个。因此，我们的架构在不同领域的兼容性使得我们能够做到这一点。

否则，我们的公司需要的开发团队规模可能会比现在大百倍。这就是我们对这一点的重视，这也带来了开发者的好处。

Elad Gil：

最近令人印象深刻的一个例子是，你们为 X.AI 迅速建成了一个集群。你可以谈谈这个吗？因为在规模和速度上都很惊人。

黄仁勋：

你知道，这要归功于 Elon。首先，决定做这件事，选址，提供冷却和电力，然后决定建造一个 10 万 GPU 的超级集群，这是同类中最大的一个单元。

然后我们倒推，开始规划他预定的上线日期，几个月前就确定了上线时间。

所有组件、OEM、系统、与他们团队的软件集成、网络仿真，我们预先配置了所有网络，搭建了数字孪生，预配置了所有供应链，布线网络、接线的先期版本等——所有这些都在零号系统上预先测试过。

等到一切到位，所有演练都完成了，集成完成，甚至是大量团队 24 小时不间断地布线，在几周内完成了集群部署。

这确实体现了他的意志力，以及他如何克服那些看似不可能的挑战。这是首次在如此短时间内完成如此规模的计算机，除非两支团队从网络到计算、软件、训练、基础设施、电气工程、软件工程等各方面都通力合作。这确实很棒。

Sarah Guo：

在这个过程中，从工程角度看，有哪些看似最可能阻碍进展的挑战吗？

黄仁勋：

大量的电子设备必须协同工作。可能值得去量化它的规模，真的是几吨设备。这种超算系统通常从交付第一批系统到真正投入严肃工作可能需要一两年，这并不罕见。

我们负担不起这样的时间成本，所以几年前在公司内发起了“数据中心即产品”计划。我们不作为产品出售，但我们必须像对待产品一样对待它，从规划、上线、优化、调试、保持运行，目标就是像打开一个新的 iPhone 一样，一切自动运行。

当然，要实现这一点是技术的奇迹，但我们现在具备了这种能力。所以如果你对数据中心感兴趣，只需要给我空间、电力和冷却条件，我们会在 30 天内帮你搭建好，这真的非常了不起。

Sarah Guo：

这太疯狂了。如果你展望未来，想到 20 万、50 万，甚至 100 万 GPU 的超级集群，或者随便怎么称呼它。到那个时候，你认为最大的障碍是什么？是资本、能源供应，还是区域集中？

黄仁勋：

所有的一切。你提到的这些规模，没什么是正常的。

Sarah Guo：

是啊，没有什么是。

黄仁勋：

不可能的。没有物理法则的限制，但一切都会很难。当然，值得去做吗？绝对值得。为了让我们所认为的计算机能够如此轻松、如此准确地完成我们要求它做的事情，即便不是通用智能，只是接近它，就已经是奇迹了。我们知道这一点。

所以，我认为有五六个努力方向去尝试实现这个目标，对吧？我认为当然有 OpenAI、Anthropic、X，以及 Google、Meta 和 Microsoft，接下来攀登的这几步对他们都至关重要。

谁不想第一个到达？我认为重新发明智能的奖励非常之大，值得去尝试。因此没有物理法则的阻碍，但一切都会很难。

Sarah Guo：

一年前我们一起讨论时，我们问你 NVIDIA 在 AI 和其他方面下一步最令人兴奋的应用是什么，你提到了一些极端客户带你前往的方向，以及一些科学应用。我想过去一年里这方面已被你们主流化了。科学和 AI 的科学应用依旧是你最感兴趣的吗？

黄仁勋：

我非常喜欢我们有数字化的 AI 芯片设计师。对，我喜欢我们有 AI 软件工程师。

Sarah Guo：

我们的 AI 芯片设计师现在效率如何？

黄仁勋：

非常好。没有它我们无法打造 Hopper，因为它们可以探索比我们多得多的空间。因为它们运行在超级计算机上，有无限时间。

而我们使用人类工程师时间有限，无法探索足够多的空间，也无法做协同探索。

我无法在探索我的设计空间时加入你的探索结果。我们的芯片非常庞大，不像是一个芯片的设计，几乎是 1000 个芯片的设计。

我们需要在隔离的情况下优化每一个模块。你真的希望能够联合优化多个模块，跨更大的空间进行协同设计。

但显然，我们将能够在某处局部最小值后找到局部最大值，从而找到更好的答案。没有 AI 是做不到的。工程师们根本无法完成，因为时间不够。

Elad Gil：

自我们上次交流以来，另一件大事发生了变化，我查了下，当时 NVIDIA 的市值约为 5000 亿美元，现在超过了 3 万亿美元。

在过去的 18 个月里，你们增加了 2.5 万亿美元的市值，相当于每月增加 1000 亿美元，或 2.5 个 Snowflake，或者加上 Stripe 一点或两国的 GDP。这期间显然在专注和构建方向上保持了一致性。

今天早些时候走访这里时，我感受到类似 15 年前在 Google 那种公司的活力和兴奋。期间发生了什么变化吗？或者 NVIDIA 在功能、对世界的看法、能做的赌注规模上有什么不同吗？

黄仁勋：

我们的公司不可能像股价一样快速变化，这必须明确。在很多方面，我们没有发生太多变化。我认为，关键是退一步问自己：我们在做什么？这才是大觉醒，不仅是对公司也是对国家的重要观察。

我认为，回到我们行业的视角，我们重新定义了计算，这 60 年来没有发生过的重大变革。在过去 10 年，我们将计算的边际成本降低了大约 100 万倍，到了现在的程度，我们可以让计算机去全面编写软件，这是一个重大发现。

某种程度上，我们也在谈论芯片设计。我们希望计算机能去发现一些我们自己无法做到的东西，探索我们的芯片，并以我们无法做到的方式进行优化。类似于我们希望它能在数字生物学或其他科学领域实现的那样。

所以我认为人们开始意识到，当我们重新定义了计算，这究竟意味着什么。突然之间，我们创造出了所谓的“智能”。计算发生了什么变化？从多租户文件存储的数据中心，转变为这些新数据中心不再是数据中心了。

它们通常是单租户，并不存储我们的文件，而是生产一些东西——它们生产 token，这些 token 被重构成某种“智能”。对吗？各种形式的智能，可能是机器人运动的表达，可能是氨基酸序列，可能是化学链条或其他有趣的东西。

那么我们在做什么呢？我们创造了一种新的工具，这是一种全新的生成 AI 的工厂。我们正以极大的规模在生产 AI。

人们开始意识到，这可能是一个新行业。它生产 token，生产数字，但这些数字以一种相当有价值的方式构成。那么哪个行业会受益？

然后我们再退一步思考，NVIDIA 一方面是重新定义了计算机，这让我们意识到有万亿级的基础设施需要现代化，这是其中的一层。

但更大的一层是，我们构建的工具不仅是为了数据中心，而是用于生产一种新商品。这种新商品的规模多大？很难说，但可能值万亿。

所以我认为观众们可以退一步思考一下，我们不再仅仅制造计算机了，我们制造的是工厂。每个国家、每家公司都会需要它。谁能说不需要生产智能，因为已经够多了呢？这才是大想法。

未来人们可能会意识到，半导体行业不仅仅是制造芯片，而是为社会构建基础结构的核心。这不只是芯片的问题。

Sarah Guo：

现在你如何看待“具体化”？

黄仁勋：

我非常兴奋的是，我们不仅接近人工通用智能，还接近人工通用机器人。token 就是 token，问题是能否将其转化为具体动作。你们知道，将一切都 token 化并不容易。

但如果能做到并与大型语言模型和其他模态对齐，如果我可以生成一个视频，展示 Jensen 伸手去拿咖啡杯，为什么不能提示一个机器人生成 token 去实际拿起杯子呢？

直观上，你会认为对于计算机来说，这种问题的表述相似，因此我认为我们非常接近了，这非常令人兴奋。

现在，我们有两种现成的机器人系统。现成系统指不需改变环境的，即自动驾驶汽车和人形机器人。在汽车和人形机器人之间，我们可以将机器人带入世界而无需改变世界，因为我们为这两者设计了世界。

也许 Elon 正在专注于这两种形态并非巧合。机器人的应用规模可能会更大，因此我认为这是令人兴奋的。而它的数字版也同样令人兴奋，我们在谈论数字员工或 AI 员工。

毫无疑问，未来会有各种 AI 员工，我们的公司可能会有生物员工，也会有人工智能员工，我们会以相同的方式提示它们，是吧？我们大多数时候是向员工提供上下文、分配任务，他们会招募其他团队成员，一起工作来回沟通。

未来数字或 AI 员工与此又有什么不同？所以我们将拥有 AI 营销人员、AI 芯片设计师、AI 供应链人员等等。希望未来 NVIDIA 能在生物学上变得更大，同时从人工智能角度也更加庞大。这就是我们的未来公司。

Sarah Guo：

如果我们一年后再来找你聊一聊，你认为公司中哪个部分会最具人工智能化？

黄仁勋：

我希望是芯片设计。

Sarah Guo：

好，那最重要的部分呢？

黄仁勋：

是的，因为我们应该从最能推动进步的地方开始，也是我们能够产生最大影响的地方。这真的是一个极其艰难的问题。

我和 Synopsis 的 Sasina 合作，和 Kings 的 Andrew 合作。我完全可以想象他们会有专门的 Synopsis 芯片设计 AI 可以租用。它们对某个特定模块有专业知识，通过 AI 训练得非常出色。

到我们需要的时候，我们就雇佣一大群这样的 AI。处于芯片设计的那个阶段时，我可能会租用 100 万名 Synopsis 工程师来帮忙，然后再租用 100 万名 Cadence 工程师。

这对他们而言是一个激动人心的未来——他们拥有这些基于工具平台、协同其他平台的智能体。而 Christian 会在 SAP 中这么做，Bill 会在服务中这么做。

现在，有人说这些 SaaS 平台会被颠覆，而我却认为恰恰相反。它们正坐拥金矿，将会有大量专精于 Salesforce、Lightning、SAP 等平台的智能体出现。

我们有 CUDA 和 Omniverse 的 OpenUSD，我们会创造出在 OpenUSD 上非常出色的 AI 智能体，因为没有人比我们更关心它。我认为这些平台将会繁荣发展，各种智能体将相互协作并解决问题。

Sarah Guo：

你在 AI 的每个领域都看到有各种人参与。你觉得哪些领域被忽视了？你希望更多创业者、工程师或商业人士去关注哪些方面？

黄仁勋：

首先，我认为被误解的，可能是被低估的是，在科学和工程学的基础之上，AI 正在改变科学、计算机科学的底层工作。

现在无论走进哪个科学系，或理论数学系，AI 和机器学习都正在或将要转变它们的研究方式。

如果我们把全世界的工程师、科学家集合起来，你会发现他们今天的工作方式已经是未来的早期迹象，这将会掀起 AI 和机器学习浪潮，在短时间内改变我们的一切。

我记得当初看到计算机视觉的早期迹象时，曾与 Alex、Elian 和 Hinton 一起工作，在多伦多与杨立昆合作，当然也在斯坦福与 Andrew Ang 合作。

我们有幸从猫的识别中推演出了计算机科学的重大变革，并因此受到启发，改变了一切。这一过程花费了大约六年时间，从观察到 AlexNet 这样的玩具级模型，再到超越人类的物体识别能力，只用了几年时间。

如今在各个科学领域，不再有被落下的学科。量子计算、量子化学等科学领域都在采用我们今天讨论的这些方法。

如果给我们两到三年时间，世界将会改变。科学和工程的每一次突破背后都将有生成 AI 的支持。我对此非常确定。我经常听到有人质疑这是不是一场潮流，只需要回到基本原理，看看实际发生的变化。

计算的技术栈发生了变化，编写软件的方式改变了，这非常重要。软件是人类编码知识的方式，编码算法的方式。而现在我们以完全不同的方式编码它，这将影响一切，没有什么会保持不变。

我觉得我在和一群志同道合的人交谈。我们都看到了同样的趋势，以及与我合作的科学家和工程师，这一切都将一起前行。没有任何人会被落下。

Sarah Guo：

我觉得从计算机科学的角度看，能在不同的科学领域见证这一点非常令人兴奋。我现在可以去机器人会议、材料科学会议、甚至生物技术会议，虽然不一定了解所有科学细节，但在推动发现的过程中，所用的算法几乎都是相同的。

黄仁勋：

确实如此，其中包含一些通用的统一概念。

Sarah Guo：

看到这些算法在各个领域都如此有效，真的很激动人心。

黄仁勋：

完全同意。我每天都在用它。你们知道吗？它现在是我的导师。我不会再绕远路学习了，只要直接去 AI 处学。

我直接去 ChatGPT 或 Perplexity，根据我的问题去学习。然后，如果愿意，可以深入探索。真是不可思议。

几乎我所知道的一切都会去 AI 那里验证，甚至是我认为绝对正确的东西。我会去 AI 处双重确认。这真的非常棒。几乎我所做的每件事，我都让 AI 参与。

温馨提示：虽然我们每天都有推送，但最近有读者表示因平台推送规则调整，有时候看不到我们的文章~

欢迎大家进入公众号页面，右上角点击“设为星标”点亮⭐️，收藏我们的公众号，新鲜内容第一时间奉上！

*文章观点仅供参考，不代表本机构立场

纪源资本

不止是VC。