黄仁勋:通向成功的道路并不是一个接一个的成就,而是巨大的挫折

时事   2024-10-27 22:01   河北  

点击上面免费订阅本账号!

作者:黄仁勋

来源:蓝血研究(lanxueyanjiu)

近日,黄仁勋和ARM CEO Rene Haas有一个对话,关键信息如下:

1、英伟达公司虽然规模很大,却像是世界上最小的“大公司”。黄仁勋一直强调,要信息透明地解释公司愿景、战略以及公司成功原因。他倾向于在信息透明方面犯错,而不是限制信息,要让每个人都清楚公司正在做什么。

2、英伟达是一家全栈计算公司,所以要打破组织的“孤岛”,让所有的孤岛变得具有渗透性。公司真正的老板是“任务”,它跨越整个公司。

3、作为英伟达创始人,必须习惯于“痛苦和煎熬”。成功的旅程并不是一个接一个的成就,而是一个又一个挫折的故事,这是英伟达公司之所以强大原因。

4、架构兼容性非常重要,在架构上要有纪律性。例如,CUDA理念不是因为有数百万人在为它编程,而是有几亿块与之兼容的GPU。将来编写的所有软件都要在现有的安装基础上运行,必须维护它。英伟达会改变某些技术的部分来推动系统设计的进步,而不需要放弃昨天所做的一切。

5、“能效至关重要,这就是一切”。英伟达正在尽可能“压缩”单柜的功率密度,基于GB200单柜功率是120千瓦,后面会到200千瓦,有专家预测未来路标是一柜1M千瓦。英伟达会尽可能使用铜导电(单个机柜的密度压缩),除非不得不转向光信号(跨框联接)。所以,未来超节点和集群的供电、散热会越来越挑战,是核心竞争力之一。

6、面对摩尔定律逐渐失效的现实,黄仁勋强调英伟达通过“协同设计”来实现指数级性能提升。每年英伟达都会设计六七种新芯片,并改进系统架构,如引入NVLink交换机、3D封装等技术,从而在相同的能耗和成本下实现两到三倍的性能提升,这种策略在很大程度上加速了AI计算的普及。

7、黄仁勋还提到,在塑造市场和引导行业发展时,“教学”比“广告”更重要。英伟达通过教育市场、展示技术应用来获得更多用户和合作伙伴的支持。这种教学式的市场引导方式有助于让生态系统的各个参与者理解技术的价值,并逐步接受新的计算理念。

以下为这场对话的全部内容:

ReneHaas:见到你很开心。这次回到英伟达真是太棒了。我在这里工作的时候,这栋大楼还不存在呢。

JensenHuang:那是多久前的事了?二十年?

ReneHaas:我2006年开始在这里工作,2013年离开。是的,差不多二十年前。这些大楼当时都还不存在。不过现在回来感觉依旧很亲切。感谢你抽出时间,邀请我来。

如今英伟达已经成长得如此之大,有件事我一直很感兴趣,就是公司的招聘文化确实非常独特。英伟达以一种独特的方式做事,你是如何识别那些在英伟达会取得成功的人才的?

JensenHuang:我们并不总是能做到这一点。看看你就知道了,这其实总是有点碰运气的成分。我认为面试并不是评估一个人是否合适的最佳方式。

每个人都能在面试时表现得很出色,甚至可以通过观看YouTube学习如何面试。当然,技术性的问题,我们会尽可能严格和困难,但这并不容易。我个人的做法通常是回到参考检查,询问我本来打算问候选人的问题。

因为你总可以在某个时刻表现得很出色,但你无法逃避你的过去,所以这种方法还不错。我喜欢问一个深入的问题,然后观察他们的思维过程。

但最终,英伟达对很多人来说都是成功的。正如你所知道的,我们的流失率非常低,公司内部非常多元化,有很多有趣的人和背景。我们有来自几乎所有顶级公司的员工,并且我们在这里让他们都能成功。

因此,从某种意义上说,建立伟大的公司一方面是找到优秀的人才,另一方面则是创造条件,让这些人超越他们自己的预期。

这很大程度上取决于我们对英伟达的愿景和战略进行的透明解释。我花了很多时间在这方面。公司一直以透明著称,会解释我们面临的挑战、机会以及执行的战略。信息在公司内部流通得非常顺畅,大家都清楚公司的战略是什么。

我总觉得,当公司有太多的分隔或需要知道的基础时,情况会有点奇怪。当然,人们确实不需要了解他们不需要知道的事情。但他们知道得越多,就越有能力为公司做出正确的决策。

所以我倾向于更透明,倾向于赋予员工更多的权力。因此,公司成了世界上最小的大公司。这种高生产力来源于我们拥有的3万多名员工,他们每天都在做出数百个决定。

如果所有3万名员工都在同一个方向上,即使是在模糊的情况下做出决策,但他们的选择都是为了公司的长期最佳利益,那么这种积累是非常有意义的。

ReneHaas:其中一个让我总是惊讶的事情就是,你提到的那一点——我不知道这是因为招聘到合适的人还是自我选择的结果,但拥有那些在面对不确定性时非常自信的高级领导,并且你会深入公司各个层级,把正确的人召集到一起,解决问题。这是如何形成的?

公司成长过程中,你和愿景一致的高级领导一起成长,这一文化自然而然地形成了吗?因为这真的很令人惊叹,当我在英伟达工作时,许多高层领导都非常适应这种情况,你能够直接找到合适的人,一起解决问题。

JensenHuang:首先,我没有特别询问他,你记得我也记得。而这是因为有些事情是显而易见的,不需要去征求许可。

所以我们设置这样的方式,是因为英伟达从一开始就是设计成一个全栈计算公司,我们的目标是构建GPU、CPU、网络芯片和交换机,我们会设计芯片架构,开发系统软件,创造算法,甚至求解器。

如何组织这样的事情呢?一方面所有东西必须协同工作,另一方面又需要分阶段构建。因此,我们解决这个问题的方法是,避免组织上的孤立,将组织视为一个地方,领导者可以培养人才,为他们创造成功的条件,帮助他们排除障碍等等。

而真正的老板是任务本身,它横跨整个公司,涉及系统、芯片、网络交换机、软件和算法等领域。通过这样的组织方式,我们还实现了透明化,打破了各个孤立的部门。

组织结构越开放,往往会越好,因为有更多人可以帮你批评和改进。我非常喜欢我们公司的开放性,一切都是透明的,每个人都在帮助我改进。

ReneHaas:差点就被你们收购了,那应该会很有趣。但你们收购了Mellanox。

JensenHuang:你还为此难过吗?

ReneHaas:是啊,每天我都会小小地伤心一下,但我还是在这里,谢谢。

JensenHuang:但你们表现得非常好。

ReneHaas:你们收购了Mellanox,这不仅在战略上是一次极好的收购,而且从外部来看,你们的执行看起来非常无缝。这样的整合是怎么做到的?并购过程通常非常艰难。

JensenHuang:确实非常艰难。首先,Mellanox管理团队中有十到十二人现在是英伟达以色列管理团队的成员,参与了公司高层会议。

我们涵盖了架构、研究、软件系统、芯片、网络接口控制器和交换机。我们现在有NVLink交换机,最初只有Infiniband产品线,现在还有完整的以太网产品线。

在这短短的时间内,Mellanox的产品组合已经增长了四倍,并整合到了我们所做的每一个方面。

如果你回顾这次转型和收购,我们的愿景是计算单元不再仅仅是一个GPU(以前是辅助设备)。

实际上,收购帮助我们从算法公司,也就是GPU公司,过渡为一家真正的计算公司。这是我们进入的第一步。

最初,构建SoC(片上系统)对我们来说并不容易,现在我们已经做得很好。接下来的演进是构建系统,DGX1是我们的第一个产品。我对Shield(我们的Android电视)也非常有感情,因为它是我们最初创建的完整系统。

ReneHaas:开发Shield的过程肯定很令人难忘。当时我们还在摸索如何做到这一点。

JensenHuang:是的,它至今仍是最受欢迎的Android电视盒。回想起来,当时它就像是PlayStation或Xbox控制器带显示器,我们都在思考如何实现这一切。这是英伟达最让我喜欢的产品之一。

ReneHaas:几乎都快忘了这段经历,但这确实是个系统性学习的过程。

JensenHuang:我学到了很多,至今我们还在维护相关的软件。

ReneHaas:最初很难看出市场对此有需求,团队突然需要为整个产品线采购零部件,真是让人措手不及。

JensenHuang:这是我让英伟达转型为系统公司的借口,DGX1是改变一切的计算机。

ReneHaas:很大的Shield。

JensenHuang:没错。所以对我来说,虽然Shield是用塑料做的,而DGX1重达600磅,这种转变并不算什么大事。真正重要的是,我们现在能够构建系统。

而当我们收购Mellanox时,真正的理念是计算机不再仅仅是一个节点,而是整个数据中心成为计算的单位。

如果你不设计好GPU、CPU、网络接口、交换机、所有的收发器,并把它们全部连接在一起,能够从无到有启动这个系统,将所有组件有序地运行并分布工作负载,那么你就无法真正理解构建这些AI超级集群的意义。

这个转型和愿景非常清晰,以至于能够团结两支团队。为了凝聚团队,你需要有一个非常清晰的愿景,对吧?

我们的愿景非常明确,而且这个愿景也是非常具体的,因为你可以看到它在你面前运行,有超级集群,有来自两家公司的所有设备,所以这个愿景是清晰且鼓舞人心的。

对于CEO来说,需要将抽象的事物变得具体化,然后我们就去构建它了。不仅如此,我也认为他们的文化也很棒。

ReneHaas:这种清晰性确实帮助很大。不过回到愿景本身,还有一个故事我想说说,比如早期CUDA的应用追逐油气行业,这完全不明显。

JensenHuang:大家当时并没有意识到,那其实是我们的第一个项目。

ReneHaas:确实,那是第一个,完全看不出真正的杀手级应用或最终状态是什么。然而,你们对早期的创意和实验展现了惊人的韧性,哪怕市场似乎没有准备好,甚至对这个定义还不明确。这是直觉的体现吗?还是说这种能力从何而来?

JensenHuang:我们确实有很好的直觉,你知道,公司成立以来有大约十次这样的时刻。英伟达的优势在于我们周围都是非凡的人才,世界上最优秀的计算机科学家、战略家和商业人士,他们没有自负之心,想要做伟大的事情。

我认为我们起点很好。其次,我们的直觉也很好,特别是在判断哪些问题需要解决,以及如何从现在走向我们想成为的公司。我们对于要实现的各种阶段性目标有很好的直觉。

比如当有人问我,为什么要打造Shield,这不是浪费时间吗?我说,总有一天我们会成为一家系统公司,而所有这些系统都会连接到云服务上。为什么要在最庞大的系统上消耗精力,不如先做这个小的。

如果我们连这个都做不好,那么更大的就更不用说了。我们需要为公司创造条件,让它可以学习新技能、尝试失败,而不会对自身造成损害。

ReneHaas:这种情况只有在公司领导者是创始人的时候才能发生吗?毕竟,很少有公司能做到你刚才描述的这些,无论是在愿景的清晰性方面,还是在持续理解前进方向的韧性上。最近关于“创始人模式”和“管理者模式”的讨论很多。

显然,你作为创始人,在公司成立30年后仍然领导着公司,并取得了巨大的成功。那么,你所描述的这种成就是否只能由创始人领导公司时才能实现?

JensenHuang:我不这么认为。我认为你在Arm做得很出色。看到你在工作时的表现,我非常自豪。

ReneHaas:这是真的,我从你身上学到了很多。

JensenHuang:看到你工作让我感到快乐和骄傲。我不认为只有创始人能做到这些。我认为确实需要极大的韧性和坚持。我通常把它描述为痛苦和折磨,这是成长的过程。痛苦和折磨是不可避免的,我深有体会,而且你必须习惯这种感觉。

通向成功的道路并不是一个接一个的成就,而是有巨大的挫折,有时甚至是令人尴尬的时刻。作为CEO,你还没经历这些,但它会发生。我希望它发生,因为这对你有好处。

你知道,那些时刻,我不确定学到了什么,但它确实让我变得更强大。我知道我可以挺过去。当时我可能不喜欢这些经历,但回头看,那些就是让你为自己和公司感到骄傲的时刻。

所以我认为我们的公司之所以强大,是因为我们有很多这样的故事。这家公司里充满了一次又一次挫折的非凡故事。

ReneHaas:而且经历过这些的领导者很多。

JensenHuang:是的,大多数人都会觉得:“这不算什么,这比起以前的某个挫折轻多了。”每次遇到挑战时,我们都会想起那些更艰难的时刻,反而让公司更有能力应对当前的挑战。

ReneHaas:你我在这个行业的时间差不多长。现在AI的某些进展让我感到,这是我以前从未想过的,我原以为只有下一代人才能见证这种变革。现在的感觉,就像进入了“终极前沿”,我无法想象AI之后还会有什么。

你怎么看?我们是不是加速进入了一个前所未有的变革时期?还有什么能在这之后到来吗?现在所看到的一切真是令人难以置信。

JensenHuang:我一直认为计算机会表现出智能行为,我们可以编写出非常好的软件,我以为我们会手动编写这些算法,让它们最终解决问题,使得计算机看起来很智能。但我从未想过这会引发一场工业革命。

我的意思是,你听我说过的,现在计算机行业首次超越了传统的计算机行业。我们不再仅仅是一个工具或仪器,而是一个制造行业。就像现在,我们的手机在口袋里没有被使用时,它对我们没有任何作用。

大多数计算机也是这样的,比如我的笔记本电脑放在办公室时没在运行。你需要工具时,才去使用它。

然而,现在的AI工厂则不一样,这是我们正在构建的一个新行业,它们始终在运行,无论你是否在使用。它们在处理数据、生成“智能代币”,以非常大规模制造智能。这种计算机从工具转变为制造设备,并大规模生产极有价值的东西,这是一次全新的工业革命。

ReneHaas:你参与了从AlexNet到DGX1的整个过程,见证了这一切。AI的进展速度比我想象的要快得多,比两年半前甚至一年前的预测要快得多。作为其中的核心人物,这是否比你想象的还要迅速?

JensenHuang:我们正努力加快进展,现在已经进入了一年一个周期。原因是技术有机会快速发展,特别是因为我们现在不仅仅是在制造芯片。

芯片的进展速度是有限的,就算使用新工艺节点,能够获得几个百分点的提升已经很了不起了。那么,我们如何在每一代中实现指数级的性能提升呢?

我们的方法是为每个系统设计六七种新芯片,然后通过协同设计重新发明整个系统,发明新的东西,比如NVLink交换机、新的系统机架,使我们能够通过系统的整个背板驱动铜缆连接所有GPU,以及使用大型封装、3D封装等各种技术。

通过这些技术手段,我们每年可以在相同的能量和成本下实现两到三倍的性能提升。这也相当于每年将AI的成本降低两到三倍,这个速度远远超过摩尔定律。

因此,如果你将这种进步持续五六年甚至十年,我们就能够极大地降低智能计算的成本。

我们之所以这样做,是因为现在大家都认识到了这一技术的价值。如果我们能够大幅降低成本,我们可以在推理时做一些事情,比如推理过程。

像现在使用ChatGPT时,它加载提示并生成输出。但未来,它将会迭代推理出答案,或许会进行树搜索,也可能会自我反思答案,最终得出结果。

它可能会进行数百次甚至上千次推理,但答案的质量会显著提升。我们希望降低成本,以便能够以与过去相同的成本和响应速度提供这种新的推理推理。

ReneHaas:我看到过OpenAI模型的演示,它进行推理时令人震惊。它使用了逻辑树,做出了权衡决策,就像人类一样,但速度完全超越了人类的思考方式。

ReneHaas:现在情况更有趣了。你们正在以一个前所未有的速度引入系统和整个数据中心基础设施。以前CPU每两三年更新一次,最终被折旧。现在你们每年都在构建系统,人们都迫切希望尽快部署这些系统。

JensenHuang:是的,现在说起来很简单,但你知道,我们每年都在交付像这个房间大小的新计算机,包括所有的电缆、网络、交换机、软件,这真的很疯狂。

ReneHaas:我想问一个更具前瞻性的问题,这不仅仅是技术吸收的问题,这样的速度还能继续保持吗?

JensenHuang:我认为可以,但必须以系统化的方式进行。也就是说,我们在架构上的一切操作都要系统化。这意味着为昨天的集群(比如Hopper)开发的软件也可以在Blackwell上运行,并且Ruben上的软件也可以运行在Hopper上。

这种架构兼容性非常关键,因为行业在软件上的投资是硬件的1000倍,而且软件永远不会过时。如果你开发了软件,并发布了它,那么你就必须一直维护它。所以,CUDA的想法不仅仅是有数百万人在为其编程,而是数亿个兼容的GPU,软件不会消亡。

ReneHaas:软件永远不会消亡。

JensenHuang:所以,你在一个GPU上的投资可以延续到所有其他GPU上。今天编写的所有软件将来会变得更好,未来的所有软件也能在现有的安装基础上运行。

因此,首先我们必须在架构上保持严谨。其次,即使在系统层面,我们也能在不抛弃之前成果的情况下改进技术。

例如,当我们首次进入数据中心业务时,超大规模数据中心的电力分配大约是每机架12千瓦。而Blackwell的电力分配是每机架120千瓦,是密度的10倍。

当然,密度的提升使得服务器数量减少了数百万台,全部压缩到一个机架中,因此节省的能量、空间简直是不可思议的。

ReneHaas:这与我们的故事很相似。Arm架构已经存在了30年,为它编写的软件也有几十年了。这是人们有时没有意识到的。

JensenHuang:没错,我们关心每一个Arm芯片上的开发成果。最近有人做了基准测试,Grace每瓦性能是世界上最好的CPU的四倍。是的,能效至关重要。

ReneHaas:是的,这一切都很重要。你认为当数据中心从500兆瓦增长到5吉瓦时,从架构角度上是否会出现什么问题,比如网络延迟之类的?不涉及机密内容的话,从物理的角度来看,是否会开始出现一些瓶颈?

JensenHuang:当然会,一切都会遇到问题。物理规律必须遵循,这就是挑战所在。首先,我们正在快速推进功率密度曲线,从12千瓦到40千瓦,再到120千瓦,这还会继续增加。因此,我们尽可能地压缩和提高计算密度。

在这个过程中,液冷的效率更高,并且我们可以更长时间地使用铜缆。尽可能长时间地使用电传输是有利的,因为一旦转换为光传输,成本和复杂性都会增加。

所以,我们会尽量保持电传输的状态。这种策略更加经济高效、节能且可靠,因此我们会继续提高密度。

另一个提高密度的好处是,位于同一机架或相邻机架的所有GPU可以像一个统一的设备一样运行,真是相当惊人。

ReneHaas:我一直很好奇,Jensen,你在Computex的主题演讲。我记得你有一次是在星期天晚上进行的,演讲内容的体量和深度令人难以置信。

作为一个也会做主题演讲的人,我的内容远没有那么长和深入,我真的很佩服你是怎么做到的。

你是进行了大量的排练吗?我记得当我们以前一起工作的时候,有时会在演讲前一天晚上还在修改内容,你依然能出色地完成。现在你的演讲尤其涉及数据中心架构,并且涵盖了更多内容,你是如何准备这些的?

JensenHuang:我们每天都在为此准备。我们的工作和演员不同,实际上我们是在生活中做这些事情,对吧?所以首先,我们每天都在准备。

坦率地说,我们所做的很多事情本质上是教学,为了引导行业、塑造市场并引入新思想,我们的工作很多是教学。

我们不是做广告,因为我们是一个平台公司,这意味着我们不能独自完成我们的工作,需要其他人的参与和合作。

所以,我们的工作是教学、启发、展示、演示,并希望一步步地吸引更多人加入,从CUDA的早期,到今天的英伟达加速计算,以及AI的发展旅程。

现在,我们正在研究的下一个大事是“物理AI”,即如何让AI既遵循物理规律,又理解物理规律。

我认为这个旅程相当漫长,而GTC和Computex给了我们这样的机会,让我们庆祝我们的生态系统和他们的成果,启发他们展望未来。

ReneHaas:很相似。我做季度业务回顾和演讲时,团队会说,幻灯片很简单,感觉是你整天都在讲的东西。我会想,怎么可能不一样呢?但事实上还是很难的。

JensenHuang:说实话,确实不容易。因为我们实际上没有时间排练。并不是因为我们选择不排练,而是当所有内容都准备好时,已经没有时间去排练了。所以,我们只能“即兴发挥”。

听风歌
独立思考,客观理性,百姓视角,平实质朴的文章,分析天下事。
 最新文章