黄仁勋对话Arm CEO:预言AI每年成本砍半,自曝演讲靠“硬着头皮”

科技   2024-10-16 17:01   上海  

黄仁勋:“我们未来要做的,是物理AI,教会AI物理法则,理解物理定律。”
编译 |  尹明顺
编辑 |  漠影
芯东西10月16日报道,今天在联想创新科技大会上,英特尔和AMD宣布一个震圈消息:联合成立x86生态系统顾问小组,以“确保x86架构作为开发者和客户首选的计算平台持续发展和演进”为目标,要“在未来数十年延续x86卓越成就。”

▲英特尔CEO帕特·基辛格与AMD董事长兼CEO苏姿丰在联想创新科技大会上合影

这堪称是历史性的一次联手。两家当了彼此40多年老对家的x86 CPU龙头,此时并肩而立,为了共同的目标——捍卫x86架构荣耀!‍‍‍‍‍‍‍
好巧不巧,这两家芯片巨头共同的劲敌——x86敌对阵营的半导体IP巨头Arm和凭借AI计算平步青云的GPU巨头英伟达,上周刚刚奉送了一场深度对话——Arm CEO瑞内·哈斯(Rene Haas)的新播客节目开播,首期对话嘉宾便是英伟达创始人兼CEO黄仁勋。黄仁勋在交谈期间特意提到自家基于Arm架构的Grace CPU,夸它的能效是“世界上最好的CPU的4倍”。
这场千亿市值与万亿市值半导体公司掌舵者之间的深度对谈亮点纷呈,从英伟达怎么建立人才梯队、如何搞定巨额收购和转型,聊到对AI发展风向的判断,以及英伟达面向未来的投资。
本周英伟达股价再破历史高位,市值超过3.3万亿美元,距离超越苹果重返全球第一只差临门一脚。黄仁勋的身价也水涨船高,总资产达1150亿美元,超过英特尔总市值(969亿美元)。英伟达的老搭档Arm近几个月股价同样走势上扬,最新市值达到1579亿美元。
在与哈斯的对谈中,黄仁勋聊到要建立伟大的公司,就要找到伟大的人才。他透露说英伟达的员工流失率很低,有很多“有趣的人”,信息透明化做得很不错
他不仅分享了英伟达在招聘时考察面试者能力和适配性的策略,而且详细回顾了如何顺利收购美国网络芯片厂商Mellanox并实现其产品组合的4倍增长。黄仁勋说,英伟达的新愿景是构建AI超级集群,把整个数据中心变成计算单元
谈到对AI未来的预测,他更是不掩野心,称AI发展速度比摩尔定律快得多,每年有望将AI成本降低到原来的1/3~1/2,而英伟达正通过给每个系统设计6~7款芯片,试图重塑整个系统。他还解释了CUDA的架构理念,说行业软件投资大约是硬件投资的千倍
在他看来,降低成本是AI发展的关键,AI未来要做的是一些新事情,包括推理和物理AI,也就是教AI理解物理法则。
黄仁勋也聊到一些生活和工作插曲,比如他早上刚问过ChatGPT,还有他每天都在为发表主题演讲做准备,没时间练习时只能硬着头皮上。

▲英伟达创始人兼CEO黄仁勋参与Arm CEO瑞内·哈斯的播客访谈

以下是对该播客内容的完整编译(为提高可读性,芯东西调整了部分问答的顺序,并在不违背原意的前提下进行了一定的增删修改)

01.
揭秘英伟达招人策略,
黄仁勋会找前雇主做背调


哈斯:非常荣幸可以与英伟达的CEO黄仁勋先生对话,他是一个真正具有远见的人,也是我的曾经的老板和个人导师。我们将深入探讨他的职业旅程,关于AI未来的畅想,探讨英伟达独特的创新意识以及推动技术边界扩展的雄心壮志,我们在圣克拉拉的英伟达总部进行这场对谈。现在英伟达已经发展得如此庞大,我一直对招聘方面的事情感到好奇。英伟达具有独一无二的文化,工作的方式方法也与众不同,您是如何为英伟达筛选人才的?
黄仁勋:我们并不能经常做到这一点,比如你就离开。人们都可以在面试中展现出自己最好的状态,也都极力展现出自己非常合适这个岗位的样子,通过对话也可以建构一个近乎完美的个人形象。
现在人们还可以在YouTube学习到面试技巧。此外,人们也可以提前预测一些技术性难题并准备好自己的答案。
我们尽可能让面试过程变得严格、严谨,但依然难以准确对面试者进行评估。因此,我自己的方法是会进行回溯查证,会问前雇主一些关于应聘者的问题。
人可以“预制”一个精彩表现来欺骗别人,但却无法改变过去,所以我觉得回溯查证是有效的。我也喜欢提出一个深入的问题,并去看一下他们如何进行推理。
归根结底,我觉得英伟达总体还是成功的如你所说,我们的人员流失率很低,这是一个多元化的环境,幕后也有很多有趣的人。我们的员工来自世界各地各大公司,但在这里他们取得了成功。
因此,我认为,建立一个伟大的公司就需要找到一些伟大的人才。另外一方面,公司也要创造一些条件,让这些人做得能够比他们想象中更好。
我们会花很多时间向应聘者解释公司的愿景以及战略。公司也一直以清晰表述自身面临的挑战、机遇、战略而被广泛知晓。英伟达在信息透明化方面做的一直不错。
我认为,公司有太多的“信息孤岛”时,其实并不利于公司发展。大家知道的越多反而越能够为公司做出重要决定,我倾向于进行信息公开化而不是限制信息。
所以,英伟达也常常被认为是一个“最小”的大型公司。
我也倾向于向员工赋权,我们大约有3万多的员工,他们每天大约要做上百个决策,如果所有员工都在做一些对公司有利的模糊性决策,那聚合起来将会非常有效的。
哈斯:有一件事也让我很惊讶,我不知道是您精心筛选到了人才,还是因为偶然选择...总之高层管理层非常能够适应各种不确定性,领导者会深入到不同的组织层面去确认项目的重要性是吗?这个过程究竟是什么样的呢?在公司成长过程中,你们是如何获得这些志同道合的伙伴的?
黄仁勋:我没过问他们这些事,因为对于那些显而易见的事情,你不需要得到所谓的许可。我们之所以这样说,是因为英伟达从一开始就被设计为一家全栈计算公司,我们的目标是打造GPU、CPU、网络芯片和交换机,我们还要进行芯片架构的设计、开发系统软件、创建算法,甚至开发求解器。
那么,该如何组织这样一个既需要所有部门协同工作,又要分部分进行工作的公司呢?
我们的解决方案就是,不设立组织壁垒,而是将组织视为领导者,培养员工、为员工创造条件以取得成功、为员工服务、帮助员工排除障碍等的场所
重要的,领导者要坚守使命,这样使命才会贯穿每个部门。使命可以跨越系统、芯片、网络、软件和算法,也可以跨越各种领域。
这样的组织方式,需要我们提升信息透明度。组织之间的交流变多反而是能够帮助我们获得更多别人的意见与建议,可以帮助我们去验证设想。所以我喜欢这样的高透明度的运作方式,每个人都在帮助我让公司的氛围变得更好。而不是让一切都封锁在黑色的壁垒中。

02.
英伟达如何无缝收购Mellanox?
黄仁勋解释转型策略与目标


哈斯:你们差点就收购了我们(Arm),但最终你们却收购了Mellanox。这不仅是一次出色的战略性收购,从外部来看,它也非常顺利的融入你们公司。就像你说的,使命高于一切。整个收购过程看起来十分顺利,这是如何实现的呢?
黄仁勋:实际上还是很困难的,文化融合上很困难。Mellanox管理团队有十几个人,十二个人已经成为英伟达以色列管理团队E-staff的重要人员,我们现在要研究架构、软件系统、芯片、网络架构以及NVLink交换机等,此前我们只有InfiniBand产品线,但现在有了整个以太网的产品线。
合并后,Mellanox的产品组合增长了四倍。它们整合到了英伟达的方方面面,这次的转型也让我们回顾起上次收购,我们意识到,计算单元不再仅仅是GPU这样的外设。
事实上,Arm也在帮助我们向一家SoC(片上系统)公司做转型此处要解释一下SoC是什么,它基本上是一个完整的计算机系统。传统计算机系统中,GPU是其中的一个部分,CPU先启动,然后是ROM,再然后是操作系统,GPU是最后启动的。但在SoC中,整个系统是一起启动的。
因此英伟达从算法公司过渡到计算公司,是一次尝试,也是一次转型。最开始去做SoC对我们而言是很不容易的,但现在我们做出一些不错的产品,未来就是去构建一个系统,而DGX-1是我们的第一个系统。
我依然也很喜欢Shield,它是一个Android TV电脑,也是英伟达创建的第一个完整的系统,从中我们学到了许多东西。在那时,它是一个带有显示屏的PlayStation或者是Xbox控制器,我们当时就在想应该如何把它做好。时至今日,我们也依然对那个软件进行着更新。
Shield是由塑料制成的,而DGX-1重达600磅,这样的转变其实并不是什么大事。重要的是,我们现在能够构建系统,而在我们收购Mellanox之后,更大的愿景是计算机将不再仅仅是一个节点,而是整个数据中心,它将成为计算单元。
如果你无法将GPU、CPU、网络接口、交换机等所有设备连接在一起,启动整个系统,并在它们之间分配工作负载,那么你就无法真正理解如何建构AI超级集群。
这个愿景如此清晰,对于激励团队来说也至关重要。想要鼓励团队需要非常清晰的愿景,而我们恰好拥有。那就是建构超级集群,它的建构需要两家公司的共同努力,这个愿景非常具体。
作为CEO,你必须要把抽象的东西变得具体,然后公司才能够实践。

03.
预言AI发展速度:
每年成本砍半,比摩尔定律快得多


哈斯:你和我在这个行业里待的时间差不多长,AI正在发生许多让我们意想不到的事情,我本以为这种变革会在几代人中逐步发展,但现在的一切是我从未预料到的,对我来说这好像进入到了一个突破边际的时候,我不知道除了AI领域外还会有哪些发展?或者说我们正在进入一个什么样的时代?
黄仁勋:我想我一直都期待计算机能够执行一些智能行为,我们编写出如此出色的软件,通过编写算法让计算机变得智能。
但我并未料想这会导致一场工业革命。AI首次超越传统计算机行业它可能不再是一个工具、仪器,而是制造业。
可以这样来理解,我们在谈话的时候口袋里有手机,如果不使用它,那它就不会为我做任何事情。大多数计算机都是这样的,比如笔记本电脑。
然而我们正在建设的AI工厂,它时时刻刻都在运行,无论你是否运用它,它都在生产token,它们都在接收数据过去的计算机如今变成了一个工厂,一个可以主动制造东西的地方,并且在大规模地生产有价值的东西,我们的行业正步入一个全新时代,我们正处于工业革命的开端。
哈斯:它的发展速度是否比你想的要快?你参与到了AlexNet和DGX-1等项目中,亲眼目睹了创新发展的步伐,据我所知,自我接管Arm以来,我们深入研究了AI的发展,它的发展速度似乎比我两年半前所想象的发展得更快。
黄仁勋:我们正努力让它运行得更快。我们已经将周期缩短到了一年,原因是技术正在快速发展而且,我们现在不仅仅是在制造芯片方面提速,我们也很了解芯片技术的进步速度,如果幸运的话,采用一个新的工艺,性能可能就会提升几个百分点。
这太不可思议了,那么我们是如何做到每一代产品上都可以实现x倍的性能提升?我们主要的解决办法是给每个系统设计6~7款芯片,然后我们使用协同设计的方法来对整个系统进行重塑并发明像NVLink交换机和新型系统机架这样的新事物,它们可以帮助我们通过背板的铜线将所有GPU相连,并将它们放在一个非常大的封装或者3D封装中。目前我们也在开发新的技术来实现这个目标。
我们每年能够将AI的开发成本降低到原来的1/3~1/2,发展速度比摩尔定律快得多所以,如果将这种进展进行复合计算,五年、六年、十年,我们就能让AI成本降低到惊人的程度。
我们之所以这样做,也是因为大家意识到了AI的重要性。如果我们能够极大降低成本,那么我们就可以做一些新的事情,比如推理。
就像ChatGPT这个伟大的服务,我早上还用了它,输入你的问题,只需要按下回车,稍许加载就会生成回复。在未来,它也可以用于迭代推理,从而输出结果,也可能会经过成百上千次的推理,那时候答案质量也会好很多。

04.
行业软件投资是硬件的千倍,
极度重视架构兼容性


哈斯:我曾看过OpenAI模型的一个推理演示,诚如你所说,它会通过一个逻辑树进行决策的权衡,就像人类做决策一样,但是速度非常快。让我吃惊的是,你引入全数据集和基础设施的速度在业界也是前所未有的。CPU两到三年通常都会更新一次,最终走向贬值。而现在,你们每年都在构建新的系统,人们都在为尽快部署这些系统而买单。
黄仁勋:说起来比较容易,我们每年都在交付像这个房间这么大的新计算机,包括所有的布线、网络、交换机和软件等等。
哈斯:你怎么看?我不是想让你预测未来,这更多是一个技术问题。它能以当前的速度继续发展下去吗?
黄仁勋:我认为可以,但是需要系统化的方式进行,也就是说我们所做的一切都是有据可循的这意味着,你为以前的集群开发的软件,比如Hopper,这些软件还可以在Blackwell、Rubin上运行。而为Rubin创建的软件,也可以在Hopper上运行,架构的兼容性很重要。
行业软件上的投资比硬件大致千倍,软件永远不会过时。所以你开发或者发布了某个软件,你就要用一生去维护它。所以说,CUDA架构理念并不是有数百万人在为它编程,而是有数百万乃至几亿个可与它兼容的GPU存在着。
哈斯:软件不会过时。
黄仁勋:是的,因此你在一个GPU上的投资,都可以延续到其他GPU上,今天你所编写的软件,明天会变得更好。我们将来编写的所有软件都将在现有安装基础上运行,所以首先,我们必须要有非常强烈的架构意识。其次,即便是在系统层面,我们也非常重视架构,我们会改变技术某些部分来推进系统设计,而无需推翻之前的努力。
比如说,当我们第一次进入数据中心业务中时,一个超大规模数据中心的配电是每个机架12千瓦,而到了Blackwell时代,每个机架的配电已经达到了120千瓦。密度提高了十倍,它节省了数百万美元的服务器成本,节省了资金、能源和空间,真是太惊人了。
哈斯:与我们的故事很像,Arm架构已经存续30年了,我们的软件有几十年的编写历史。这也是人们总是不能理解的一点。
黄仁勋:我们关心每一块Arm芯片上做的每一件事,前几天还有人做了一些基准测试,结果显示,Grace的性能每瓦能量消耗是世界上最好的CPU的四倍。
这显示出能源效率的重要性,能效是至关重要的,能效是一切。

05.
从500兆瓦到5000兆瓦数据中心,
怎么解决架构升级挑战?


哈斯:当你从500兆瓦的数据中心升级到5000兆瓦的数据中心时,你是否关注到架构上的问题是何时开始出现的?从高层物理角度来看都有哪些问题?
黄仁勋:一切都会失效,不会背离物理定律,这也是问题之所在我们正在以非常快的速度在功率密度曲线上攀升,呈现出指数增长态势。从12千瓦到40千瓦,再到120千瓦、200千瓦,并且这个数值还会提升。我们正在尽可能提高计算密度、压缩体积,通过这种做法,液体冷却变得更加高效,从而可以更长时间使用铜来供给电信号。
长时间使用铜来导电也是好的,这样就不必从电信号转向光信号。虽然我们最终不得不转向光信号,但我们还是尽可能坚持用电信号。
所以我们拥有的大多数数据中心都在采用电信号,电信号更具成本效益,更加节能也更加可靠
此外,提高密度的另一个好处是,特定机架或相邻机架中的所有GPU都可以作为一个巨型GPU来工作。这真的非常神奇。

06.
时刻都在为演讲做准备,
没时间练习只能硬着头皮上


哈斯:有一件事我很好奇,我记得在Computex上看过你做的主题演讲,那是在一个周日的晚上,你讲述的内容量之大令人难以置信,我非常好奇你是如何做到的,你是否进行了大量的排练?记得我们一起工作的时候,在演讲前一天晚上你还在修改,最后你做得很好。包括现在你讲述深入程度也在提升,特别是你在谈论数据中心架构时,可以展开非常详细的分享。你是如何准备这些事的?
黄仁勋:我们每天都在为此(演讲)做准备,你知道的,我们的工作不是演员。所以说,我们在这一个领域内每天都要做这些事,很多事情说到底其实就是教学。为塑造一个行业、市场、引入我们的新想法,但这并不是广告。
作为一家公司,我们不能单独完成一些工作,需要合作伙伴,所以我们要专注于教学、启发、展示或者是演示并且希望一步步地让更多人了解并相信CUDA。今天越来越多的人相信英伟达的加速计算,并愿意与我们共同步入AI之旅。
我们未来要做的,是物理AI,教会AI物理法则,理解物理定律。这个旅途十分漫长,GTC和Computex都是我们的机遇,在那里,我们庆祝生态系统的成功建构,展示所做的工作,并要启发更多人思考下一个目标。
哈斯:非常相似,我们会做QBU、做演讲,我的首席幕僚会说,天哪,幻灯片很容易啊,这就是你整天都在说的那些内容呀。我也在想,实际上有什么不一样的呢?
黄仁勋:依然很难,说实话,我们不做练习。但不是因为我们主动地选择不练习。而是因为,当我们把所有的东西准备好后,就没有时间练习了,所以我们只能硬着头皮上。
哈斯:您所描述的清晰的愿景和持续前进的动力只有极少数的公司能够做到,30年后你还在领导这家公司。不言而喻,你已经取得了巨大的成功。但是,你刚才描述的那些,是否只能由创始人领导公司来实现呢?
黄仁勋:不是的,我不这样想。就像你在Arm公司做的很不错,在我看到你工作时,我觉得非常自豪。
哈斯:我是从你那学到的。
黄仁勋:我认为这需要你本身就有很强的韧性和毅力。成功的路上会有很多挫折,并不是一个成就接着一个成就出现的。在苦难中,会让我们学到很多,让我们变得强大,回过头去,你也会为自己、为公司感到自豪,在公司里充满了许多挫折故事。
他们大多数都会觉得:“哦,这次困难远不及那次。”每次遇到困难的时候,他们都会说:“哦,这没什么。这根本不算什么。”所以说能够回忆起之前的苦难时期,就会觉得现在这个情况没什么大不了的,这能够让公司在苦难中继续前行。
来源:Tech Unheard Podcast


 品牌主题视频


联想集团首次完整呈现一系列质造奇观,从个体部件到整机组装工艺,建构起当代制造业生产力与生产关系的底色。联想集团使AI向实,助力实体经济,推动产业和社会发展,加速迈向人本智能的未来。




芯东西
芯东西专注报道芯片、半导体产业创新,尤其是以芯片设计创新引领的计算新革命和国产替代浪潮;我们是一群追“芯”人,带你一起遨游“芯”辰大海。
 最新文章