黄仁勋每天用ChatGPT,称其推理能力会越来越强

楼市   2024-10-12 16:03   北京  

近日,英伟达CEO黄仁勋作为特邀嘉宾做客了由Arm CEO雷内・哈斯(Rene Haas)主持的播客节目。

作为该档节目的首位嘉宾,哈斯与黄仁勋就后者的创业历程、人工智能未来发展,以及英伟达如何保持创新来推动技术边界等内容进行了深入探讨。

黄仁勋详细阐述了他对AI技术变革的看法,称自己每天都会使用ChatGPT,并相信在不远的将来,它将通过迭代使得其推理能力越来越强,甚至会进行反思,最终呈现出更加完美的答案。

当被问到如何重塑英伟达以及对于亲身推动技术创新,是否觉得计算机行业的发展比预期中还要迅猛时,黄仁勋表示,AI的未来将是能够“推理”的服务,但是要想达到这一阶段,首先需要降低算力成本

事实上,英伟达已经在通过每年提升芯片新能来为这些进步奠定基础,同时保持相同的成本和能耗水平。“如果我们能够大幅降低成本,我们就可以做到像推理这样的事情。”黄仁勋表示。

栏目截图

据悉,《Tech Unheard》播客系列共计 12 集。届时,哈斯将邀请行业领袖与政策制定者进行一对一的深度对话,分享他们的独到见解、精彩故事以及对未来的展望。


以下为对话精编

01 关于英伟达的招聘

哈斯:英伟达如今已发展得如此庞大,关于你们的招聘我一直很好奇,你们如何在众多候选人中识别出能够成功的人?

黄仁勋:我认为传统的面试过程并不总是判断一个人是否适合的好方法。技术问题是可以提前准备的,我们尽量让面试显得既严格又具有挑战性,但说实话,这仍然很难准确评估一个人。因此,我的方法总是回到背景调查,我会去了解他们过去的工作经历和表现。

我们的离职率很低,而且,这是一个非常多元化的环境。我认为英伟达是世界上最小的大型公司之一,这得益于我们员工不可思议的生产力。我们现在大约有 3 万名员工,他们每天都需要做出数百个决策。如果这 3 万人在统计上都在朝着一个方向前进,即使他们做出的决策往往是模糊的,但都是出于公司的长期利益考虑,那么这些决策很快就会累积起来产生巨大的正面影响。

哈斯:我想了解的是,你们如何拥有那些对模糊性高度适应的高级领导者,并且这些领导者会深入到组织的各个层级?

黄仁勋:对于显而易见的事情,你不应该请求许可。英伟达从一开始就被定位为一个全栈计算公司,我们的目标是制造 GPU、CPU 和网络芯片,甚至包括交换机。同时,我们还要负责芯片架构和设计、系统软件的开发、算法的创建,甚至是求解器的开发。

我们的解决方案是,不设立组织壁垒,而是将组织视为一个领导者可以培养人才、为他们创造成功条件、提供服务、帮助他们排除障碍的平台。但关键在于,老板需要坚守使命,这个使命要贯穿整个公司。

02 关于并购 Mellanox

哈斯并购通常都很难,你是如何让这次并购如此顺畅的?

黄仁勋:确实,文化融合总是并购中的一大挑战。但幸运的是,在 Mellanox 的管理团队和英伟达以色列的管理团队中,有多位我们的 E-staff(执行团队)成员。我们涵盖了架构、研发、软件系统、芯片、网络和交换机等多个领域,现在还加入了 NVLink 交换机业务。在合并后的短时间内,Mellanox 的产品组合迅速扩展了四倍,并且已经深度融入到我们业务的各个方面。

接下来,我们的发展方向是构建系统。DGX-1 是我们的第一个系统级产品。事实上,我仍然对 SHIELD 情有独钟,那是我们的 Android TV 电脑,我非常喜欢它,因为它是我们创造的第一个完整的英伟达系统。从 SHIELD 到 DGX-1,我们学到了很多。直到今天,我们仍然在维护 SHIELD 软件的更新。这正是英伟达向系统公司转型的开始。

为了激励团队,你必须有一个明确且令人振奋的愿景。此外,我还觉得 Mellanox 的企业文化非常出色,这也是我们并购能够顺利进行的重要原因之一。

哈斯:再回到愿景这个话题,当我讲述公司故事时,我还注意到另一件事。比如 SHIELD 和早期的 CUDA 在石油和天然气领域的应用,当时这些应用的终极形态或市场潜力并不明显。

黄仁勋:确实,很多人并没有意识到这些应用的潜力。事实上,那都是我们的初步尝试。

哈斯:在当时,很难看出这些尝试会演变成什么真正的杀手级应用或最终形态,但你们展现出了令人难以置信的韧性和决心,在早期就去尝试并测试各种想法,即使市场似乎还没有准备好,或者应用场景还没有被明确定义。你把这种能力归功于什么?是惊人的直觉吗?还是预见未来的能力?

黄仁勋:英伟达的优势在于我们身边聚集了很多杰出人才,他们是世界上最优秀的计算机科学家、战略家和商业人才。更重要的是,他们没有个人主义倾向,都渴望为公司创造更大的价值。

其次,我们在直觉方面也很擅长。我们对于需要解决什么问题,以及如何从现在走向我们想要成为的公司,都有很好的直觉。因此,我们能够准确地判断出各种阶段性目标。

当我们决定开发 SHIELD 时,很多人都不理解,认为我们在浪费时间。但我告诉他们,我们总有一天会成为一家系统公司。

03 关于公司模式

哈斯:你是否认为,只有创始人领导的公司才能像你刚才描述的那样,既拥有清晰的愿景,又具备持续明确前进方向的韧性呢?因为最近关于创始人模式与经理人模式的讨论很多,而你作为一位领导公司 30 年的创始人,已经取得了巨大的成功。但是,你所描述的这些,只能由创始人领导的公司做到吗?

黄仁勋:我并不这么认为。我觉得你在 Arm 就做得很好。我非常享受观察你工作的过程,这总能带给我极大的喜悦与骄傲。我深信,要想在工作上有所建树,必须具备坚韧不拔的精神和坚定不移的毅力。

我认为我们的公司之所以强大,正是因为我们拥有众多这样的励志故事。在公司的每一个角落,都流传着无数次历经挫折却最终取得非凡成就的动人故事。它们如同宝贵的财富,助力公司度过了一个又一个艰难时期。

04 对计算机智能的期待

哈斯:我们都已经在这个行业中拼搏多年,关于人工智能的发展,我有种感觉,仿佛有些场景是我之前从未设想过的。我甚至觉得,这种转变可能要到下一代才能完全体验到。就我的认知而言,我难以想象在人工智能如此广泛应用的未来之后,还会有什么新的变革。你对此有何看法?我们是否正在以惊人的速度推动行业的转型,而这场转型之后又会迎来什么呢?

黄仁勋:我一直都对计算机能够展现出智能行为抱有期待。我们有能力创造出如此卓越的软件,我认为我们终将编写出那样的软件,让算法以看似智能的方式解决问题,仿佛计算机真的拥有了智慧。然而,我从未预料到这会引发一场工业革命。如今的计算机行业已经超越了传统范畴,它已经成为了一个全新的制造业。

哈斯:计算机行业的发展步伐是否超越了你原先的预想?对于你亲身参与推动的这一切,你是否觉得它的发展比预期中还要迅猛?

黄仁勋:并非如此,我们实际上正在竭力加速其发展的步伐。我们的研发周期已经成功地缩短至一年,这一决策的背后,是源自于对这项技术拥有巨大发展潜力的深刻认识。而且,我们现今的努力已远远超越了单纯制造芯片的范畴。我们深知,即便在最新的制程节点上,芯片的性能提升也仅仅是几个百分点的量级,但这已是极为不易的成就。那么,我们如何确保每一代产品都能实现性能的显著飞跃呢?答案是,我们为每个系统设计了六到七款全新的芯片,并通过协同设计的方式,对整个系统进行彻底的革新,同时创造出诸如 NVLink 交换机和新型系统机架等革命性的发明。这些创新使得我们能够在系统背部的主干上,利用铜质导线将所有 GPU 紧密相连,从而实现了前所未有的大型封装和 3D 封装技术。

我们运用了多种先进的技术手段来实现这一目标。因此,我们得以在相同的能耗和成本约束下,每年提供两到三倍的性能提升。这实际上意味着,我们每年都在以远超摩尔定律的速度降低人工智能的成本。若将这种复利效应持续五年、六年乃至十年,我们将会见证智能成本以令人惊叹的速度下降。我们之所以如此全力以赴,是因为我们坚信,现在正是所有人深刻认识到其价值的关键时刻。如果我们能够大幅度地降低智能的成本,那么我们就可以在诸如推理等需要时间的场景中实现更多的可能。

当你今天使用 ChatGPT 这个令人赞叹的服务时,我也每天都在使用它。在不远的将来,它将通过迭代推理的方式寻找答案,或许还会采用树搜索等复杂方法,甚至进行某种形式的迭代和反思,最终呈现出更加优质的输出。

哈斯:我曾亲眼目睹 OpenAI 模型的演示,其推理能力着实令人震撼,正如你所描述的那样。

黄仁勋:虽然说起来简单,但我们每年都在交付像这个房间一样庞大的新型计算机,包括所有的布线、网络、交换机和软件。这确实令人难以置信。

哈斯:你明白我的意思吗?我并不是在让你预测未来。这更多是一个关于技术普及的问题。它能否保持当前的发展速度继续前行?

黄仁勋:我认为可以。但这必须以一种系统化的方式进行,也就是说,我们所做的每一项工作,都是基于一种架构思维。这意味着,为昨天的集群(例如 Hopper)开发的软件,将能够无缝地在 Blackwell 和 Rubin 上运行。同样,为 Rubin 创建的软件,也将能够在 Hopper 上运行。这种架构兼容性至关重要,因为行业在软件上的投资远超硬件,甚至达到上千倍。更不用说,软件具有永恒的生命力。一旦开发或发布了软件,就必须在其整个生命周期内进行维护。CUDA 的理念并非为了让数百万人学习编程,而是为了让数百万个 GPU 能够与之兼容。

因此,你在一个 GPU 上的投资,将能够延续到所有其他 GPU 上,而你今天编写的软件,在明天将会变得更加出色。

哈斯:我们的故事有着诸多相似之处。Arm 架构历经 30 载,我们为其倾注了数十年的心血软件编写,这一点有时并未得到人们的充分理解。

黄仁勋:对于每一块 Arm 芯片,我们所做的每一项工作都备受关注。前几天,我们刚展示了一些成果。有基准测试显示,Grace 在每瓦性能上比全球顶尖的 CPU 高出四倍,这凸显了能源效率的重要性,它无处不在,至关重要。

哈斯:当你从 500 兆瓦的数据中心规模扩展到 5 吉瓦时,从网络延迟等相关因素考虑,你是否观察到某些架构层面的问题开始浮现?当然,我们无需深入探讨具体技术细节,但从物理学的基本原理出发,你是否发现了一些开始不再适用的东西?

黄仁勋:确实,一切都会失效,因为物理定律是铁律,无法违背,而失效是必然的过程。

当然,我们正沿着功率密度曲线迅速攀升,增长态势呈指数级。我们尽可能延长铜线的使用寿命,因为只要条件允许,使用铜线传输电力就更为有利,无需在电信号和光信号之间转换。尽管最终我们不得不转向光学技术,但我们会尽可能长时间地利用电信号的优势。在大多数数据中心中,使用电信号在成本效益、能源效率和可靠性方面更具优势。因此,我们选择了密集化策略。密集化的另一个显著优势是,特定机架或相邻机架中的所有 GPU 可以作为一个巨型 GPU 协同工作,这确实令人惊叹不已。

05 演讲只能硬着头皮上

哈斯:我一直很好奇,你是如何演讲的?准备过程是怎样的?

黄仁勋:其实,我们每天都在为这样的演讲做准备。你知道吗,我们的工作有一个独特的优势,那就是我们不是专业的演员。所以,这些内容真的是我们日常工作的真实反映。我们每天都沉浸在这些领域里。首先,我们每天都在学习和准备。但很多时候,我们做的事情,坦白说,都是在教学。为了推动一个行业的发展,为了塑造市场,并引入我们正在探索的新理念,其中很多都涉及到教学的成分。这不是在做广告,我们是一家平台公司,这意味着我们不能单打独斗,我们需要其他人的合作与支持。所以,我们的工作就是教学、启发、展示,也许还有演示。

哈斯:这确实很相似。当我做 QBU 演讲时,我的首席助理会说:" 哇,这些幻灯片好简洁啊!" 但其实这就是我整天都在谈论的内容。我在想,怎么可能不这样呢?

黄仁勋:因为我们没有专门的时间去排练。所以,这并不是因为我们故意不排练,等到我们把所有的内容都准备好之后,通常就没有多余的时间去排练了。因此,最后我只能硬着头皮上。

硅谷AI见闻
搜狐科技旗下AI账号——AI见闻,独家、深度、专业 感受AI地心的前沿脉动
 最新文章