来源:科技最前线 (kejizqx)
“这不是演唱会,你们来参加的是开发者大会!”伴随着热烈的欢呼,老黄隆重出场,氛围不亚于任何一场大秀。
一年一度的英伟达GTC大会,再度给人们带来重磅惊喜。
01
新摩尔定律诞生
世界最强AI芯片,没有之一
凭借其H100 AI芯片,英伟达成为了一家价值数万亿美元的公司。然而,或许英伟达即将通过其新推出的Blackwell B200 GPU和GB200“超级芯片”进一步扩大其领先地位。
英伟达一直有致敬科学家的传统,这款名为“Blackwell”的芯片是其第七代GPU,也是目前全球最强的AI芯片。
GPU计算浪潮始于2000年代中期,但真正开始具体化是在2012年5月,当时英伟达推出了“Kepler”K10和K20加速器。
从那时起,英伟达便一直在不懈地推动摩尔定律在晶体管、先进封装、增强向量和矩阵数学引擎设计、不断降低浮点数学精度以及增加内存容量和带宽方面的进步,并创造出速度提高4367倍的计算引擎。
黄仁勋左手举着B200,右手拿着H100
黄仁勋表示,新的B200 GPU拥有高达20 petaflops的FP4性能,其内含2080亿个晶体管。
此外,将两个GPU与单个Grace CPU结合的GB200,可以为LLM推理工作负载提供30倍的性能,同时可能显著提高效率。
与H100相比,它可以将成本和能耗降低多达25%。以前训练一个1.8万亿参数模型需要8000个Hopper GPU和15兆瓦的功率。而现在只需要2000个Blackwell GPU就能完成这项任务,功耗仅为4兆瓦。
Blackwell 比 Hopper 提供了巨大的成本和能源效率
在具有1750亿个参数的GPT-3 LLM基准测试中,英伟达表示GB200的性能是H100的7倍,并且提供的训练速度是H100的四倍。
这是如何做到的呢?
生成式人工智能正在推动Nvidia向Blackwell迈进
02
核心技术革新
二代Transformer引擎+五代NVLink
其中一个关键改进是第二代Transformer引擎,它通过每个神经元使用4位而不是8位来使计算、带宽和模型大小加倍。
第二个关键区别是,只有当连接大量此类GPU时才会出现,即五代NVLink交换机可让576个GPU相互通信,具有每秒1.8TB的双向带宽。
黄仁勋表示,为了支持这一极端的通信需求,他们打造了一款全新的网络交换芯片,该芯片拥有500亿个晶体管和一些板载计算能力:3.6 teraflops的FP8。
通过Blackwell添加FP4和FP6
以前,由16个GPU组成的集群将花费60%的时间用于相互通信,而只有40%的时间用于实际计算。
当然,英伟达希望各公司更多地使用这些GPU,并将它们封装在更大的设计中,例如GB200 NVL72。该机架将36个CPU和72个GPU插入一个液冷机架中,总共提供720 petaflops的AI训练性能或1,440 petaflops的推理能力。
GB200 NVL72
目前。预计采用这些新硬件的众多组织包括 AWS、Dell、Google、Meta、Microsoft、OpenAI、Oracle、Tesla和xAI等一众大厂。
Tesla和xAI首席执行官马斯克也盛赞道,“目前没有什么比英伟达硬件更好的 AI 硬件了。”
03
NIM+NeMo:英伟达版企业GPTs来了
除了硬件,英伟达也用软件再次给AI行业带来亿点震撼。
在人工智能的潮流中,硬件仅仅是开始。英伟达以其NIM和NeMo为代表的软件套件,为企业带来了巨大的变革和便利。这些软件产品不仅简化了AI模型的部署和使用,而且为企业提供了定制化的大模型服务,开创了企业级GPTs的新时代。
早在2006年英伟达推出的CUDA技术就为其在GPU领域的霸主地位奠定了基础。但是,英伟达的软件生态远不止于此。除了CUDA外,他们还拥有一系列连通软硬件的软件产品,如用于加速推理的TensorRT和用于部署AI模型的Triton Inference Server等。这些软件构成了英伟达在AI领域的软件护城河。
在最新推出的NVIDIA NIM中,英伟达将过去几年的所有软件整合到了一起,形成了一个容器型微服务。NIM提供了一个从应用软件到硬件编程的直接通路,使得企业能够轻松地部署和利用自己的数据来构建AI模型。
通过NIM,企业不再需要繁琐的AI开发经验,只需简单地选择模型和微服务,即可快速部署AI应用,享受到英伟达GPU带来的最优部署时效。
在NIM中,NeMo则为企业提供了定制化大模型的服务。通过NeMo,企业可以轻松地调试和部署大模型,无论是在笔记本电脑还是在企业级GPU集群上。
NeMo不仅支持基础大模型的使用,还提供了多种微服务,如NeMo Retriever技术,帮助企业更好地利用自有数据进行微调,从而提高模型的效率和准确性。
英伟达的NIM和NeMo为企业AI转型提供了极大的便利和可能性。无论是构建专有模型,还是利用大模型连接企业私有数据,都变得快速简单。这些软件产品将企业AI化的梦想变成了现实,为企业带来了全新的商业机会和竞争优势。
据英伟达高管表示,未来公司或逐步从纯粹的芯片供应商转变为平台提供商,类似微软或苹果。
04
与九“人”同台,
入局具身智能革命
在当今科技潮流中,人工智能与机器人技术的融合正在开启着新的时代。而在这场前所未有的技术革命中,英伟达也要参与进来。
GTC大会上,其推出了Project GR00T人型机器人项目。这一项目的背后,是英伟达在机器人领域的长期投入与创新积累。
基于英伟达的ISAAC机器人平台工具,Project GR00T不仅是一个通用基础模型,更是一个能够接受多种输入并进行智能处理的人形机器人系统。无论是文本、语音、视频还是现场演示,GR00T都能轻松应对,并理解其中蕴含的信息,从而执行特定的操作。
这种能力的背后,是英伟达在人工智能处理方面的领先优势,以及其机器人大脑计算芯片Jetson Thor的强大支持。
与此同时,英伟达的Omniverse平台也为机器人的发展提供了新的可能性。Omniverse不仅是一个数字孪生的计算系统,更是一个用于模拟和训练的场所。
除了机器人领域,英伟达也在其他方面不断探索创新。例如,将Omniverse技术引入苹果公司的AR/VR设置中,为开发者提供更加丰富的虚拟体验;以及与比亚迪等公司合作,共同打造数字孪生技术在汽车工厂和仓库中的应用。
05
小插曲:曾感谢小米,要不停奔跑
在科技行业的浪潮中,有许多创业者和企业家因睿智的决策和持续的努力而成为传奇。而黄仁勋作为英伟达的创始人之一,他的创业之路也充满了传奇色彩。
从早年游戏时代到如今的人工智能时代,在黄仁勋的众多干货发言中,他一直强调要不停奔跑。
时间回到2013年,当时的小米凭着出众的操作系统和高性价的产品属性已经大获成功,而英伟达则还是局限于PC端和游戏场景。
随后受雷军之约,黄仁勋来到小米公司的新品发布会,诚挚地感谢雷军给予其移动芯片一个机会。虽然他的中文说得不太流利,但他那句“大家好,我也是米粉,大家米粉吗?”却让在场的观众哈哈大笑。这个看似轻松的开场白,或许也让命运的齿轮开始转动。
当时,英伟达主要以显卡为游戏提供加速性能而闻名,但他们也在探索手机芯片市场。然而,与当时新兴的骁龙系列芯片相比,英伟达生产的Tegra系列芯片并不适合手机市场。
尽管性能出色,但对于当时手机的电池容量和散热要求,Tegra芯片显得力不从心。这使得英伟达在手机芯片市场上并没有立足之地。
随后二者便在各自的方向上努力。不过,黄仁勋并没有因此放弃,而是继续在PC主机和服务器的GPU方向投入研发精力。直至ChatGPT的出现,生成式AI的到来彻底改变了行业,改变了英伟达。
这种持之以恒的专注和对技术的执着,成为了英伟达走向成功的关键。他们不仅致力于技术的不断创新,还善于洞察市场的需求,并据此调整产品方向。
黄仁勋曾表示没有一家公司可以仅靠一股热潮就能拔地而起。他认为,英伟达之所以能够成功,是因为他们不仅仅是在创造技术,同时也在创造市场。在过去的三十余年里,英伟达不断向下扎根,围绕技术和市场展开工作。与此同时,他们也不断向上攀岩,不断拓展计算的边界。对于未来,黄仁勋表示,他们会继续在计算领域发力,将计算的边际成本降低到接近零。
这种对技术和市场的双重关注,使得英伟达得以在竞争激烈的科技行业中脱颖而出。正如黄仁勋所言:“你不是为了食物而奔跑,就是为了避免成为食物而奔跑。往往你无法分辨到底是哪种情况。不管怎样,都要奔跑。”在英伟达看来,只有不断前行,不断创新,才能在变幻莫测的市场中立于不败之地。