👇关注公众号后设🌟标,掌握第一手AI新动态
本文内容整理自英伟达在在SC24科学计算大会上的主题演讲,公开发表于2024年11月18日。原始内容参考:https://www.youtube.com/watch?v=eKzNKxWUeCE
Nvidia在SC24超级计算大会上的主题演讲
★内容导读:
CUDA和CUDA-X库的成功: NVIDIA通过CUDA及其丰富的CUDAX库(超过400个),将计算成本降低百万倍,推动了加速计算的普及,并将其应用于医疗、通信、制造等众多领域。 新的库,例如cuPyNumeric(NumPy的GPU加速版本),进一步扩展了其应用范围。 AI的崛起及其对科学的变革性影响: AI已成为新计算时代的核心,它源于科学计算的创新,现已反过来加速科学方法。AI在数据分析、模拟加速、实验控制和预测模型构建方面展现出巨大潜力,推动了药物研发、基因组学和量子计算等领域的进步。 Blackwell系统及其AI工厂的构建: NVIDIA推出了Blackwell系统,一个整合了七种不同芯片类型的强大AI超级计算机,用于大规模AI模型训练和推理。 Foxconn正在建设新的Blackwell生产设施,NVIDIA Omniverse用于加速工厂建设。这标志着AI工厂的兴起,将大规模生产数字智能。 加速计算在超级计算中的主导地位: 加速计算已成为超级计算的首选技术,在全球Top 100超级计算机中占比超过70%。 cuPy Numeric的发布: cuPyNumeric是一个NumPy的替代品,允许Python开发者在GPU集群上自动并行化程序,无需重写代码,大幅提升数据分析速度。 Gordon Bell奖提名项目: 多个利用NVIDIA加速计算平台的项目入围Gordon Bell奖,涵盖分子动力学、蛋白质设计、基因组学和气候建模等领域,展现了其在科学研究中的广泛应用。 能源效率的提升: 加速计算不仅提升性能,还能显著降低能耗。通过Grace Hopper和H100 GPU等技术,在诸多应用中实现了显著的能效提升。 Grace和Vera CPU的发布: NVIDIA推出了高性能、低功耗的Grace CPU和下一代ARM CPU Vera,进一步完善其产品线,满足不同计算需求。 高速互联技术的进步: NVLink、InfiniBand和Spectrum X Ethernet等高速互联技术确保了大规模AI和HPC工作负载的扩展性和高性能,并显著降低了延迟。 Spectrum X Ethernet在Colossus超级计算机中展现了其优异性能。 AI推理的加速和NIM微服务的应用: NVIDIA推出了NIM推理微服务,大幅提升了AI模型的部署和推理效率,并将其应用于天气预报、药物研发等领域。 Earth-2 NIM和ForecastNet NIM为气候科技提供了新的AI能力。 BioNemo框架开源和DiffDoc 2.0的发布: BioNemo框架开源,加速了药物研发中的AI应用。DiffDoc 2.0的发布,提高了药物与靶蛋白相互作用预测的速度和精度。 Alchemy平台的发布: Alchemy平台提供化学相关的NIM,加速新化合物的发现。 Omniverse Blueprint的发布: Omniverse Blueprint提供实时数字孪生技术,加速工程设计和仿真流程。 AI在科学实验中的应用: AI应用于射电望远镜数据处理、粒子物理数据分析,以及量子计算硬件开发,提高了数据处理效率和科学发现速度。 与Google的量子计算合作: NVIDIA与Google合作,利用AI超级计算加速量子计算硬件的开发,提升量子比特的质量和性能。
演讲全文
黄仁勋: 超级计算机是人类最重要的工具之一,推动着科学突破,拓展着知识的边界。在英伟达,我们在超级计算机上的工作深刻地塑造了我们的历程。2006年,我们发布了CUDA,并推出了全球首款用于科学计算的GPU。2008年,日本的东京工业大学Subame成为了全球首个采用英伟达加速技术的超级计算机。四年后,英伟达为全球最快的超级计算机——橡树岭国家实验室的Titan——提供了动力。然后在2016年,英伟达推出了首个AI超级计算机DGX-1,我亲自将其交付给了OpenAI。从全球首款用于超级计算机的GPU到如今为全球构建AI超级计算机,我们在过去18年里在超级计算领域的历程塑造了今天的英伟达。
自CUDA诞生以来,英伟达将计算成本降低了百万倍。对一些人来说,英伟达就像一台计算显微镜,让他们能够观察到极其微小的东西;对另一些人来说,它像一台望远镜,探索着难以想象的遥远星系;而对许多人来说,它是一台时间机器,让他们能够在有生之年完成毕生的事业。英伟达CUDA已成为少数几个普遍存在的计算平台之一。但真正的明星是CUDA-X库,它们是加速计算的引擎。正如OpenGL是连接计算机图形和加速器的API一样,CUDA-X是将新的应用程序连接到英伟达加速的特定领域库。
CUDAX为英伟达打开了医疗保健、电信、制造和运输等新市场和行业。在芯片制造中,cuLitho加速了计算光刻;在电信领域,Arial在CUDA上处理无线电;在医疗保健和基因组学领域,Parabricks加速了基因序列比对和变异检测;对于数据科学和分析,cuDF超级增强了数据处理,加速了SQL、Pandas、Polars和Spark等流行库;cuVS加速了矢量数据库索引和检索,这对构建AI代理至关重要;英伟达CUDA-Q 在CUDA上执行量子电路模拟;Omniverse是一套库,可以实现和操作用于机器人技术、制造和物流的数字孪生体。
本周,我们发布了一个重要的新的库——cuPyNumeric,这是NumPy的GPU加速实现,NumPy是数据科学、机器学习和数值计算中最广泛使用的库。凭借超过400个CUDAX库,英伟达几乎在所有科学和工业领域都加速了重要的应用,从而推动了GPU采用率提高、生态系统合作伙伴增加和开发增长的良性循环。
黄仁勋: 我们最具影响力的库之一是QDNN,它处理深度学习和神经网络操作。QDNN加速了深度学习框架,使大型语言模型在过去十年中实现了令人难以置信的百万倍扩展,并导致了ChatGPT的诞生。人工智能已经到来,一个新的计算时代已经开始。计算堆栈的每一层都被重新发明,从使用规则和逻辑进行编码的软件到机器学习的模式和关系,从在CPU上运行的代码到由GPU处理的神经网络。人工智能源于我们在科学计算方面的创新,如今科学正在利用人工智能来增强科学方法。我在2018年超级计算大会上谈到了这种融合。从那时起,人工智能和机器学习已被集成到几乎所有科学领域。
人工智能正在帮助分析海量数据、加速模拟、实时控制实验以及构建能够彻底改变药物研发、基因组学和量子计算等领域的预测模型。利用人工智能,我们可以以前所未有的计算规模模拟物理过程。这种变革性影响已在最高层面得到认可。杰弗里·辛顿和约翰·霍普菲尔德因其在神经网络方面的开创性工作而获得诺贝尔物理学奖;德米斯·哈萨比斯、约翰·贾姆珀和大卫·贝克因在蛋白质预测方面的突破性进展而获得诺贝尔化学奖。这仅仅是个开始。随着模型规模、数据和计算能力的扩展,规模定律表明人工智能模型性能具有可预测的改进。该行业的当前轨迹每年将计算能力提高四倍,预计在十年内将增长百万倍。
相比之下,摩尔定律每十年实现一百倍的增长。这些规模定律不仅适用于大型语言模型的训练,而且随着OpenAI Strawberry的出现,也适用于推理。在未来十年,我们将加快路线图,以跟上训练和推理规模的需求,并发现下一阶段的智能。这就是Blackwell。今天的AI计算机与以前构建的任何计算机都不一样。AI计算的每个阶段,从数据处理到训练再到推理,都对从GPU到内存再到网络和交换机的每个组件提出了挑战。
对AI工厂的大量投资使每一个细节都至关重要:首次训练时间、可靠性、利用率、能效、令牌生成吞吐量和响应速度。英伟达采用了极端协同设计,优化了从芯片和系统到软件和算法的每一层。Blackwell系统集成了七种不同类型的芯片。每个液冷机架的功率为120千瓦,重3000磅,包含18个计算托盘和9个NVLink交换机,将144个Blackwell芯片(超过2英里的NVLink铜缆)连接成一个具有1.44 AI艾克萨浮点运算能力的巨型虚拟GPU。令人难以置信!Blackwell正在全面生产中。富士康正在美国、墨西哥和台湾建设新的Blackwell生产和测试设施,并使用英伟达Omniverse来尽快启动这些工厂。
在创建第一个GPU 25年后,我们重新发明了计算,并引发了一场新的工业革命。一个全新的行业正在兴起:AI工厂正在大规模生产数字智能和制造AI。人工智能将加速科学发现。研究人员将拥有AI驱动的助手来生成和探索有前景的想法。在商业领域,人工智能将与各个职能部门的团队一起工作——营销、销售、供应链、芯片设计、软件开发等等。最终,每家公司都将利用数字AI代理,提高生产力,促进增长,并创造新的就业机会。
在物理世界中,人工智能即将驱动能够适应并执行各种任务的类人机器人,只需最少的演示即可。制造业、物流业和服务业将受益于人工智能带来的生产力增长,这将重塑全球经济。站在如此变革的边缘,令人难以置信。我们很高兴将我们今天设计的令人惊叹的计算机付诸实践,并见证人工智能和计算如何在未来十年彻底改变全球各个万亿美元规模的产业。让我们一起构建未来。祝您在2024年超级计算大会上度过愉快时光。
NV副总裁Ian Buck: 感谢,Jensen。今年的SC24大会上,石溪大学的杰出教授Ari Kaufman教授因其2004年具有里程碑意义的论文《用于高性能计算的GPU集群》而荣获“时间考验奖”。Kaufman教授使用流体动力学方程,在首个大型GPU集群上模拟了纽约时代广场空气污染物的扩散。他的研究为当今的加速计算奠定了基础,证明了GPU在大规模模拟中的强大功能。
来自英伟达的全体人员祝贺Kaufman教授获得这一实至名归的认可。您的开创性贡献体现了推动该领域进步的精神。由于这项突破性工作,加速计算已成为超级计算的首选技术。
此图表显示了全球百强最快系统中加速和非加速超级计算机的历史。在过去五年中,加速系统的数量每年增加8个,从33%增长到超过70%。
我们的目标是帮助世界加速所有工作负载。考虑到各种编程语言、广泛的开发者经验和需求,以及不断涌现的算法和技术,这无疑是一个雄心勃勃的目标。为了支持我们的开发者社区并满足他们的需求,我们今天提供了450多个库,其中许多库都针对不断发展的开发者环境中的特定领域量身定制。
以Python为例。Warp是我们用于构建和加速数据生成和空间计算的Python框架。HPC中大多数基于物理的模拟器都会进行某种形式的空间计算,无论是在量子化学、气候建模还是流体动力学中,所有这些都在三维空间中运行。通过在Warp中表达这些计算,可以对其进行自动微分并集成到AI工作流程中。当今最流行的Python库之一是NumPy。NumPy是Python开发人员进行数学计算的基础库,被超过500万名科学和工业领域的开发人员使用,仅上个月的下载量就达3亿次。超过32,000个GitHub应用程序在天文、物理、信号处理等重要的科学领域使用NumPy。
然而,当科学家们希望扩展其应用程序以使用大型HPC集群时,他们通常需要依赖于更低级别的分布式计算库,例如OpenMPI。但是,如果不必这样做呢?如果您的NumPy程序可以在GPU集群上自动并行化,而无需将其完全重写为不同的超级计算应用程序呢?今天,我们宣布推出cuPyNumeric,这是一个NumPy库的直接替代品。借助cuPyNumeric,研究人员可以使用Python编写代码,并轻松扩展其工作,而无需掌握分布式计算方面的专业知识。cuPyNumeric使用NVIDIA最新的通信和数学库,利用标准NumPy数据类型在GPU集群中自动分配数据。
结果令人难以置信。Slack的研究团队正在利用cuPyNumeric分析来自LCLS X射线激光器的TB级数据,该激光器每秒发射120次。在60小时的束流时间内,他们将数据分析速度提高了6倍,从而能够做出实时决策并发现材料特性。这种加速将他们发表前的分析时间从三年缩短到仅六个月。cuPyNumeric的早期采用者包括斯坦福大学湍流研究中心(致力于计算流体动力学求解器)、洛斯阿拉莫斯国家实验室(正在为Venato超级计算机扩展机器学习算法)以及马萨诸塞大学波士顿分校(正在研究显微镜成像实验中的熵产生率)。
超级计算领域最高荣誉之一是戈登·贝尔奖,该奖项表彰在高性能计算领域取得的杰出成就。今天,我们庆祝五个入围团队,他们的突破性研究利用英伟达的加速系统,涵盖分子动力学、蛋白质设计、基因组学和气候建模等多个领域。来自卡纳维拉大学和墨尔本大学的Giuseppe Barca及其团队扩展了一种计算原子能的替代方法,与其他GPU加速方法相比,其速度提高了3倍,并且在多个GPU上实现了超线性扩展。稍后,我们将听取KAUST的David Keyes博士关于他们在基因组上位性和气候模拟方面的开创性工作的介绍。但首先,让我们转向阿贡国家实验室的Arvind Romanathan博士,讨论他们在蛋白质设计方面的进展。
Arvind Romanathan博士: 蛋白质设计中的一个关键任务是提出具有相同功能但与我们40亿年进化历程中所见不同的新型蛋白质。实验数据出现的速度远低于模拟等计算工作流程的预期速度。
蛋白质设计目前在AI领域非常热门。它正在经历一场巨大的变革,其方式是AI模型的部署和开发。这是构建多模态事物(multimodal)的首次尝试之一。我们实际上提供了自然语言描述,然后我们表示蛋白质序列。我们基本上使用它来训练一个大型语言模型,使我们能够交互并生成新的设计。
我们从这篇论文中了解到的关键内容之一是,我们确实有可能在不止一个平台上,而是在多个平台上同时建立此工作流程。我们碰巧使用了几乎所有英伟达的架构,从A100到Grace Hopper芯片。
但我们观察到的一件很酷的事情是,在预训练这个模型方面,我们实际上可以在系统上以混合精度运行实现接近三亿亿次浮点运算(3 exaflops)。同样,这种运行规模,我认为,我们实际使用了一半的系统来实现这种性能,这真是令人难以置信。
NV副总裁Ian Buck: 加速工作负载的关键优势和动力之一是降低能耗。在超级计算领域,这一点尤为明显,摩尔定律的终结最初也是在这里被预测到的。早在2010年,橡树岭国家实验室等超级计算中心就认识到,使用CPU构建的下一代超级计算机的能耗甚至会超过美国主要城市。这一事实也适用于应用程序本身。即使加速服务器的功耗可能高于标准CPU系统,但显著缩短求解时间也会导致计算解决方案所需的总能量大幅减少。
例如,得克萨斯高级计算中心和ANSYS使用Grace Hopper系统在一个包含25亿个单元的问题上实现了110倍的加速和6倍的能效提升。在NREL,H100 GPU将风电场模拟的能效提高了4倍。台积电使用cuLitho进行半导体制造,将能耗降低了9倍。东京大学地震研究所与海洋地球科学技术厅(JAMSTEC)和理化学研究所合作,还利用EuroHPC ALPS系统在地震模拟中实现了86倍的加速和32倍的能效提升。
我们也在持续推动AI领域更高的性能和效率。像LLAMA 3.1 405B这样的大型语言模型需要多个GPU协同工作才能获得最佳性能。为了充分利用这些GPU,我们的推理软件栈提供了基于GPU之间快速数据传输的优化并行技术。英伟达的NV Switch技术为Hopper配备了卓越的GPU到GPU吞吐量,并且当与我们的TRT-LLM软件栈集成时,可以持续改进性能。这确保了Hopper能够为405B等模型实现更高的性能和更低的每token成本。
仅仅两个月内,由于在推测执行、NVLink通信和专用AI内核方面的创新,我们已经看到了超过1.6倍的性能提升。而我们并没有止步于Hopper。我们正在积极创新,以利用Blackwell的强大功能来构建下一代AI工厂。我们很高兴能够与客户合作,支持我们在不断发展的解决方案生态系统中的成功。
我们的合作伙伴提供各种各样的系统,从Hopper到Blackwell。H200 NVL专为风冷灵活HPC解决方案而设计,在一个标准PCIe规格中具有4GPU NVLink域。我们还在与合作伙伴合作,将Grace Blackwell配置推向市场。这些包括GB200 Grace Blackwell NVL4超级芯片,它在一个标准PCIe规格中集成了4GPU NVLink域和一个双Gray CPU,用于液冷科学计算。由于我们的参考架构,Blackwell解决方案的推出进展顺利,使合作伙伴能够快速将产品推向市场,同时添加他们自己的定制化功能。
我们的目标是加速每项工作负载,以推动发现并最大限度地提高能效。这包括可以利用Grace Hopper和Grace Blackwell等紧密耦合的CPU和GPU产品的加速和部分加速应用程序。然而,并非所有内容都能立即利用加速技术。对于这部分“长尾”应用,在受功率限制的数据中心环境中使用最高能效的CPU可以最大限度地提高工作负载吞吐量。
Grace CPU专为高性能和高能效而设计。Grace具有72个ARM Neoverse V2内核和NVIDIA可扩展一致性结构,可提供每秒3.2 TB的带宽,是传统CPU的两倍。与LPDDR5X内存搭配使用时,它可以实现每秒500 GB的内存带宽,同时功耗仅为16瓦。这只有传统DDR内存功耗的五分之一。
这些创新使Grace在天气预报和地球科学等工作负载方面,与x86系统相比,性能提升高达4倍,使其成为高能效高性能CPU计算的理想解决方案。
今年早些时候在Computex展会上,Jensen发布了我们下一代基于ARM的CPU——Vera,计划于2026年推出。它将作为独立产品以及与Rubin GPU紧密集成的解决方案提供。通过关注数据移动,我们下一代CPU结构和EnvyLink芯片间技术旨在最大限度地提高系统性能。VARO将是一款多功能CPU,能够在各种计算和内存密集型任务中提供卓越的性能和效率。
这不仅仅关乎单节点计算。网络在当今的加速计算平台中发挥着至关重要的作用。传统的以太网是为企业数据中心设计的,针对单服务器工作负载进行了优化。英伟达的NVLink与InfiniBand或Spectrum X以太网相结合,为AI训练和推理数据中心设定了黄金标准。这种组合实现了极高的可扩展性和峰值性能。NVLink的交换系统允许GPU无缝地作为一个整体进行扩展和通信。对于东西向计算结构(GPU之间快速数据交换至关重要的地方),英伟达Quantum InfiniBand和Spectrum X以太网提供了实现超越NVLink域扩展所需的低延迟、高吞吐量基础设施。
对于南北向流量,BlueField DPU优化了数据中心与外部网络之间的数据流,确保效率和安全。这些技术共同构建了一个强大而有弹性的基础设施,可用于大规模AI和HPC工作负载。英伟达Quantum InfiniBand提供了无与伦比的高速数据传输和极低的延迟,这对于并行处理和分布式计算至关重要。Quantum X800平台具有一个144端口交换机,每个端口速度为800 Gbps,由ConnectX8 SuperNIC驱动。它们共同支持MPI和NCCL卸载,能够通过NVIDIA Sharp实现14.4 teraflops的网络内计算。如果没有Sharp,所有约简操作都需要重复的点对点传输。Sharp可以通过直接在网络交换机中执行数据约简来优化这一点,从而减少数据传输并提高效率。这使得AI应用程序的有效带宽提高了1.8倍。
长期以来一直使用InfiniBand进行科学模拟的微软Azure将成为首批采用先进Quantum X800来开发尖端万亿参数模型的公司之一。许多客户希望使用以太网而不是InfiniBand来简化他们的操作。然而,标准以太网并非为满足AI的需求而构建的。AI工厂在GPU计算周期和集体操作数据传输之间交替进行。由此产生的网络延迟会导致尾部延迟,从而减慢整体工作负载的性能。此直方图比较显示了Spectrum X与传统以太网相比如何降低尾部延迟。在多租户部署中,具有噪声隔离功能的Spectrum X消除了网络热点,并且可以提供2.2倍的all-reduce性能提升。通过动态重新平衡以避免链路故障,Spectrum X将点对点带宽提高了1.3倍。这为最大规模的AI数据中心部署带来了卓越的性能和可靠性。
上个月,X公司宣布了世界上最大的加速系统——Colossus超级计算机。该系统由戴尔和Supermicro公司构建,拥有10万个H100 GPU,用于训练GroK 3,这是世界上最先进的大型语言模型之一。我们与合作伙伴密切合作,以创纪录的时间部署了Colossus,从设备交付到训练仅需19天,并在122天内全面投入生产。到目前为止,X公司对系统性能感到非常满意。Spectrum X以太网实现了令人印象深刻的95%的理论数据吞吐量,而传统的以太网解决方案仅为60%。该系统还保持零延迟下降,并且由于网络结构的三层之间没有数据包丢失。此次部署为大规模AI设定了新的标准。
我们非常兴奋地宣布Spectrum X将登上TOP500榜单。事实上,有两套基于Spectrum X的系统位列前50名。这两套系统均基于戴尔,一套由GMO互联网集团构建,另一套是我们自己的英伟达以色列One超级计算机。我相信这只是众多成功案例中的首批。我们以一年的节奏构建我们的平台,不断改进每个组件,以重新定义性能和效率。但这不仅仅关乎硬件;持续的软件优化是关键。在每个周期中,我们都会增强我们的软件栈,以从我们的GPU、CPU和DPU中提取更多价值。这意味着用户可以持续利用尖端技术而不会中断,从而带来持续改进。
今天,Blackwell 已经全面投产。明年,Blackwell Ultra 将进一步提升标准,随后是 Rubin,确保每一代产品都建立在前一代的基础上,在 AI 和高性能计算领域取得更大的突破。过去一年,我们见证了 AI 驱动的新用例、数据集和基础模型的爆炸式增长。一个突出的例子是 Evolutionary Scales 利用 ESM3 生成模型加速药物发现的工作,该模型用于蛋白质设计。ESM3 基于 NVIDIA 加速计算平台构建,在超过 20 亿个蛋白质序列上进行训练,使用的的数据量是其前身 ESM2 的 60 倍,计算能力是其 25 倍。
现在让我们听听 KAUST 的 David Keyes 博士介绍他们关于基因组学和气候建模的两个戈登贝尔奖决赛入围作品。
David Keyes 博士: 全基因组关联研究探索了生物学的中心法则:基因型决定表型。这里的基因型不仅包括基因组因素,还包括人口统计学、饮食、吸烟习惯等环境因素。目标是从大型个人数据库入手。我们使用了包含 30.5 万人的英国生物样本库,然后将他们的基因组和广义基因型相互比较,再与他们易患的疾病的患病率进行比较。
我们能够将拥有真实数据的 30.5 万名患者的数据扩展到一个由 1300 万名患者生成的合成数据库。这个数字实际上足以让世界上超过一半的国家对它们的人口进行全基因组分析。我们将代码从一个系统迁移到另一个系统几乎没有遇到任何困难。
特别是,我们在 Summit 的 V100、Leonardo 的 A100 和 Hopper 的 H100(Alps 的 GH 配置)上运行了程序。从节点性能来看,Hopper 无疑是最令人感兴趣的,特别是它提供了 FP8 精度。我们很乐意尽可能接近低精度端,并鼓励其他领域科学家尝试利用这一点。
这是一个非常令人兴奋的前景,因为许多未来的智慧医疗和智慧农业领域将大大受益于普及化的全基因组关联研究。
目前有一个由 45 家机构参与的项目,正在进行第六代未来气候生成,称为 CMIP。他们开始受到数据量日益增长的限制。每个机构都投入数亿个核心小时来生成这些未来气候数据。
气候模拟是一种统计模型,试图重现混沌模拟的统计数据。我们实际上将可查询距离从早期模型的大约 100 公里缩短到大约 3.5 公里。我们在 ALPS 系统上获得了 0.8 艾字节的混合精度计算能力,这使用了 2000 个节点。
我认为数字孪生技术正在重现现实世界的统计数据。通过结合能够重现基于偏微分方程模型的统计数据的高分辨率数据压缩技术,使地球的完整二维表面可见,我们认为我们已经普及了气候模拟。
NV副总裁Ian Buck: 看到研究人员正在努力利用人工智能的力量来推动科学发展,真是令人难以置信。虽然训练 AI 模型很重要,但真正的价值在于部署这些模型并在推理中使用它们,这样它们才能实时生成洞见和预测。为了让用户更容易地在生产环境中扩展 AI 模型,我们推出了 NVIDIA NIM 推理微服务。我们与全球的模型构建者合作,将他们的模型转换为高性能、高效的运行时 NIM。这些 NIM 的令牌吞吐量比标准 AI 运行时快两到五倍,提供了最佳的总拥有成本。
天气和气候影响着广泛的行业,包括交通运输、能源、农业和保险。造成超过 10 亿美元损失的极端天气事件的频率正在以惊人的速度增加。自 1980 年以来,美国严重风暴事件的经济影响增加了 25 倍。及时且准确的天气建模数据的重要性达到了历史最高水平。The Weather Company 使用 NVIDIA GPU 进行公里级模拟,其图形模型的吞吐量提高了 10 倍,能效提高了 15 倍,高于传统的基于 CPU 的模拟。为了进一步提高速度和效率,他们还在与 NVIDIA 合作,采用基于 AI 的方法来生成高分辨率的预报数据。
今天,我们宣布推出两个用于 Earth-2 的新型 NIM,为气候技术应用提供商提供新的 AI 功能。NVIDIA 的 Earth-2 CoreDiff 是一种用于公里级超分辨率的生成式 AI 模型。今年早些时候,我们展示了它在台湾上空超分辨率台风的能力。今天,Earth-2 NIM for CoreDiff 现已推出。CoreDiff 比使用 CPU 的传统高分辨率数值天气预报快 500 倍,能效高 10000 倍。我们还与美国气象预报机构合作,为整个美国大陆开发了一个 CoreDiff 模型,其面积是最初基于台湾的模型的 300 倍。
然而,并非每个用例都需要高分辨率预报。一些应用程序可以从较粗分辨率的大型集合中受益。最先进的数值模型(如 GFS)由于计算限制,仅限于 20 个集合。今天,我们还宣布 ForecastNet NIM 可用。它可以比数值天气模型快 5000 倍地提供全球两周预报,从而可以使用数千个成员的集合,并为气候技术提供商带来新的机遇。他们可以评估与极端天气相关的风险,并预测当前计算方法可能遗漏的低概率事件。
生物制药领域正在发生一场新的工业革命,其动力源于 AI。AI 模型缩短了治疗时间,并提高了新药的成功率。NVIDIA BioNemo 框架让科学家可以选择各种 AI 模板来构建自定义模型。BioNemo 专为制药应用而设计,因此与当今使用的其他 AI 软件相比,其训练性能提高了一倍。BioNemo 正在加速全球许多制药公司的计算机辅助药物研发。今天,我们宣布 BioNemo 框架已作为开源存储库在 GitHub 上推出,我们很高兴看到 AI 能为医疗保健行业的未来带来什么。
今天,我们还宣布推出 DiffDoc 2.0,这是一种用于预测药物与靶蛋白相互作用的 NVIDIA NIM 微服务。DiffDoc 2.0 比一年前发布的 1.0 版本快六倍。我们性能提升的主要驱动力之一是新的 QEquivariance 库,它加快了分子预测中必要的数学运算。DiffDoc 已使用 Plinder 数据库(世界上最大的分子蛋白质结构数据库)进行了重新训练,从而提高了 DiffDoc 的准确性。这个新版本旨在解锁药物发现中虚拟筛选的新规模,我们很高兴看到我们的研究人员生态系统接下来会用它做什么。
AI 改变了药物发现中蛋白质的研究,我们相信 AI 有可能在数字化学领域产生同样的影响。宇宙中估计有 10 的 60 次方种可能的材料,而目前已知的只有 10 的 8 次方种,因此具有巨大的创新潜力。我们宣布推出 NVIDIA Alchemy,这是一个用于发现新化合物的特定化学 NIM 集合。科学家首先定义他们想要的特性,例如强度、导电性、低毒性甚至颜色。生成模型会提出数千到数百万个具有所需特性的潜在候选者。然后,Alchemy NIM 可以通过使用 NVIDIA Warp 求解其最低能量状态来对候选化合物进行稳定性排序,从而使搜索速度提高 100 倍,将时间从几个月缩短到一天。使用 Alchemy 工作流程,在进行昂贵的现实世界测试之前,可以识别出最佳候选者。
传统的工程分析工作流程,从物理模拟到可视化,可能需要几周甚至几个月才能完成。大多数物理系统(例如飞机和汽车)的分析都使用一组松散耦合的应用程序,每个应用程序都会生成工程师在每个步骤都需要解读的信息。实时数字孪生使工程师能够动态调整设计参数。例如,您可以更改车身面板的形状,并实时查看它如何影响流线。
隆重推出用于实时数字孪生的 Omniverse Blueprint。Blueprint 是一个参考工作流程,其中包含 NVIDIA 的加速库、物理 AI 框架和 Omniverse,可在实时环境下进行设计、模拟和可视化。
它可以在所有云平台以及 NVIDIA 自有的 DGX Cloud 上运行。Altair、Cadence、Siemens 等公司正在探索如何将 Blueprint 集成到他们自己的服务和产品中,以加快设计速度。NVIDIA 也正在与 Rescale 合作,将 Blueprint 集成到他们的 Physics AI 平台中。让我们来看一下 Blueprint 的实际应用。
所有制造的产品都首先会使用高级物理引擎和求解器进行模拟。计算流体动力学模拟(CFD)可能需要数小时甚至数月的时间,从而限制了可能的方案探索数量。借助用于实时物理数字孪生的 NVIDIA Omniverse Blueprint,软件制造商可以将其现有的工具与 NVIDIA 加速库、物理机器学习和 RTX 可视化功能集成,从而将设计迭代时间加快 1200 倍。
在这里,Luminary Cloud 基于 Blueprint 构建了一个完全实时的虚拟风洞。首先,Luminary 使用 NVIDIA Modulus 物理机器学习框架,利用其 NVIDIA CUDA-X 加速的 CFD 求解器生成的数据来训练一个模拟 AI 模型。该模型理解气流场和各种汽车几何形状之间的复杂关系,生成的计算结果速度比单独使用求解器快几个数量级。
使用 Omniverse API 实时可视化 AI 输出结果。现在,工程师可以进行几何或场景修改,并实时查看效果。由于 Omniverse 的数据互操作性,工程师甚至可以引入新的几何形状,模拟将立即适应。
过去需要几周甚至几个月才能完成的工作,现在只需几秒钟。全世界的软件开发人员现在可以为全球的工业设计师和工程师带来前所未有的速度和灵活性,从而帮助节省大量成本并缩短上市时间。
NV副总裁Ian Buck: ANSYS 正在将其 CAE 平台与 NVIDIA 的技术相集成。ANSYS Fluent 由 NVIDIA GPU 加速,Nsight 由 Omniverse 可视化功能提供支持,SimAI 基于 NVIDIA NIM 微服务构建。人工智能不仅会改变模拟方式,还会加快科学实验的速度。先进仪器(如射电望远镜、粒子加速器、X 射线光源和聚变反应堆实验)正在产生海量数据。
例如,平方公里阵列预计将于十年内建成。位于澳大利亚的 SKAO 将平均每秒产生 1 TB 数据,是目前最先进阵列的 1000 倍。在粒子物理学领域,CERN 的 LHCB 探测器每秒产生 5 TB 的数据。在 2030 年升级后,它每秒产生的数据量可能高达 25 TB。仪器和研究人员的时间都非常宝贵,因此必须尽可能高效地从所有这些数据中提取有意义的见解。
我们正在与 SETI 研究所和突破聆听计划的研究人员合作,部署全球首个用于快速射电暴(FRB)检测的 AI 搜索系统。虽然已经探测到超过 1000 个快速射电暴,但只有 15 个被追溯到特定的星系。我们在艾伦望远镜阵列中实施了一个实时管道,利用 NVIDIA Holoscan 处理来自 28 个天线每秒 100 Gbit 的数据。该管道可处理的数据量是目前常用方法的 100 倍。这是将原始望远镜数据直接馈送到 AI 模型进行 FRB 检测的首次尝试。
量子硬件为从根本上彻底改变计算提供了机会。不幸的是,目前的最佳量子处理器只能执行数百次运算,然后其计算的基本单元——量子比特就会受到噪声的影响。这使得将量子硬件扩展到有用的计算设备变得不切实际。今天,我们宣布与 Google 合作,利用 NVIDIA 最先进的 AI 超级计算来解决这一挑战,并加快其量子硬件的开发。
为了发挥作用,量子计算机需要大量的量子比特,其性能要远超目前的水平。AI 超级计算是构建更高质量、纠错能力更强的量子比特的关键,这些量子比特才能满足这些需求。Google Quantum AI 正在与 NVIDIA 合作,探索如何加速其超导量子比特的数字表示。
与侧重于理想量子计算机高级操作的电路模拟不同,动力学模拟对描述真实、嘈杂量子硬件的复杂物理进行建模,充分考虑了量子处理器内部的量子比特不仅相互作用,还与周围环境相互作用的方式。模拟对于理解和减少特定于量子比特的噪声源至关重要。
使用 NVIDIA 硬件和软件,Google Quantum AI 研究人员可以加快这些复杂的模拟速度。这增强了研究人员理解其系统中噪声、探索新设计和提高硬件性能的能力,所有这些对于扩展量子处理器都至关重要。
NV副总裁Ian Buck: 我们还宣布,动力学模拟现已在我们的开源量子开发平台 CUDA-Q 中可用。这意味着,通过 CUDA-Q,模拟可以全面捕捉每个量子位的完整动力学,这与常用的量子模拟不同。以前需要一周才能完成的这类全面量子位模拟,现在只需几分钟即可运行。借助 CUDA-Q,所有量子处理器开发者都可以进行更大规模的模拟,并探索更可扩展的量子位设计。英伟达不断壮大的量子合作伙伴网络正共同努力,朝着实现实用的大规模量子计算这一目标迈进。
在本次激动人心的英伟达最新创新之旅结束之际,我们诚挚邀请您前往英伟达展台,亲身体验这些技术。与我们的数字人 James 互动,见证人工智能驱动虚拟互动的未来。体验基于 NVIDIA Omniverse 蓝图构建的世界首个实时交互式风洞。
探索 Earth-2 NIMS 在气候建模中的强大功能,并了解 Holoscan 如何彻底改变射电天文。您还将在我们的剧院听到研究人员分享在能源存储和地震模拟等领域的突破性进展。感谢您的参与,祝您在 2024 超算大会上度过愉快时光。
参考资料: https://www.youtube.com/watch?v=eKzNKxWUeCE,公开发表于2024-11-18
关注公众号后设🌟标,掌握第一手AI新动态