北京时间 1 月 7 日上午 10 点半,英伟达 CEO 黄仁勋在拉斯维加斯 CES 2025 展会上发表了主题演讲(keynote),涉及到的话题包括 GPU、AI、游戏、机器人等等。演讲开篇,黄仁勋回顾了英伟达 GPU 的发展史。从 2D 到 3D,CUDA 的诞生到 RTX。而到了人工智能时代,GPU 又推动了 AI 从感知进化到生成,接下来将会是智能体,未来还很快将要有进入物理世界的人工智能。机器学习改变了每个应用程序的构建方式以及计算的方式。现在,完全面向 AI 计算的硬件会是什么样子?英伟达为我们进行了一番展示。01
RTX 50 系列全线发布,
最高 3352 TOPS
英伟达的 Blackwell 架构 AI 计算卡问世已久,人们一直在期待新架构的消费级 GPU,今天英伟达直接来了个一次性发布。CES 现场,黄仁勋手持 RTX5090 显卡,雄赳赳气昂昂地登上了演讲台。性能参数上,Blackwell GPU 的 RTX 5090 拥有 920 亿晶体管、3352 AI TOPS(每秒执行万亿次运算次数)、380 RT TFLOPS(每秒执行万亿次浮点运算次数)以及 125 Shader TFLOPS(着色单元)。RTX5090(及 5090D)拥有 32 GB GDDR7 显存,显存位宽 512 位,CUDA 核心数量是 21760,功耗 575W。更详细的指标如下图所示:RTX 5090 是迄今为止最快的 GeForce RTX GPU,在 Blackwell 架构创新和 DLSS 4 的加持下,RTX 5090 的性能比 RTX 4090 高出了 2 倍。还有更多的新技术:新一代超分辨率 DLSS 4 将性能提升了 8 倍。英伟达首次推出了多帧生成功能,通过使用 AI 为每个渲染帧生成多达三帧来提高帧速率。DLSS 4 与 DLSS 技术套件协同工作,从而将性能提高到了传统渲染的 8 倍,同时通过 NVIDIA Reflex 技术保持响应速度。DLSS 4 还引入了图形行业首个 Transformer 模型架构的实时应用。基于 Transformer 的 DLSS 光线重建和超分辨率模型使用 2 倍以上的参数和 4 倍以上的算力,以在游戏场景中提供更高的稳定性、更好的重影、更高的细节和增强的抗锯齿效果。在发布当天,DLSS 4 将在超过 75 款游戏和应用程序中支持 RTX 50 系列 GPU。同时,NVIDIA Reflex 2 引入了 Frame Warp 创新技术,在将渲染帧发送到显示器之前根据最新的输入更新渲染帧来减少游戏延迟。Reflex 2 最多可将延迟降低 75%,这让游戏玩家在多人游戏中占据竞争优势,并使单人游戏的响应速度更快。另外,Blackwell 还将 AI 引入了着色器。25 年前,NVIDIA 推出了 GeForce 3 和可编程着色器,为长达 20 年的图形创新奠定了基础,包括像素着色、计算着色和实时光线追踪。此次 NVIDIA 还推出了 RTX 神经着色器,将小规模 AI 网络引入了可编程着色器,在实时游戏中解锁电影级材质、灯光等。渲染游戏角色是实时图形中最具挑战性的任务之一,RTX Neural Faces 将简单的光栅化人脸和 3D 姿势数据作为输入,并使用生成式 AI 实时渲染时间稳定、高质量的数字人脸。RTX Neural Faces 与用于光线追踪头发和皮肤的全新 RTX 技术相得益彰,并与全新 RTX Mega Geometry 一起,可以在场景中实现多达 100 倍的光线追踪三角形,从而有望为游戏角色和环境带来巨大的真实感飞跃。英伟达中文官网也展示了 RTX 50 系列的参数情况。在揭晓价格时,老黄玩了一个花招:还记得 RTX4090 的价格吧?现在你买 RTX5070,549 美元(国行售价 4599 元)就可以买到 4090 的性能。不过看起来在 RTX5090 上,这一代还是涨价了(RTX4090 是 1599 美元),达到了 1999 美元。国行的 RTX 5090D 价格也已出来了,16499 元起,RTX 5080 是 8299 元起。在移动端,RTX50 系列的性能提升也是非常可观的,黄仁勋特意拿出来一台 RTX 5070 的笔记本。今年移动版显卡的上市速度也会很快。不过黄仁勋并没有仔细介绍各型号的基础性能,还要等到时的真机测试。预计最早在 3 月份,就会有搭载 RTX50 系列显卡的设备上市。在继续演讲之前,黄仁勋先摆了个 pose:「全世界的互联网流量都能通过这些芯片进行处理。」他手里拿着的一大块晶圆上面有 72 个 Blackwell GPU,AI 浮点性能达到 1.4 ExaFLOPS,这就是 Grace Blackwell NVLink72。与上一代产品相比,Blackwell 的每瓦性能提高了 4 倍。02
新 Scaling Laws,
首个基础世界模型 Cosmos
我们知道,大模型遵循扩展定律(Scaling Laws),最近 AI 领域正在热烈地讨论的是规模是否走到头了。在英伟达看来,Scaling Laws 仍在继续,所有新 RTX 显卡都在遵循三个新的扩展维度:预训练、后训练和测试时间(推理),提供了更佳的实时视觉效果。英伟达宣布推出基于 Llama 的一系列模型,包括 Llama Nemotron Nano、Super 和 Ultra。它们涵盖从 PC 和边缘设备到大型数据中心等所有领域。英伟达还发布了运行在 RTX AI PC 上的基础模型,可支持数字人、内容创造、生产力和开发等任务。这些模型都以 NIM 微服务的形式提供。基于 NIM 微服务构建的英伟达 AI Blueprints 可提供易于使用的预先配置好的参考工作流程。AI 的下一个前沿是物理 AI,现在已经出现具身智能、空间智能等新概念。在 CES 上,英伟达发布了世界模型 Cosmos 平台,其中包含 SOTA 的生成式基础世界模型、高级的 tokenizer、护栏以及高速视频处理流程。Cosmos 的目标是推动自动驾驶汽车 (AV) 和机器人等物理 AI 系统的发展。英伟达表示,物理 AI 模型的开发成本很高,需要大量现实世界的数据和测试。Cosmos 世界基础模型(WFM)可为开发者提供一种生成大量照片级真实、基于物理的合成数据的简便方法,以训练和评估他们现有的模型。开发者还可以通过微调 Cosmos WFM 来构建定制模型。英伟达表示已经有许多领先的机器人和汽车公司成为 Cosmos 的首批用户,包括 1X、Agile Robots、Agility、Uber 等等。黄仁勋表示:「机器人技术的 ChatGPT 时刻即将到来。与大型语言模型一样,世界基础模型对于推动机器人和自动驾驶汽车开发至关重要,但并非所有开发者都具备训练自己的世界模型的专业知识和资源。我们创建 Cosmos 是为了让物理 AI 普及化,让每个开发者都能用上通用机器人技术。」演讲中,黄仁勋还展示了一些使用 Cosmos 模型的方式,包括视频搜索和理解、基于物理学的照片级真实感的合成数据生成、物理 AI 模型开发与评估、使用 Cosmos 和 Omniverse 来生成可能的未来。构建物理 AI 模型需要数 PB 的视频数据和数万小时的计算时间来处理、整理和标记这些数据。为了帮助节省数据整理、训练和模型定制方面的巨额成本,Cosmos 提供了以下功能:NVIDIA AI 和 CUDA 加速数据处理 pipeline,由 NVIDIA NeMo Curator 提供支持,使开发人员能够使用 NVIDIA Blackwell 平台在 14 天内处理、整理和标记 2000 万小时的视频,而使用 CPU-only 的 pipeline 则需要三年多的时间。
NVIDIA Cosmos Tokenizer 是一种最先进的视觉 tokenizer,用于将图像和视频转换为 token。与当今领先的 tokenizer 相比,它的总压缩率提高了 8 倍,处理速度提高了 12 倍。
目前,整个物理 AI 行业的先驱都在使用 Cosmos,比如 AI 和人形机器人公司 1X 使用 Cosmos Tokenizer 推出了 1X 世界模型挑战赛数据集,另一家以自动驾驶汽车为起点为世界提供生成式 AI 的先驱 Waabi 在自动驾驶软件开发和仿真的数据管理环境中评估 Cosmos。03
AI 超级计算机 Project DIGITS
英伟达还将之前的 AI 超级计算机 DGX-1 升级成了 Project DIGITS。整体来说:体型更小,性能更强。英伟达对其的描述是:「一款向全球的 AI 研究者、数据科学家和学生提供的个人 AI 超级计算机,让他们可以获得 NVIDIA Grace Blackwell 平台的力量。」Project DIGITS 采用全新的英伟达 GB10 Grace Blackwell 超级芯片,可提供 PFLOPS 级 AI 计算性能,可用于原型设计、微调和运行大型 AI 模型。使用 Project DIGITS,用户可以使用自己的桌面系统开发和运行模型推理,然后在加速云或数据中心基础设施上无缝部署模型。GB10 超级芯片可提供 PFLOPS 级且高能效的 AI 性能GB10 超级芯片(Superchip)是基于 Grace Blackwell 架构的 SoC,可在 FP4 精度下提供高达 1 PFLOPS 的 AI 性能。GB10 配备 Blackwell GPU,其中采用了最新一代 CUDA 核心和第五代 Tensor Cores,在通过 NVLink-C2C 芯片间互连连接到高性能 Grace CPU,其中包括 20 个采用 Arm 架构构建的高能效核心。英伟达表示,联发科也参与了 GB10 的设计。GB10 超级芯片使 Project DIGITS 能够仅使用标准电源插座,就能提供强大的性能。每个 Project DIGITS 都具有 128GB 内存和高达 4TB 的 NVMe 存储。借助这款超级计算机,开发者可以运行多达 2000 亿参数的大型语言模型,从而加速 AI 创新。此外,借助 NVIDIA ConnectX 网络,还可将两台 Project DIGITS AI 超级计算机连接起来,运行多达 4050 亿参数的模型。借助 Grace Blackwell 架构,企业和研究人员可以在运行 Linux 版 NVIDIA DGX OS 的本地 Project DIGITS 系统上对模型进行原型设计、微调和测试,然后将其无缝部署到 NVIDIA DGX Cloud、加速云实例或数据中心基础架构上。这允许开发人员在 Project DIGITS 上对 AI 进行原型设计,然后使用相同的 Grace Blackwell 架构和 NVIDIA AI Enterprise 软件平台在云或数据中心基础架构上进行扩展。另外,Project DIGITS 用户可以访问广泛的 NVIDIA AI 软件库进行实验和原型设计,包括有 NVIDIA NGC 目录和 NVIDIA 开发者门户中提供的软件开发套件、编排工具、框架和模型。开发人员可以使用 NVIDIA NeMo 框架微调模型,使用 NVIDIA RAPIDS 库加速数据科学,并运行 PyTorch、Python 和 Jupyter Notebooks 等常见框架。英伟达表示其以及顶级合作伙伴将在 5 月推出 Project DIGITS,起售价为 3000 美元。https://nvidianews.nvidia.com/news/nvidia-blackwell-geforce-rtx-50-series-opens-new-world-of-ai-computer-graphics
https://nvidianews.nvidia.com/news/nvidia-launches-cosmos-world-foundation-model-platform-to-accelerate-physical-ai-development
https://nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-every-desk-and-at-every-ai-developers-fingertips
转载原创文章请添加微信:founderparker