关注公众号,点击公众号主页右上角“ · · · ”,设置星标,实时关注汽车半导体最新资讯
在本届CES 上Nvidia 宣布推出一款搭载全新 GB10 Grace-Blackwell 超级芯片并配备 128GB 内存的台式计算机,为 AI 开发人员、研究人员和学生提供在桌面上运行大型模型所需的工具。
代号为 Project Digits 的这款售价 3,000 美元的系统今天在拉斯维加斯举行的年度 CES 超级盛会上发布,它与联发科合作开发,采用基于 Arm 的 Grace CPU 和 Blackwell GPU,根据 Nvidia 发布的渲染图,它们似乎位于单个 SoC 中。包装盒将附带预配置的特殊 Ubuntu Linux,以充分利用硬件。
Project Digits 在尺寸方面与英特尔 NUC 迷你电脑有些相似。Nvidia 尚未详细介绍 GB10 的全部规格,但表示它所驱动的机器可提供完整的 petaFLOP AI 性能。但在您对小型台式机超越 Nvidia 的 A100 张量核心 GPU 的前景感到兴奋之前,请知道该机器的性能是在稀疏的 4 位浮点工作负载上测量的。
我们看到的规格表明,GB10 配备了一个 20 核 Grace CPU 和一个 GPU,其性能仅为 Nvidia GB200 AI 服务器中使用的双 Blackwell GPU 的 40 分之一。
尽管如此,这台机器的性能还是比搭载英特尔、AMD 或高通处理器的 AI PC 强大得多,但很难与搭载 Nvidia 当前旗舰工作站卡 RTX 6000 Ada 的工作站相媲美。该加速器拥有 1.45 petaFLOPS 的稀疏 FP/INT8 性能,大约是我们认为 Project Digits 在该精度下将提供的性能(500 teraFLOPS)的三倍。
为这些浮点运算提供数据的是 128GB 的 LPDDR5x 内存。据 Nvidia 企业平台产品营销总监 Allen Bourgoyne 称,为系统配备如此大内存的决定是有意为之,以便更轻松地处理大型 AI 模型。
Nvidia 声称 Project Digits 将能够支持多达 2000 亿个参数的模型。然而,为了将这样的模型装入机器,它们需要被压缩到 4 位,你可以在我们的动手指南中详细了解这个概念。
借助板载 ConnectX 网络,运行更大的模型将成为可能。Nvidia 表示,该网络允许将两台计算机连接起来,这样它们就可以运行最多 4050 亿个参数的模型。这使得 Meta 的 Llama 3.1 405B 能够发挥作用,同样是 4 位。
作为参考,如果您想在现有工作站硬件上以 4 位运行相同模型,则至少需要五个 48GB GPU。
目前尚不清楚 Project Digits 在运行此类模型时的表现如何,因为在撰写本文时,Nvidia 尚未披露内存带宽,这是大型语言模型推理性能的一个关键指标。
从周一晚上 Nvidia 宣布推出这款产品的 CES 主题演讲之前向媒体展示的渲染图来看,该系统似乎配备了六个 LPDDR5x 模块。假设内存速度为 8,800 MT/s,我们将看到大约 825GB/s 的带宽,这与 RTX 6000 Ada 的 960GB/s 相差不远。对于 2000 亿参数模型,这将达到大约 8 个token/秒。同样,这只是猜测,因为在首席执行官黄仁勋发表 CES 主题演讲之前,该系统的完整规格表尚未公布。
除了 AI 推理之外,Nvidia 还预计 Project Digits 将非常适合模型实验、微调、数据科学和其他边缘应用。
除了充足的内存外,Project Digits 还将配备 4TB 的 NVMe 存储,这对于大多数开放模型来说已经足够了,特别是那些已经量化到 4 位的模型。
客户有望从五月份开始获得桌面超级芯片,但正如我们之前提到的,它的价格并不便宜,系统起价为 3,000 美元。
Project Digits 并非 Nvidia 首次进军桌面领域。这家 GPU 巨头多年来一直提供 Jetson 开发套件,并于 2024 年 12 月推出了一款新型号——Orin Nano Super。
从本质上来说,新机器只是成熟版的 Jetson,但拥有更强大的计算能力。
Nvidia 尚未表示是否会向其他 PC 制造商提供 GB10——这是一个可能撼动市场的诱人前景。
就目前的情况来看,这款机器更像是为了让人们熟悉 Nvidia 更强大的 Grace-Blackwell 超级芯片,例如我们之前研究过的 GB200 和 GB200 NVL4 。
原因很简单:迄今为止,Nvidia 的 Grace CPU 中使用的 Arm Neoverse V2 内核是在两年多前发布的,并且在设计时考虑到了数据中心工作负载。
这并不是说 Nvidia 将来不会将 GB10 推向游戏和图形中心产品,就像该公司已经对其 Tegra 系列 SoC 所做的那样。如果 GB10 使用比原始 Grace CPU 更现代的 CPU 内核,这当然不是不可能。
Arm 和 Nvidia 似乎都对 Grace Blackwell 的合作感到兴奋。Arm 在其新闻稿中表示:“NVIDIA Grace CPU 采用我们尖端、性能最高的 Arm Cortex-X 和 Cortex-A 技术,拥有 10 个 Arm Cortex-X925 和 10 个 Cortex-A725 CPU 内核。”Nvidia SoC 产品副总裁 Ashish Karandikar 补充道:“我们与 Arm 在 GB10 超级芯片上的合作将推动下一代 AI 创新。”
Nvidia 宣布 RTX 5090 ,售价 1999 美元
Nvidia 在2025 年CES主题演讲中回顾了公司历史,从 NV1 和街机开始,逐渐发展成为 AI 巨头。其目标是将机器学习应用于所有可能的应用程序,所有这些都由 Nvidia GPU(GeForce 建造的房子)提供支持。而这才是我们真正要看的:基于 Blackwell 架构的下一代 GeForce 硬件。
直奔主题,Nvidia 以 549 美元的 RTX 5070 拉开了 GPU 发布的序幕。据 Nvidia 称,它将以各种方式利用 AI,以三分之一的价格提供 RTX 4090 的性能。它还将使笔记本电脑的性能更高,移动版 RTX 5070 的功耗只有 RTX 4090 的一半,但性能却与之相当(我们假设 Nvidia 谈论的是移动版 4090,尽管目前还不清楚)。
已宣布的 50 系列产品阵容的其余部分包括 RTX 5090,售价 1,999 美元,是本世代的头号产品,具有 3,400 AI TOPS 的性能。RTX 5080 将提供略多于一半的 AI 性能,达到 1,800 TOPS,价格更具吸引力,为 999 美元——继承了即将推出的 RTX 4080 Super 的价格。接下来是 RTX 5070 Ti,售价 749 美元,具有 1,400 TOPS,最后是 RTX 4070,具有 1,000 TOPS,价格已公布为 549 美元。
这是下一代 GPU 公告的令人印象深刻的开端,但我们需要了解 Nvidia 计划如何实现这些升级。关于这些 GPU,我们还有许多尚不了解(官方)的信息。但让我们从我们已知的开始。Nvidia 现在已经列出了许多核心规格,我们也对表格进行了相应的更新。
您会注意到,仍然存在一些问号,主要是在低于 RTX 5090 级别的 GPU 上。Nvidia 提供了顶级 GPU 的完整规格,但未提供或暗示其他型号的晶体管数量、芯片尺寸和内存速度。我们暂时只是猜测。
鉴于所述的 AI TOPS 性能,首先要注意的是,相对于 Ada Lovelace,Nvidia 将 AI 计算操作增加了一倍——至少对于 INT8 工作负载而言。我们的 Blackwell RTX 50 系列概述已经有一段时间传闻规格,根据 AI TOPS 和其他规格,我们假设其余的张量核心性能也翻了一番。Nvidia
还展示了“RTX Blackwell”,通过着色器提供 125 TFLOPS 的 FP32 图形计算,比其 Ada 一代高出 1.5 倍,而 AI 性能将是其 3 倍。但这是针对全功能 GB202 芯片而言的,而不是针对 RTX 5090 中使用的精简解决方案。未来可能会有更高规格的 RTX 5090 Ti 甚至 Titan,或者如果不是这样,肯定有可能使用完全启用的 GB202 芯片开发更高级别的 AI / 数据中心部件。
到目前为止,已发布的 RTX 50 系列部件均未提供标准 16Gb (2GB) GDDR7 模块以外的任何功能。这意味着,虽然 RTX 5090 上的 512 位接口提供了高达 32GB 的 VRAM,但 5080 和 5070 Ti 上的 256 位接口仍然配备 16GB GPU,而 5070 上的 192 位接口将“仅”提供 12GB 的 VRAM。
目前,这通常足以运行更多游戏,但考虑到 AI 工作负载对 VRAM 的巨大需求,我们一点也不会惊讶地看到每个 GPU 的未来版本都配备 24Gb(3GB)内存模块,从而将各级 VRAM 容量提高 50%。也许这将成为明年中期更新的一部分。
我们不知道 Blackwell 中使用的第五代张量核心是否会使其他数字格式的吞吐量翻倍。考虑到这些 GPU 的多用途用例——它们将用于游戏卡,但也会用于专业 GPU 和数据中心 AI 解决方案——我们怀疑张量核心的各个方面都得到了升级。我们已经根据需要更新了 FP16 性能,尽管问号表示我们不确定这些数字。
有趣的是,如果我们插入已知的时钟速度和核心数量,我们就会得到大部分最终规格。125 TFLOPS 数字还伴随着最大 4,000 INT8 TOPS,而 RTX 5090 将其缩小到 3,400 TOPS——大约是完全启用的 GB202 的 85%。因此,假设芯片的 125 TFLOPS 数字在 RTX 5090 上缩小到 ~107 TFLOPS,这是有道理的。
据传,GB202 最多有 192 个 SM,而 RTX 5090 只启用了 170 个。有了 2.41 GHz 的升压时钟,我们还想知道这是否与 RTX 40 系列的升压时钟一样保守。大多数 40 系列 GPU 的升压频率往往比列出的升压时钟高出约 200 MHz,因此如果 Blackwell 的情况保持不变,我们可以预期时钟频率在 2.6-2.7 GHz 范围内。
1.8TB/s 的带宽数字确实与之前传闻的在 512 位内存接口上运行的 28 Gbps GDDR7 内存完全匹配。5080、5070 Ti 和 5070 是否也会使用 28 Gbps GDDR7,还是它们的时钟频率会更高一些?我们预计 5080 至少将超过 28 Gbps,并已暂定将其速度提高到 32 Gbps,等待进一步细节,而 5070 级 GPU 暂定为 30 Gbps。如果Nvidia 将其所有游戏 GPU 上的 AI 计算能力提高一倍,它将做什么?当然,它计划推出新功能和软件解决方案来利用这些功能。RTX 5070 提供 1,000 TOPS 的计算能力,性能几乎与 RTX 4090(1,320 TOPS)相同,但价格仅为其三分之一,这为计算要求更高的任务打开了大门。
最有可能的用例之一是基于 AI 的纹理压缩。我们过去听说过这个,这个想法已经在上一代硬件上运行过……但不是在极端帧速率下。早在 2023 年 5 月,神经纹理压缩 (NTC) 的运行速度还不到标准 BTC(块截断编码)压缩的一半。但 18 个月后,随着 AI 计算能力的增强和训练的增加?我们可以让 NTC 以与传统 BTC 相同的速度运行。
考虑到我们和其他人对现代游戏中 GPU 耗尽 VRAM 的担忧,NTC 成为 Blackwell 一代硬件的主要新功能之一也就不足为奇了。它拥有更高的图像质量,内存使用量只有三分之一,如果利用它,甚至可以使 8GB 显卡更加可行——而 12GB 的 5070 也不会那么令人担忧。
只有一个小问题:许多游戏都是跨平台游戏,运行在搭载 AMD GPU 的控制台上。如果 Nvidia 的新纹理压缩技术只需要一张 RTX 显卡,那么有多少游戏会支持它?如果它需要一张 RTX 50 系列显卡,那么这个数字就会小得多。但 Nvidia 有足够的影响力来推动游戏市场,而 AMD 和英特尔则无法做到这一点。Nvidia也有可能通过在驱动程序中设置 NTC 设置或将其作为 DLSS 的一部分来解决这个问题,即使它们不明确支持该功能,也可以与游戏配合使用。在我们看来,这将是理想的情况,因为这意味着大量游戏都有潜在的 VRAM 有效容量优势。我们还想知道 NTC 是否会锁定在 RTX 50 系列上,或者它是否也会在其他 RTX GPU 上可用。
换句话说,我们有很多问题,我们将在未来几天找到更多信息。这很可能都是 DLSS 4 系列技术的一部分,这些技术在主题演讲期间的游戏演示中进行了展示。在“神经渲染图形”的大标题下,我们看到了各种新技术的应用:DLSS 4、RTX 神经材料、DLSS:CNN、DLSS:Transformer、文本转动画和 RTX 神经人脸——当然,所有这些都具有完整的光线追踪功能。然而,所有这些新技术都已启用,当然它们似乎很有前景,因为演示视频看起来相当惊人。
除了桌面 GPU,Nvidia 还宣布了移动系列产品名称。2025 年 3 月将有 RTX 5090、5080、5070 Ti 和 5070 笔记本电脑上市。虽然型号名称与桌面产品线一致,但性能会明显降低,我们预计其他规格也会有类似的削减。
RTX5090 笔记本电脑 GPU 将提供 1,850 AI TOPS,起价为 2,899 美元。这意味着它基本上与桌面 RTX 5080 相同。移动 5080 降至 1,350 AI TOPS,略低于桌面 5070 Ti。移动 5070 Ti 将具有与桌面 5070 相同的 1,000 TOPS,然后普通 5070 笔记本电脑 GPU 将提供高达 800 AI TOPS——这可能是即将推出的 RTX 5060 Ti 桌面部件的预告。
正如您所料,主题演讲的其余部分花了很多时间讨论人工智能在各种其他领域的应用——汽车、医疗、仓库、机器人等。这些都是我们在过去几年里从 Nvidia 那里反复听到的东西,它们都很有趣,但这并不是我们真正的核心关注点。人工智能领域发生了太多事情,有时感觉很像我们在 2020-2021 年听到的加密货币和 NFT 炒作。只是,这一次,我们似乎不会看到以太坊挖矿的结束,从而让事情平静下来。
来源:半导体芯闻
往期回顾
【免责声明】文章为作者独立观点,不代表汽车半导体立场。如因作品内容、版权等存在问题,请于本文刊发30日内联系汽车半导体13866369365进行删除或洽谈版权使用事宜。