生成式 AI 领域正在迅速发展,每天都有新的大语言模型(LLM)、视觉语言模型(VLM)和视觉语言动作模型(VLA)出现。为了在这一充满变革的时代保持领先,开发者需要一个足够强大的平台将云端的最新模型无缝部署到边缘,从而获得基于 CUDA 的优化推理性能和开放式机器学习(ML)框架。
为了支持机器人和多模态智能体领域的新兴生成式 AI 工作负载应用,NVIDIA 以软件升级的方式对 NVIDIA Jetson Orin Nano 开发者套件进行了升级,其性能史无前例地提升至 1.7 倍。目前建议零售价仅为 2070 人民币。鉴于 AI 性能和易访问性的大幅提升,Jetson Orin Nano 开发者套件已更名为 NVIDIA Jetson Orin Nano Super 开发者套件。
Jetson Orin Nano 开发者套件只需通过软件升级,即可升级为 Jetson Orin Nano Super 开发者套件。
本文将详细介绍该开发者套件的新功能,以及开发者能够如何充分利用这一更强大的性能。
全新 Jetson Orin Nano Super
开发者套件
全新 Jetson Orin Nano Super 开发者套件做出了以下改进:
生成式 AI 性能提升至 1.7 倍
稀疏计算性能从之前的 40 TOPS 大幅提升至 67 TOPS
内存带宽从之前的 65 GB/s 大幅提升至 102 GB/s
CPU 时钟频率从 1.5 GHz 提升至 1.7 GHz
目前建议零售价为 2070 人民币
视频 1. NVIDIA Jetson Orin Nano Super 介绍:
高性价比的生成式 AI 计算机
在保持硬件架构不变的前提下,通过提高 GPU、内存和 CPU 的时钟频率,即可实现性能提升。之前所有的 Jetson Orin Nano 开发者套件都可以通过升级到最新版本的 JetPack,实现性能提升。
凭借这一性能升级,Jetson Orin Nano Super 开发者套件的生成式 AI 性能提升了 70%,能够支持运行最新的基于 Transformer 的模型。这一套件尺寸小巧但是性能强大,可以轻松处理各种 LLM、VLM 和视觉 Transformer(ViT),无论是较小的模型还是参数多达 8B 的模型(例如 Llama-3.1-8B 模型)都不例外。
Jetson 所支持的 ML 框架和优化推理基础架构与其他平台相同,例如 HuggingFace Transformer、Ollama、llama.cpp、vLLM、MLC、NVIDIA TensorRT-LLM 等。因此,Jetson 非常适合用于在云、边缘和 PC 之间快速调整和部署可扩展的理想解决方案。
Jetson Orin Nano Super
开发者套件配置
表 1. Jetson Orin Nano Super 开发者套件配置比较
运行各种 LLM、VLM 和 ViT
NVIDIA Jetson Orin Nano Super 开发者套件实现了性能的颠覆性突破,对于将生成式 AI 带入嵌入式应用,或者在高性价比的计算机中使用最前沿的生成式 AI 模型,它都将是理想的选择。
LLM、VLM 和 视觉 Transformer(ViT)是推动各个领域创新的变革性 AI 架构。基础 LLM 擅长通用语言处理和类人文本生成,结合 NVIDIA Riva 等流式语音识别和合成管线,可实现自然的人机交互界面。
小语言模型(SLM)通过剪枝和蒸馏等技术迅速实现性能提升,发展到可与大模型媲美的程度。这些模型专门针对边缘计算场景优化,其参数规模一般不超过 7B。
如今,开放式 LLMs 和 SLMs 普遍被训练用于智能体工具的使用和结构化 I/O 函数的调用,这使得 LLM 的解析和推理能力能够接入现实系统。
包括 NVIDIA NeMo 在内的许多 ML 框架对 LLM 的微调和内存高效的 LoRAs 的支持也有所提升,这为特定应用领域 SLMs 的对齐和专业化提供了明确的指导。
ViT 通过将像素片段标记化为嵌入式内容,充分发挥出 Transformer 在视觉方面的强大功能。它们在各种基本任务中都具有领先的性能,包括:
特征提取
分类
检测
分割
位姿估计
它们还可通过 NVIDIA Cosmos 标记器扩展到 3D 点云和视频等更高维度的模式。ViT 推动了创造性的新型混合模型的发展,这些模型将定制的视觉功能与开放词汇语言支持以及对各种主题和对象类别的动态运行时查询相结合,而无需额外的微调。
VILA 等 VLM 通过融合各种视觉和文本模式的 ViT 和 LLM,使模型能够理解和生成详细的场景描述、检测感兴趣的对象并使用 OCR 提取文本。它们可以使用多模态推理响应用户对图像或视频序列的查询。
在经过了与 SLM 类似的微缩化处理后,VLM 在边缘应用中的作用越来越大,并且凭借灵活的事件触发警报和摘要功能,而被用于远程监控摄像头的数据流,比如在 Jetson 平台服务的 VLM 参考工作流中。
这些技术共同推动着生成式 AI 和多模态系统以及现实应用的进步。全新 NVIDIA Jetson Orin Nano Super 大幅提升了各种 LLM、SLM、ViT 和 VLM 的性能,并且大大降低了作为物理 AI 入口的最新 Transformer 模型的入门门槛。我们对一些常用的 LLM、VLM 和 ViT 进行了基准测试,并展示了 Jetson Orin Nano Super 开发者套件较前代产品所带来的速度提升。
图 1. LLM 在 Jetson Orin Nano Super
开发者套件上的性能提升情况
表 2. 常用 LLM 的基准测试性能(tokens/s)
*使用 MLC API 并经过 INT4 量化的 LLM 生成性能(tokens/s)。
图 2. VLM 在 NVIDIA Jetson Orin Nano Super
开发者套件上的性能提升情况
表 3. 常用 VLM 的基准测试性能(tokens/s)
*所有 VILA 和 LLAVA 模型均使用 MLC 以 INT4 精度运行,
其余模型使用 Hugging Face Transformer 以 FP4 精度运行。
图 3. ViT 在 NVIDIA Jetson Orin Nano Super
开发者套件上的性能提升情况
表 4. 常用视觉 Transformer 的 基准测试性能(帧/秒)
*所有 ViT 模型均使用 NVIDIA TensorRT 以 FP16 精度运行(单位:帧/秒)。
开始使用
Jetson Orin Nano Super 开发者套件
如要升级性能,请在 JetPack SDK 页面下载 SD 卡镜像,并按照入门指南进行操作。
NVIDIA 发布了基于 JetPack 6.1 的 SD 卡镜像以升级性能。您也可以使用 SDK 管理器为 Jetson Orin Nano 开发者套件安装升级性能后的 JetPack 6.1。请确认已更新 SDK 管理器,并在安装时选择 JetPack 6.1 (rev. 1)。
启动并运行 JetPack 后,使用以下命令更改性能模式以获得超强性能。模式 2 是具有超强性能的 MAXN 模式。
sudo nvpmodel
-
m
2
您也可以使用 Ubuntu 桌面顶栏右侧的性能模式选择器更改性能模式。
图 4. 性能模式选择工具
在 Jetson Orin Nano Super
开发者套件上体验生成式 AI
NVIDIA 在 Jetson AI Lab 中提供了一系列教程和预构建容器,便于您在 Jetson Orin Nano 开发者套件上探索生成式 AI。如果您对机器人感兴趣,可以浏览 LeRobot 教程。如果您想要创建生成式 AI 聊天机器人,我们也提供了专门的创建教程。
Hugging Face LeRobot
NVIDIA 与 Hugging Face 合作,共同加速 LeRobot 开放式 AI 平台上的机器人研究。您可以在 Jetson Orin Nano Super 开发者套件上运行 HuggingFace LeRobot,该平台所运行的生成式 AI 模型能够根据视觉输入和先前轨迹预测特定任务的行动。
图 5. 在 Jetson Orin Nano 开发者套件上
运行的 HuggingFace LeRobot
使用 Ollama 构建生成式 AI
驱动的聊天机器人
使用带有 Open WebUI 的 Ollama 构建一个生成式 AI 聊天机器人,并在 Jetson Orin Nano Super 开发者套件上运行。Open WebUI 是一个被广泛使用的开源聊天机器人服务器接口,可对接本地运行的 LLM。这样,该聊天机器人就可以使用检索增强生成(RAG)进一步增强用户体验和功能。
图 6. 在 Jetson Orin Nano Super 开发者套件上
运行的生成式 AI 聊天机器人
通过 Jetson AI Lab 推动
生成式 AI 的发展
Jetson AI Lab 让您能够集中探索和尝试专为边缘设备优化的最新生成式 AI 技术。
通过建立一个开放协作和社区引导的环境,NVIDIA 与开发者和合作伙伴携手推进开源边缘 AI 和机器人学习的发展。我们的 Jetson 设备全面支持常用的机器学习框架和经过优化的推理微服务,您可以在 Jetson 计算机上快速构建和部署最新的创新研究成果和模型,跟上日新月异的创新步伐。
图 7 所示的是 NanoOWL 开放词汇实时对象检测 ViT 的示例。
图 7. 实时对象检测视觉示例
图 8 所示的是具有交互式 txt2img 和 img2img 相似性搜索功能的 NanoDB 多模态矢量数据库。
图 8. 图像相似性搜索示例
Jetson AI Lab 提供了近 50 个简单易学的教程和预构建容器,让任何经验水平的开发者都能快速开始使用设备端的 LLM、SLM 和多模态 VLM 以及各种 VLA、扩散策略和语音模型变体。虽然它们都部署在本地,但却具有与云端相同的优化推理基础设施。
Jetson AI Lab 的协作式社区引导型教程和资源大大降低了在边缘部署先进生成式 AI 的门槛。
所有 Jetson Orin Nano
和 Jetson Orin NX 系列模组
均可实现超强性能升级
NVIDIA 还升级了整个 Jetson Orin Nano 系列和 Jetson Orin NX 系列的性能。无论是小型 AI 摄像头,还是大型自主机器,所有边缘设备都需要算力来运行生成式 AI 模型。
在相同的模块硬件上,您可以使用不同模块实现最高 1.7 倍的性能提升。
Orin Nano系列:提高 GPU、CPU 和内存上的频率和性能。
Orin NX 系列:提高 GPU 和 DLA 的性能。
表 5. Jetson Orin Nano Super
和 Orin NX Super 模组规格
适用于 Jetson Orin Nano 和 Orin NX 模组的性能升级支持和文档将于 1 月上半月随 JetPack 6.1.1 一起发布。
由于客户对 Orin 的需求日益增长,NVIDIA 最近还宣布将 Jetson Orin 的产品生命周期延长至 2032 年底。凭借此次超强性能升级,Orin Nano 系列和 Orin NX 系列已成为当前和未来模型的理想平台。
即刻开始您的生成式 AI 开发工作
Jetson Orin Nano Super 开发者套件是引领边缘计算生成式 AI 开发的最佳平台。即刻开始您的开发工作,加入这个由高级开发者和研究者所组成的充满活力的多元化社区,和 NVIDIA 一起使用物理 AI 解决现实世界的挑战。
现有 Jetson Orin Nano 开发者套件用户,即刻就可以升级您的 JetPack SDK 以提升性能:
https://developer.nvidia.cn/embedded/jetpack
了解有关 Jetson Orin Nano Super 开发者套件的更多信息:
https://www.nvidia.cn/autonomous-machines/embedded-systems/jetson-orin/nano-super-developer-kit/
点击“阅读原文”或扫描海报二维码,北京时间 1 月 7 日(星期二)上午 10:30 观看 NVIDIA CEO 黄仁勋在拉斯维加斯现场发表的 CES 开幕主题演讲。