英伟达(Nvidia)推出了 Llama Nemotron 大语言模型(LLM)和 Cosmos Nemotron 视觉语言模型(VLM),特别强调由 AI 智能体代理驱动的工作流程,例如客户支持、欺诈检测、产品供应链优化等。Nemotron 系列中的模型有 Nano、Super 和 Ultra 等尺寸,以更好地满足不同系统的要求。
英伟达表示,人工智能智能体代理是生成式人工智能进化的一个新前沿,旨在创建能够自主执行复杂任务的系统。这需要将 LLM 所展现的语言技能与感知和与环境互动的能力相结合。
为了提高效率,许多人工智能智能体代理既需要语言技能,也需要感知世界并做出适当行动的能力。
这就解释了为什么 Nemotron 模型系列包括了源自 Meta 的 LLaMA 模型的衍生模型,以及能够分析和响应在用户环境中所捕获的图像和视频的新 Cosmos Nemotron VLM。
英伟达表示,具备视觉功能的智能体代理可以实时分析 来自多种环境中的工业摄像头的视频,从而帮助检测事故、减少缺陷,或指导人类采取某些行动。按照该公司的说法,目前只有不到 1% 的工业摄像头的视频是由人类实时观看的。
根据英伟达的说法,他们训练 Llama Nemotron 模型,使其能够高效地执行许多常见的代理任务,因此你只需使用这一个模型即可,而无需用多个专用模型。
对模型进行修剪以减少延迟并提高计算效率,然后使用具有蒸馏和对齐方法的高质量数据集进行再训练,以提高跨任务的准确性。这样可以使模型更小,精度和吞吐量更高。
Nemotron 模型针对不同的计算需求进行了优化,包括面向 PC 应用程序开发人员的 Nano、在单个 GPU 上提供高性能的 Super,以及专为数据中心规模应用程序设计的 Ultra。
英伟达 Nemotron 生态系统还包括 Nvidia NeMo,用于使用专有数据的定制模型,以及 NeMo Aligner,用于更好地对齐模型以遵循指令并生成人类偏好的响应。此外,英伟达还提供了 Nvidia AI Blueprints,作为一种工具,通过使用 NIM 微服务作为构建块来为 Nemotron 模型提供服务,从而快速创建 AI 智能体代理。
与此相关的是,英伟达还宣布了其 Cosmos world foundation 模型,该模型专门用于为机器人和自动驾驶汽车生成物理感知视频。
Sergio De Simone 作为一名软件工程师,已拥有超过 25 年的经验。他在不同的项目和公司工作过,包括西门子、惠普和小型初创公司等不同的工作环境。在过去的十多年里,他一直专注于移动平台和相关技术的开发。他目前就职于 BigML, Inc.,负责 iOS 和 macOS 的开发。
原文链接:
https://www.infoq.com/news/2025/01/nvidia-nemotron-agents/
声明:本文为 InfoQ 翻译,未经许可禁止转载。