英伟达发布NVLM 1.0：屠榜多模态任务，纯文本性能逆势提升

2024-09-25 14:43 北京

前沿科技速递🚀

随着文本大模型的发展，解码器架构已经成为文本处理任务的标准。然而，现有的多模态大模型架构却尚未统一，不同模型在选择 LLM 主干、视觉编码器以及训练数据上存在较大差异，且无法直接进行对比研究。为了解决这些问题，英伟达研究团队推出了 NVLM 1.0，通过创新的模型设计和数据处理方法，极大提升了多模态推理能力和训练效率。

来源：传神社区

01 模型简介

英伟达最近推出了NVLM 1.0，这是一款多模态大型语言模型，在视觉-语言任务上表现出色，能够与最强的闭源模型（如GPT-4o）以及开源模型（如LLaMA 3-V 405B 和 InternVL 2）相媲美。值得关注的是，NVLM 1.0 不仅在多模态任务中表现优异，甚至在纯文本任务上也有所突破。经过多模态训练后，NVLM 1.0 在文本任务中的表现相比其基础语言模型（LLM）主干有明显提升，特别是在数学和代码生成基准测试中，平均准确率提高了 4.3 个百分点。

NVLM 1.0 在处理多模态任务时，能够高效处理包括文本、图像和高分辨率视觉输入等多种形式的数据，大幅提升了 OCR、视觉问答（VQA）、文档理解等复杂任务的性能。同时，研究团队深入比较了纯解码器模型与交叉注意力模型的优缺点，提出了一种全新的架构设计，进一步优化了高分辨率图像处理的效率，确保了模型在纯文本任务中的表现不仅不下降，反而有所提高。

02 核心架构：三大模型设计

NVLM 1.0 包含三种不同的架构，分别是解码器模型（NVLM-D）、交叉注意力模型（NVLM-X）和混合模型（NVLM-H）。每种架构针对不同的任务需求进行优化：

NVLM-D：解码器架构该模型采用解码器架构，视觉信息通过多层感知机（MLP）转换为文本嵌入，并统一输入到LLM（大语言模型）中进行处理。解码器架构的特点是可以将所有输入（无论是图像还是文本）作为统一的token进行处理，因此特别适合OCR任务，能够准确识别图像中的文字信息。
NVLM-X：交叉注意力架构NVLM-X采用交叉注意力机制，在处理图像信息时通过专门的注意力层来读取视觉编码器的输出。该架构在处理高分辨率图像和视觉推理任务时效率更高，特别适合处理复杂的视觉问答、图表分析以及文档理解任务。
NVLM-H：混合架构NVLM-H结合了解码器和交叉注意力的优势，文本和缩略图通过解码器的自注意力机制处理，而详细的图像信息则通过交叉注意力机制处理。这种设计不仅保持了高效的计算性能，还增强了模型在高分辨率图像任务中的表现，是一个平衡性能和计算效率的最佳方案。

03 评测结果

为了评估NVLM 1.0在多模态任务中的表现，NVIDIA团队对模型进行了多项基准测试，涵盖了视觉语言任务和文本任务。以下是NVLM 1.0的主要评测结果：

1. OCR任务

NVLM-D在OCR相关的任务（如OCRBench测试）中表现尤为突出，取得了全场最高得分。无论是文档图像中的文本识别，还是复杂场景中的字符识别，NVLM-D均展现出了强大的准确性和鲁棒性。

2. 多模态推理任务

NVLM-H在多模态推理任务（如MathVista和MMMU测试）中表现优异，特别是在几何图形、函数图和表格等场景下的数学推理任务中取得了领先的成绩。这表明，NVLM 1.0不仅能够处理简单的视觉任务，还具备了处理复杂推理问题的能力。

3. 视觉问答（VQA）

在自然图像理解和视觉问答任务（如VQAv2和TextVQA测试）中，NVLM-X取得了与当前最先进的模型相当的成绩。模型能够精准理解图像中的内容，并根据上下文生成准确的答案，展示了卓越的视觉感知和语言生成能力。

4. 文本任务

值得一提的是，NVLM 1.0在多模态训练过程中，不仅没有牺牲文本生成和推理任务的性能，反而在数学推理和代码生成等任务中展现了比基础语言模型更强的表现。这得益于NVLM 1.0在训练过程中加入了高质量的纯文本数据以及大量的多模态数学推理数据，从而提升了模型的跨模态推理能力。

04 实例评测

为了验证NVLM 1.0在多模态任务中的实际表现，对模型的多项任务处理能力进行了测试，涵盖排序算法理解、市场份额分析、驾驶辅助决策等多领域任务。以下为详细的实例评测结果：

05 模型下载

传神社区：

模型权重还未发布，尽请期待~

欢迎加入传神社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加传神小助手

“ 关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

加入传神社区

http://mp.weixin.qq.com/s?__biz=MzkxNTYxMjU1Mw==&mid=2247486785&idx=1&sn=cc3eebc14a2dfe77b3827962ef357c5e

传神社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

微软OmniParser：一切皆文档，OCR驱动智能操作

从文本到动态视频：Allegro模型让创意更轻松

传神论文中心｜第30期人工智能领域论文推荐

超快速，高性能！Meta发布移动端MobileLLM

DataFlow v202410 版本更新一站式数据处理平台

OpenCSG与传神社区的创新瞬间

OpenCSG传神社区月度功能更新

突破语言壁垒：Cohere 发布多语言大模型 Aya Expanse

Stable Diffusion 3.5震撼发布：三大版本满足多层次AI图像生成需求

OpenCSG携手书生·浦语：InternLM2.5-20B-Chat 正式上线，共建AI未来新生态

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

无需依赖闭源模型！司南CompassJudger为AI评测带来新选择

CSGHub SaaS快速入门指南

Mochi 1视频生成模型亮相：动作流畅，开放源代码

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

传神论文中心｜第29期人工智能领域论文推荐

重磅升级 | OpenCSG开源中文版fineweb edu v2数据集

英伟达推出Nemotron-70B：强大开源语言模型，基准测试中全面领先！

直播预告｜未来视界：多模态AI的创新与挑战

苹果开源Depth Pro：0.3秒实现从2D图像到3D深度图的革命性突破

传神论文中心｜第28期人工智能领域论文推荐

2B参数搞定高质量视频！北大&快手携手打造Pyramid Flow

直播预告｜当A股疯涨挑战经典金额理论，大模型能否作为一个“理性投资人”？

CodeSouler v1.0.8 版本更新

传神论文中心｜第27期人工智能领域论文推荐

OpenCSG传神社区月度功能更新

OpenCSG开源数据集再次登顶HF数据榜

OpenCSG DataFlow：锻造大模型智慧的炼金术，开启数据集Agentic新范式

微软推出GRIN-MoE：开创专家路由新范式

Llama 3.2：轻量级设计与多模态能力

英伟达发布NVLM 1.0：屠榜多模态任务，纯文本性能逆势提升

高效、精准、智能：GOT-OCR2.0引领OCR 2.0时代

传神论文中心｜第26期人工智能领域论文推荐

超越极限！Qwen2.5 助力多领域智能应用

年度巨献 | OpenCSG开源最大中文合成数据集Chinese Cosmopedia

CSGHub开源版本v0.9.0更新

传神论文中心｜第25期人工智能领域论文推荐

Mistral AI再创新高，Pixtral 12B多模态模型强势来袭

CodeSouler v1.0.7 版本更新

重磅发布！DeepSeek-V2.5：融合通用与代码能力的全新开源模型

小而强大！零一万物 Yi-Coder 模型震撼发布！

国产“小钢炮”MiniCPM3-4B：小参数，大能量！

国内独家首发 | OpenCSG开源中文版fineweb edu数据集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉