Qwen2-VL：阿里云开源新一代视觉语言模型，多模态理解能力再升级

文摘 2024-08-31 08:19 美国

TLDR：阿里云开源新一代视觉语言模型Qwen2-VL，该模型在图像理解、视频分析和实时交互方面取得显著进展，性能超越众多开源和闭源模型，为开发者和研究者提供更强大的多模态工具。

视觉理解能力再升级，Qwen2-VL 引领多模态AI 发展

近年来，视觉语言模型（VLM）作为多模态 AI 领域的热门方向，其弥合视觉和语言之间差距的目标，吸引了众多研究者和开发者的关注。近日，阿里云推出了新一代视觉语言模型 Qwen2-VL，该模型在图像理解、视频分析和实时交互方面取得了显著进展，为多模态 AI 的发展注入了新的活力。

Qwen2-VL 性能表现

Qwen2-VL 在一系列视觉语言任务基准测试中展现出领先的性能，包括图像理解、视频理解和多语言任务等，超越了许多现有的开源和闭源模型，例如GPT-4o和Claude 3.5-Sonnet。

在图像理解方面，Qwen2-VL 在 MMMU、DocVQA、RealWorldQA 等多个基准测试中均取得了最先进的结果。尤其在需要深度理解文档信息的DocVQA测试中，Qwen2-VL-72B 取得了96.5%的优秀成绩。

在视频理解方面，Qwen2-VL 能够理解超过 20 分钟的视频内容，并在 MVBench、EgoSchema 等基准测试中也展现出强大的实力。

此外，Qwen2-VL 还支持多语言理解，能够识别和理解图像中的多种语言文本，并在 MTVQA 基准测试中取得了新的突破，多语言平均准确率达到32.6%。

Qwen2-VL 核心功能

Qwen2-VL 提供了丰富的功能，使其能够应对各种复杂的视觉语言任务：

1. 增强的识别能力: Qwen2-VL 改进了对象识别能力，能够识别复杂的多对象关系、手写文本和图像中的多语言。例如，可以识别出一堆积木中每个积木的颜色和数量，或者识别出图像中的多种语言文字。

2. 视觉推理: Qwen2-VL 具备强大的视觉推理能力，可以分析图片、图表来解决数学和编码问题，并能从现实世界图像和图表中提取信息。例如，可以分析一张代码截图，并解释代码的功能，或者分析一张数学题的图片，并给出解题步骤。

3. 视频理解和实时聊天: Qwen2-VL 不仅仅局限于静态图像，它还扩展到视频内容分析，能够概括视频内容、回答相关问题，并实时保持对话流程，提供实时聊天支持。例如，可以概括一段电影预告片的内容，或者回答用户关于视频内容的问题。

4. 视觉代理能力: Qwen2-VL 展现出强大的视觉代理能力，通过函数调用和视觉交互，实现类似于人类对世界感知的交互，例如操作手机、机器人等。

Qwen2-VL 模型架构

Qwen2-VL 整体架构延续了 Qwen-VL 的设计，主要包括视觉编码器（Vision Transformer）和语言模型（Qwen2）两部分。

为了进一步提升模型对视觉信息的感知和理解能力，Qwen2-VL 引入了两项关键技术创新：

• 原生动态分辨率支持 (Naive Dynamic Resolution): 与传统模型需要将图像缩放到固定尺寸不同，Qwen2-VL 可以处理任意分辨率的图像，并将其映射为动态数量的视觉标记，从而更准确地捕捉和处理视觉信息。
• 多模态旋转位置嵌入 (M-ROPE): 通过将位置信息分解为代表时间和空间维度（高度和宽度）的不同部分，M-ROPE 使 LLM 能够同时捕获和集成一维文本、二维视觉和三维视频位置信息，从而更准确地理解不同数据类型之间的关系。

使用 Qwen2-VL 进行开发

为了方便开发者和研究者使用 Qwen2-VL，阿里云提供了多种途径：

1. API: 开发者可以通过阿里云 API 访问 Qwen2-VL-72B 模型，进行模型推理和应用开发。
2. 开源模型: 阿里云已在 Hugging Face 和 ModelScope 平台上开源了 Qwen2-VL-2B 和 Qwen2-VL-7B 两种规模的模型，开发者可以免费下载使用，并根据自身需求进行模型微调和部署。
3. 工具和框架支持: Qwen2-VL 支持 Hugging Face Transformers、vLLM 等第三方工具和框架，方便开发者进行模型量化、部署和微调等操作。

拥抱开源，赋能开发者

阿里云开源 Qwen2-VL 是其在多模态 AI 领域迈出的重要一步，也是对开源社区的重要贡献。相信 Qwen2-VL 的开源将进一步推动多模态 AI 技术的发展，并促进更多创新应用的诞生。

相关链接

• Qwen2-VL 博客: https://qwenlm.github.io/blog/qwen2-vl/
• Qwen2-VL ModelScope: https://modelscope.cn/organization/qwen

子非AI

子非AI，亦解AI之妙：一站式AI情报站，助你开启智能未来之门。

超越谷歌？OpenAI 发布 ChatGPT 搜索，AI 搜索战争打响

Salesforce CEO：AI Agent 是企业赋能的新引擎

OpenAI Projects：从 ChatGPT 到 NotionGPT 的蜕变，文件夹秒变智能助理

Google Willow：量子计算迎来“奇点”时刻？

AI 教父Ilya NeurIPS 2024最新演讲：预训练已到尽头！超智能时代即将来临！

OpenAI 贺岁短剧第6集：ChatGPT化身圣诞老人，还能视频通话！GPT-4o多模态能力再升级

OpenAI还在挤牙膏，Gemini 2.0 王炸登场！谷歌发力真 AI Agent！

OpenAI 12 天之 3：Sora 降临——用 AI 捕捉想象，一键生成好莱坞级大片！

OpenAI 直播秀 Day 2 放大招：RFT 技术让小模型逆袭，性能超越大模型！

ChatGPT Pro 终极评测：每月 200 美元，解锁 AI 思考的终极奥秘！

解放你的双手：Perplexity AI Agent 引领购物狂潮！

HunyuanVideo：腾讯开源 130 亿参数视频生成模型，性能超越Sora，混元如愿！

企业大模型王者Cohere揭秘：程序性知识驱动LLM推理

Deep Lake：人工智能时代的数据湖

社会学看AI最后一公里：算法之外，人类洞察力崛起

华为诺亚方舟实验室开源ViTLP文档大模型：预训内置OCR、版式识别与文档理解

解密阿里 QwQ：AI 推理新星，挑战o1

IDC携手微软探索AI变革之力(三)：优化业务流程，释放AI效率引擎——35个案例解读

Anthropic 开源 MCP 协议：今年 Agent 智能体最有想象力的进展

从 robots.txt 到 llms.txt：构建 AI 智能体友好的网站，引领 LLM 内容消费新时代

IDC携手微软探索AI变革之力(二)：重塑客户互动，打造个性化体验——53个案例解读

国产开源模型推理的O1时刻：DeepSeek-R1-Lite-Preview震撼发布

年度规划必读：斯坦福 2024 AI 指数报告深度解读

微软&IDC AI变革之力报告系列之一：赋能员工，释放潜能——70个提升员工体验的真实案例

2024 AI智能体发展现状与未来趋势：LangChain深度报告解读

Andrew Ng 揭秘未来 AI：从 ChatGPT 到 AgentGPT

Google AlphaFold 3 部分开源：诺奖加冕，AI 揭秘生命密码

哈佛商业评论：AI的100种玩法！

AI应用的金矿是服务而非标品：从 Palantir 的成功探寻 AI 服务浪潮的万亿机会

Magentic-One：微软开源多智能体系统，让 AI 自己动手解决问题

重磅！腾讯开源中文最强MoE巨模型Hunyuan-Large，参数规模PK Llama！

AI Agent 驱动招聘：LinkedIn Hiring Assistant 助力选举年人才争夺战

特朗普王者归来：2024美国大选胜选演讲深度解读

OpenAI O1 引爆推理革命：红杉资本深度解读 AI 应用层变革

微软开源 GenAIScript：用 JavaScript 掌控 LLM 的力量

Google AI 语音生成黑科技：像人类一样对话！

ChatGPT Search：对话式AI搜索，开启信息检索新纪元

GPT-4O 驱动，Zerox 让 OCR 更智能：开源利器解放你的文档

BitNet.cpp：微软让百亿参数大语言模型在你的笔记本CPU上飞奔

ima.copilot一个会思考的知识库：腾讯如何重塑AI时代的知识

Skyvern：让浏览器拥有 AI 大脑，自动化从此更智能

Salesforce CEO Benioff 谈企业级 AI：Agent 智能体重塑商业未来

Claude 3.5 重磅发布：AI 编码能力再升级，还能像人一样使用电脑！

从 GPT-4 赋能的 Copilot 到 O1 驱动的 Agent：微软引爆 AI 应用新热点

AI 投资狂潮：把握科技牛市，解码智能新时代

Meta 开放炼丹炉：全面拥抱开放硬件，加速 AI 算力基础设施建设

Dash 深度分析：Dropbox的 AI 办公产品进化论

人工智能点燃非洲希望之火

Anthropic CEO 的五大预言：AI将如何重塑世界？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉