Qwen2-VL:阿里云开源新一代视觉语言模型,多模态理解能力再升级

文摘   2024-08-31 08:19   美国  

TLDR:阿里云开源新一代视觉语言模型Qwen2-VL,该模型在图像理解、视频分析和实时交互方面取得显著进展,性能超越众多开源和闭源模型,为开发者和研究者提供更强大的多模态工具。

视觉理解能力再升级,Qwen2-VL 引领多模态AI 发展

近年来,视觉语言模型(VLM)作为多模态 AI 领域的热门方向,其弥合视觉和语言之间差距的目标,吸引了众多研究者和开发者的关注。近日,阿里云推出了新一代视觉语言模型 Qwen2-VL,该模型在图像理解、视频分析和实时交互方面取得了显著进展,为多模态 AI 的发展注入了新的活力。

Qwen2-VL 性能表现

Qwen2-VL 在一系列视觉语言任务基准测试中展现出领先的性能,包括图像理解、视频理解和多语言任务等,超越了许多现有的开源和闭源模型,例如GPT-4o和Claude 3.5-Sonnet。

在图像理解方面,Qwen2-VL 在 MMMU、DocVQA、RealWorldQA 等多个基准测试中均取得了最先进的结果。尤其在需要深度理解文档信息的DocVQA测试中,Qwen2-VL-72B 取得了96.5%的优秀成绩。

在视频理解方面,Qwen2-VL 能够理解超过 20 分钟的视频内容,并在 MVBench、EgoSchema 等基准测试中也展现出强大的实力。

此外,Qwen2-VL 还支持多语言理解,能够识别和理解图像中的多种语言文本,并在 MTVQA 基准测试中取得了新的突破,多语言平均准确率达到32.6%。

Qwen2-VL 核心功能

Qwen2-VL 提供了丰富的功能,使其能够应对各种复杂的视觉语言任务:

1. 增强的识别能力: Qwen2-VL 改进了对象识别能力,能够识别复杂的多对象关系、手写文本和图像中的多语言。例如,可以识别出一堆积木中每个积木的颜色和数量,或者识别出图像中的多种语言文字。





2. 视觉推理: Qwen2-VL 具备强大的视觉推理能力,可以分析图片、图表来解决数学和编码问题,并能从现实世界图像和图表中提取信息。例如,可以分析一张代码截图,并解释代码的功能,或者分析一张数学题的图片,并给出解题步骤。

3. 视频理解和实时聊天: Qwen2-VL 不仅仅局限于静态图像,它还扩展到视频内容分析,能够概括视频内容、回答相关问题,并实时保持对话流程,提供实时聊天支持。例如,可以概括一段电影预告片的内容,或者回答用户关于视频内容的问题。

4. 视觉代理能力: Qwen2-VL 展现出强大的视觉代理能力,通过函数调用和视觉交互,实现类似于人类对世界感知的交互,例如操作手机、机器人等。

Qwen2-VL 模型架构

Qwen2-VL 整体架构延续了 Qwen-VL 的设计,主要包括视觉编码器(Vision Transformer)和语言模型(Qwen2)两部分。

为了进一步提升模型对视觉信息的感知和理解能力,Qwen2-VL 引入了两项关键技术创新:

  • • 原生动态分辨率支持 (Naive Dynamic Resolution): 与传统模型需要将图像缩放到固定尺寸不同,Qwen2-VL 可以处理任意分辨率的图像,并将其映射为动态数量的视觉标记,从而更准确地捕捉和处理视觉信息。

  • • 多模态旋转位置嵌入 (M-ROPE): 通过将位置信息分解为代表时间和空间维度(高度和宽度)的不同部分,M-ROPE 使 LLM 能够同时捕获和集成一维文本、二维视觉和三维视频位置信息,从而更准确地理解不同数据类型之间的关系。

使用 Qwen2-VL 进行开发

为了方便开发者和研究者使用 Qwen2-VL,阿里云提供了多种途径:

  1. 1. API: 开发者可以通过阿里云 API 访问 Qwen2-VL-72B 模型,进行模型推理和应用开发。

  2. 2. 开源模型: 阿里云已在 Hugging Face 和 ModelScope 平台上开源了 Qwen2-VL-2B 和 Qwen2-VL-7B 两种规模的模型,开发者可以免费下载使用,并根据自身需求进行模型微调和部署。

  3. 3. 工具和框架支持: Qwen2-VL 支持 Hugging Face Transformers、vLLM 等第三方工具和框架,方便开发者进行模型量化、部署和微调等操作。

拥抱开源,赋能开发者

阿里云开源 Qwen2-VL 是其在多模态 AI 领域迈出的重要一步,也是对开源社区的重要贡献。相信 Qwen2-VL 的开源将进一步推动多模态 AI 技术的发展,并促进更多创新应用的诞生。

相关链接

  • • Qwen2-VL 博客: https://qwenlm.github.io/blog/qwen2-vl/

  • • Qwen2-VL ModelScope: https://modelscope.cn/organization/qwen

子非AI
子非AI,焉知AI之乐:分享AI的有趣应用和创新案例,让你了解AI的乐趣。
 最新文章