对话Qwen2-VL：多模态大模型背后的逻辑

文摘 2024-09-12 17:10 江苏

Qwen-VL 是阿里云研发的大规模视觉语言模型（Large Vision Language Model, LVLM），可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。

近日，通义千问宣布开源第二代视觉语言模型Qwen2-VL，并推出2B、7B两个尺寸及其量化版本模型。同时，旗舰模型Qwen2-VL-72B的API已上线阿里云百炼平台，用户可直接调用。

当前新的Qwen2系列模型在Open LLM Leaderboard榜单中，拿下了开源第一名的成绩，平均分达到35.13，超越国内外的一众开源大模型。

可以这么说，Qwen系列已在开源的路上一骑绝尘。

多模态大模型

2024年，人工智能领域最引人注目的进展之一便是多模态大模型的快速发展。

这些模型通过整合文本、音频、图像、视频等多种模态的输入输出，实现了更为自然和高效的人类-机器交互。OpenAI的GPT-4o和谷歌的Gemini等模型，以其卓越的多模态理解和生成能力，成为行业的领跑者。

相较于单一模态大模型，多模态大模型更为复杂，主要体现在以下几个方面：

数据对齐：确保不同模态的数据在时间和内容上的一致性
数据融合：将多模态数据整合到一起，以充分利用各模态的信息
统一标识：构建一个统一的表示空间，使得不同模态的数据能够互相理解和结合

多模态大模型的意义不仅在于其技术复杂性，更在于其对人工智能未来发展的深远影响。多模态信息的丰富性和完整性是其核心优势之一。

单一模态具有局限性，其具体主要表现在信息不全面和上下文缺失。而多模态具有丰富性，主要表现在信息互补和上下文增强。例如，图像提供视觉信息，文本提供详细描述，两者结合效果更好。

此外，多模态能够对任务进行增强，比如提升准确性和扩展任务范围；多模态可以执行跨模态任务和复杂任务，比如自动驾驶领域需要大模型能够同时处理视觉、文本、雷达等多种类型的数据进行综合判断。

代表性的多模态大语言模型（MLLM）的时间线，来源：A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks

目前多模态的常见应用场景如下：

视觉问答：模型根据图像内容回答文本问题，这需要同时理解图像和文本信息，并进行融合处理
图文生成：模型根据图像生成描述性文本，或者根据文本生成相似图像
语音识别与合成：将语音转换为文本或将文本转换为语音，结合语音与其它模态进行多模态交互
视频理解与生成：模型对视频内容进行理解和描述，或者根据文本生成对应的视频内容

Qwen2-VL性能全面提升

Qwen2-VL相比Qwen-VL，有如下改进：

读懂不同分辨率和不同长宽比的图片，在DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；
理解20分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；
具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推理和决策的能力，Qwen2-VL 可以集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作；
理解图像视频中的多语言文本，包括中文、英文，大多数欧洲语言，日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评估了模型能力，包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。

Qwen2-VL-72B作为旗舰模型则在大部分的指标上都达到了最优；

Qwen2-VL-72B

Qwen2-VL-7B以其“经济型”参数规模实现了极具竞争力的性能表现；

Qwen2-VL-7B

Qwen2-VL-2B则可支持移动端的丰富应用，同样具备完整图像视频多语言的理解能力，在视频文档和通用场景问答方面，相比同规模模型优势显著。

Qwen2-VL-2B

模型结构优化

Qwen2-VL延续了ViT加 Qwen2 的串联结构，三个尺寸的模型都采用了 600M 规模大小的 ViT，支持图像和视频统一输入。

但为了让模型能够更清楚地感知视觉信息和理解视频，团队在架构上进行了一些升级：

1. 实现对原生动态分辨率的全面支持

不同于上代模型，Qwen2-VL 能够处理任意分辨率的图像输入，不同大小图片将被转换为动态数量的tokens，最小只占4个tokens。

这一设计模拟了人类视觉感知的自然方式，确保了模型输入与图像原始信息之间的高度一致性，赋予模型处理任意尺寸图像的强大能力，使得其可以更灵活高效地进行图像处理。

2. 使用多模态旋转位置嵌入（M-ROPE）方法

传统的旋转位置嵌入只能捕捉一维序列的位置信息，M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。赋予了语言模型强大的多模态处理和推理能力，能让模型更好地理解和建模复杂的多模态数据。

M-ROPE

体验Qwen2-7B-VL

由于当前Qwen2-VL-72B需要从阿里云百炼平台调用API进行体验，本文简单就ModelScope上Qwen2-7B-VL的demo进行测试体验。

以单图片信息抽取、OCR识别、意图理解、视觉推理等功能为例：

测试1

Input：请逐步详细分析，谁（姓名）几点出发，从哪儿到哪儿，并且花了多少钱

Output：这张火车篇显示了以下信息：

出发站：南京南站(Nanjingnan) -到达站：苏州园区站(Suzhouyuanqu) —火车编号：G7247
出发日期：2024年08月06日—出发时间：17：39
座位等级：二等座 —价格：￥109.0元

所以，这张火车票是2024年8月6日17：39从南京南站出发，目的地是苏州园区站，座位等级为二等座，票价为109元。

Input：请根据这张火车票的信息，帮我制定一份从站点到站点的出行计划，包括出行方式推荐、旅游景点推荐等

Output：出行计划

出行方式

出发地：南京南站 —目的地：苏州园区站
出发时间：2024年8月6日17：39-车次：G7247
票价：￥109.0元-座位：二等座

出行计划

出发时间：建议提前30分钟到达南京南站，以便办理安检和登车手续。
乘车时间：火车将在17：39从南京南站出发，预计18：39到达苏州园区站。
到达后：从苏州园区站下车后，可以乘坐地铁或公交前往苏州市区的旅游景点。

旅游景点推荐

苏州博物馆：位于苏州市区，是著名建筑师贝聿铭设计的博物馆，展示了苏州的历史和文化。
拙政园：是中国四大名园之一，以其精美的园林设计和丰富的文化底蕴而闻名。
平江路历史文化街区：是苏州保存最完整的古街区之一，可以体验到苏州的传统生活和文化。
虎丘：是苏州的著名景点之一，有“吴中第一名胜”的美誉，可以登顶虎丘塔，欣赏苏州的全景。

注意事项

安全：在旅行过程中，请注意保管好个人财物，遵守当地的安全规定。
天气：出行前请查看天气预报，以便做好相应的准备。
交通：到达苏州后，可以使用地铁、公交或打车前往市区内的景点。

希望这份出行计划能帮助您顺利到达苏州，并享受愉快的旅行时光！

测试2

Input：墙上的文本是什么（上传图片）

Output：墙上的文本是葡萄牙语，翻译成中文是：“一个人独自走在街上并不正常”

测试3

Input：这是什么花（上传图片）

Output：这是一束勿忘草。勿忘草是一种常见的观赏花卉，花朵小巧精致，颜色多样，常见的有蓝色、粉色和白色等。它们通常用于花坛、花境和花篮等装饰。勿忘草不仅美观，而且具有一定的药用价值，常用于治疗失眠和焦虑等。

测试4

Input：将图中的每日的最高气温和最低气温整理成表格，并简单分析这个地区的天气状况（上传图片）

Output：好的，以下是整理后的表格：

好的，以下是整理后的表格：

| 日期 | 最高气温 | 最低气温 |

| --- | --- | --- |

| 9月12日 | 32°C | 27°C |

| 9月13日 | 33°C | 26°C |

| 9月14日 | 32°C | 27°C |

| 9月15日 | 32°C | 28°C |

| 9月16日 | 30°C | 28°C |

| 9月17日 | 32°C | 26°C |

| 9月18日 | 31°C | 27°C |

从表格中可以看出，这个地区的天气状况较为稳定，气温波动不大。最高气温在32°C左右，最低气温在26°C至28°C之间。整体来看，天气较为温暖，适合户外活动。

总结

通过在 ModelScope 上对 Qwen2-7B-VL 模型的一系列测试体验，我们可以看到多模态大模型在理解和处理视觉与语言信息方面的强大能力。

无论是对火车票信息的详细分析、制定出行计划，还是对图像中文本的识别和翻译，以及对花卉种类的识别和天气数据的整理分析，Qwen2-7B-VL 都展现出了高度的准确性和实用性。

这些测试案例不仅证明了 Qwen2-7B-VL 在视觉问答、图文生成、语言翻译和数据分析等方面的应用潜力，也体现了多模态大模型在实际生活场景中的广泛适用性。

随着技术的不断进步和优化，我们期待未来有更出色的多模态大模型能够在更多领域发挥其独特的价值，为用户提供更加丰富和便捷的智能服务。

槿墨AI

产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识，深入业务场景，精确捕获用户意图，为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求，欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言

参考资料：
1.Qwen2-VL：Qwen系列已在开源的路上一骑绝尘

2.Qwen2-VL多模态大模型开源了~性能实现代际飞越

3.【阿里云通义千问大模型系列】Qwen-VL大规模视觉语言模型（国内大模型）

4.https://arxiv.org/pdf/2408.01319

5.阿里达摩院开源多模态大模型——Qwen2-VL

http://mp.weixin.qq.com/s?__biz=MzkwMjY0ODMwNA==&mid=2247486657&idx=1&sn=53039efc68e046724ad2423667216403

槿墨AI

开启探索人类未来命运的旅程，拥抱如槿似墨的无限可能。

最新文章

【文生智界】WonderWorld：一图在手，世界我有

【文生智界】介绍一下，Stable Diffusion！文生图的稳定之选

【文生智界】AI将3D建模带入大众视野，创意如何突破技术壁垒？

告别预设剧本，“人生”永无止境：Unbounded

国庆节火遍抖音的AI雷军从何而来——GPT-SoVits

ChatGPT终于变AI搜索引擎了！网页/手机/桌面版同时上线，即将人人可用

7天开发一个AI Agent应用！秘密武器：一体化数据库

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

大模型“投资热”降温，下半场转向“应用落地”

POINTS多模态大模型亮相：微信团队打造，高效简洁性能强

港大最新开源LightRAG：更快、更强、更经济的RAG系统

AIGC丨ChatGPT的流式输出技术SSE实践！

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

切，这玩意儿不就是一眼 AI …… 吧？

字节：不做眼镜做耳机，揭秘Ola Friend核心技术

YOLO11：重新定义性能极限！对比YOLO8如何？

H100价格大跌！GPU供需失衡，真过剩？

大语言模型垂直领域融合的最优解：微调or检索增强生成?

长文本、语音、视觉全覆盖，中国移动抬上大招：九天善智！

李飞飞「数字表兄弟」破解机器人训练难题！零样本sim2real成功率高达90%

LLM（大语言模型），我们距离应用还差什么？

特斯拉首款无人驾驶出租问世，马斯克掀翻全场！无方向盘、无踏板，3万美元26年量产

诺贝尔物理和化学奖都颁给了AI，意味着什么？

双向奔赴！什么是大模型和数据库的双向赋能？

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在手机上了

RT-DETRv3横空出世！探究实时目标检测的尽头

【一手实测】Tripo 2.0：AI 3D生成天花板再拉升！

聊聊3DGS，各应用方向的最新进展是？

李飞飞创业后的首个专访：空间智能是下一个“北极星”

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

用AI和宠物闲聊，解锁「毛孩子」语言，铲屎官心动！

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

【盘点】AI视觉算法主流部署方式，到底怎么选？

会领路、能聊天，现在的导航已经next level了

深夜空降！OpenAI草莓正式发布，命名o1， GPT-4o被碾压！

对话Qwen2-VL：多模态大模型背后的逻辑

上交大：让代码自动成长！培养你的专属宝可梦

PyTorch官宣去CUDA推理！Triton时代来了

FairMOT：解锁复杂环境下多目标跟踪的难题！

Cursor：开发者的新质生产力，人人都是程序员？

机器人身穿衣服做家务，逼真到被质疑是人类套壳

大模型应用新战场：揭秘终端侧AI竞争关键｜智在终端

全国首个上手机的AI视频通话来了！《黑神话：悟空》经文也能破译

【深度解读】政务大模型的产业图谱、企业布局与落地应用

又创新？U-KAN：专注图像边界细节优化的网络架构！

AI开启“城市漫步”，这Citywalk够不够贴心！

【梳理】主流推荐算法：如何让AI更精准地“猜你喜欢”？

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

实测！30秒即可生成工业级Mesh，媲美人工建模？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

对话Qwen2-VL：多模态大模型背后的逻辑

1. 实现对原生动态分辨率的全面支持

2. 使用多模态旋转位置嵌入（M-ROPE）方法

测试1

测试2

测试3

测试4

参考资料：1.Qwen2-VL：Qwen系列已在开源的路上一骑绝尘

参考资料：
1.Qwen2-VL：Qwen系列已在开源的路上一骑绝尘