Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM),可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。
近日,通义千问宣布开源第二代视觉语言模型Qwen2-VL,并推出2B、7B两个尺寸及其量化版本模型。同时,旗舰模型Qwen2-VL-72B的API已上线阿里云百炼平台,用户可直接调用。
当前新的Qwen2系列模型在Open LLM Leaderboard榜单中,拿下了开源第一名的成绩,平均分达到35.13,超越国内外的一众开源大模型。
可以这么说,Qwen系列已在开源的路上一骑绝尘。
多模态大模型
2024年,人工智能领域最引人注目的进展之一便是多模态大模型的快速发展。
这些模型通过整合文本、音频、图像、视频等多种模态的输入输出,实现了更为自然和高效的人类-机器交互。OpenAI的GPT-4o和谷歌的Gemini等模型,以其卓越的多模态理解和生成能力,成为行业的领跑者。
相较于单一模态大模型,多模态大模型更为复杂,主要体现在以下几个方面:
数据对齐:确保不同模态的数据在时间和内容上的一致性
数据融合:将多模态数据整合到一起,以充分利用各模态的信息
统一标识:构建一个统一的表示空间,使得不同模态的数据能够互相理解和结合
多模态大模型的意义不仅在于其技术复杂性,更在于其对人工智能未来发展的深远影响。多模态信息的丰富性和完整性是其核心优势之一。
单一模态具有局限性,其具体主要表现在信息不全面和上下文缺失。而多模态具有丰富性,主要表现在信息互补和上下文增强。例如,图像提供视觉信息,文本提供详细描述,两者结合效果更好。
代表性的多模态大语言模型(MLLM)的时间线,来源:A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks
目前多模态的常见应用场景如下:
视觉问答:模型根据图像内容回答文本问题,这需要同时理解图像和文本信息,并进行融合处理
图文生成:模型根据图像生成描述性文本,或者根据文本生成相似图像
语音识别与合成:将语音转换为文本或将文本转换为语音,结合语音与其它模态进行多模态交互
视频理解与生成:模型对视频内容进行理解和描述,或者根据文本生成对应的视频内容
Qwen2-VL性能全面提升
Qwen2-VL相比Qwen-VL,有如下改进:
读懂不同分辨率和不同长宽比的图片,在DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现; 理解20分钟以上长视频,支持基于视频的问答、对话和内容创作等应用; 具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作; 理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。
通义千问团队从六个方面评估了模型能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。
Qwen2-VL-72B作为旗舰模型则在大部分的指标上都达到了最优;
Qwen2-VL-72B
Qwen2-VL-7B以其“经济型”参数规模实现了极具竞争力的性能表现;
Qwen2-VL-7B
Qwen2-VL-2B则可支持移动端的丰富应用,同样具备完整图像视频多语言的理解能力,在视频文档和通用场景问答方面,相比同规模模型优势显著。
Qwen2-VL-2B
模型结构优化
Qwen2-VL延续了ViT加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。
但为了让模型能够更清楚地感知视觉信息和理解视频,团队在架构上进行了一些升级:
1. 实现对原生动态分辨率的全面支持
不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片将被转换为动态数量的tokens,最小只占4个tokens。
这一设计模拟了人类视觉感知的自然方式,确保了模型输入与图像原始信息之间的高度一致性,赋予模型处理任意尺寸图像的强大能力,使得其可以更灵活高效地进行图像处理。
2. 使用多模态旋转位置嵌入(M-ROPE)方法
传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。
M-ROPE
体验Qwen2-7B-VL
由于当前Qwen2-VL-72B需要从阿里云百炼平台调用API进行体验,本文简单就ModelScope上Qwen2-7B-VL的demo进行测试体验。
以单图片信息抽取、OCR识别、意图理解、视觉推理等功能为例:
测试1
Input:请逐步详细分析,谁(姓名)几点出发,从哪儿到哪儿,并且花了多少钱
Output:这张火车篇显示了以下信息:
出发站:南京南站(Nanjingnan) -到达站:苏州园区站(Suzhouyuanqu) —火车编号:G7247
出发日期:2024年08月06日—出发时间:17:39
座位等级:二等座 —价格:¥109.0元
所以,这张火车票是2024年8月6日17:39从南京南站出发,目的地是苏州园区站,座位等级为二等座,票价为109元。
Input:请根据这张火车票的信息,帮我制定一份从站点到站点的出行计划,包括出行方式推荐、旅游景点推荐等
Output:出行计划
出行方式
出发地:南京南站 —目的地:苏州园区站
出发时间:2024年8月6日17:39-车次:G7247
票价:¥109.0元-座位:二等座
出行计划
出发时间:建议提前30分钟到达南京南站,以便办理安检和登车手续。
乘车时间:火车将在17:39从南京南站出发,预计18:39到达苏州园区站。
到达后:从苏州园区站下车后,可以乘坐地铁或公交前往苏州市区的旅游景点。
旅游景点推荐
苏州博物馆:位于苏州市区,是著名建筑师贝聿铭设计的博物馆,展示了苏州的历史和文化。
拙政园:是中国四大名园之一,以其精美的园林设计和丰富的文化底蕴而闻名。
平江路历史文化街区:是苏州保存最完整的古街区之一,可以体验到苏州的传统生活和文化。
虎丘:是苏州的著名景点之一,有“吴中第一名胜”的美誉,可以登顶虎丘塔,欣赏苏州的全景。
注意事项
安全:在旅行过程中,请注意保管好个人财物,遵守当地的安全规定。
天气:出行前请查看天气预报,以便做好相应的准备。
交通:到达苏州后,可以使用地铁、公交或打车前往市区内的景点。
希望这份出行计划能帮助您顺利到达苏州,并享受愉快的旅行时光!
测试2
Input:墙上的文本是什么(上传图片)
Output:墙上的文本是葡萄牙语,翻译成中文是:“一个人独自走在街上并不正常”
测试3
Input:这是什么花(上传图片)
Output:这是一束勿忘草。勿忘草是一种常见的观赏花卉,花朵小巧精致,颜色多样,常见的有蓝色、粉色和白色等。它们通常用于花坛、花境和花篮等装饰。勿忘草不仅美观,而且具有一定的药用价值,常用于治疗失眠和焦虑等。
测试4
Input:将图中的每日的最高气温和最低气温整理成表格,并简单分析这个地区的天气状况(上传图片)
Output:好的,以下是整理后的表格:
好的,以下是整理后的表格:
| 日期 | 最高气温 | 最低气温 |
| --- | --- | --- |
| 9月12日 | 32°C | 27°C |
| 9月13日 | 33°C | 26°C |
| 9月14日 | 32°C | 27°C |
| 9月15日 | 32°C | 28°C |
| 9月16日 | 30°C | 28°C |
| 9月17日 | 32°C | 26°C |
| 9月18日 | 31°C | 27°C |
从表格中可以看出,这个地区的天气状况较为稳定,气温波动不大。最高气温在32°C左右,最低气温在26°C至28°C之间。整体来看,天气较为温暖,适合户外活动。
总结
通过在 ModelScope 上对 Qwen2-7B-VL 模型的一系列测试体验,我们可以看到多模态大模型在理解和处理视觉与语言信息方面的强大能力。
无论是对火车票信息的详细分析、制定出行计划,还是对图像中文本的识别和翻译,以及对花卉种类的识别和天气数据的整理分析,Qwen2-7B-VL 都展现出了高度的准确性和实用性。
这些测试案例不仅证明了 Qwen2-7B-VL 在视觉问答、图文生成、语言翻译和数据分析等方面的应用潜力,也体现了多模态大模型在实际生活场景中的广泛适用性。
随着技术的不断进步和优化,我们期待未来有更出色的多模态大模型能够在更多领域发挥其独特的价值,为用户提供更加丰富和便捷的智能服务。
结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务
📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈
🗨️也可以在公众号后台给我们留言