导读 随着人工智能技术的快速发展,多模态大语言模型(MLLM)正成为研究和应用的新热点。本次分享题目为“多模态大语言模型领域进展分享”,主要介绍多模态大语言模型的背景、基础概念、演进、团队相关工作以及未来展望。
1. 多模态大语言模型背景介绍
2. 多模态大语言模型介绍
3. 多模态大语言模型演进
4. 团队相关工作介绍
5. 未来展望
分享嘉宾|殷述康 中国科学技术大学 博士在读
编辑整理|张慕言
内容校对|李瑶
出品社区|DataFun
多模态大语言模型背景介绍
图像描述(Captioning):
计数任务处理:
目标定位:
复杂视觉感知与理解任务:
多模态大语言模型介绍
MLP 结构:简单地将视觉编码器输出的 token 投影并与文本 token 拼接。 Q-former 结构:使用一组可学习的 query 向量来压缩视觉 token,减少计算开销,并提取更紧凑的表征。
第一阶段:模态对齐
第二阶段:指令微调
多模态大语言模型演进
1. 分辨率提升
2. 更丰富的输入形式
3. 更丰富的 I/O 模态支持
团队相关工作介绍
1. 多模态幻觉的缓解
2. 长视频理解的定量评估基准
数据集:人工采集并标注的 900 条视频,包括短视频、中视频和长视频,涵盖自然场景、日常生活、纪录片、动画片等多个领域,包括第一人称视角的 vlog,具有足够高的有效时长(38%)。每条视频标注了 3 个问答对,共 2700 个 QA,问题设计要求模型不能仅依赖局部信息,而需要全面理解视频内容才能回答,其中,短中视频更侧重感知类任务(物体识别、OCR 识别等),而长视频更侧重于推理类任务(时序推理、空间推理、视频摘要总结等)。
测评结果:对 Qwen VL、InternVL-Chat-V1.5、Video LLaVA、GBT 4V/4o、Gemini 1.5 Pro 等模型进行评测。开源模型最优结果即使相较于闭源模型最差结果,都仍有较大提升空间。整体上闭源模型在粗粒度感知任务上表现较好,但在细粒度感知任务(如计数问题)上仍有不足。细粒度感知问题仍然是多模态大模型的共同瓶颈。
3. 多模态交互体验提升
未来展望
更长的多模态上下文:随着输入视觉 token 数量的增加(如支持多图、高分辨率图像或视频理解),我们需要更长的上下文来处理这些信息。这不仅要求模型能够处理更多的 token,还要求其具备更强的长序列理解能力。一种比较有效的方法是进行有效的视觉 token 压缩,通过减少 token 数量来在不增加上下文长度的情况下提高长序列的理解能力。
智能体的发展:目前许多手机厂商正在开发智能助手,以帮助用户自动完成一系列操作,例如调整手机亮度至夜间模式。当前开源模型通常较大(如 7B 或 13B),端侧部署需要进行量化和优化以适应设备限制。
统一的多模态生成与理解:原生的多模态大模型采用统一的训练范式,可以直接使用图文交错的内容进行训练,从而实现统一的生成和理解能力。这种模型不仅能理解图片,还能生成图片,生成的内容更加自然,符合人类的认知习惯。
分享嘉宾
INTRODUCTION
殷述康
中国科学技术大学
博士在读
中科大人工智能与数据科学学院在读,主要研究方向为情感计算和多模态技术。
往期推荐
面向生成式 AI 的向量数据库:架构,性能与未来趋势
B 站基于大模型的大数据智能诊断助手实践
AI 2.0时代大数据平台架构演进思考与实践
快手指标中台建设实践
西门子利用 LLM 打造通用公司智能助理的实践
360在图文多模态大模型领域的突破与实践
小红书去中心化内容分发技术
火花思维数据分析体系建设和实战分享
快手在分析领域 BI+AI 的探索与实践
同程旅行基于 Waggle-Dance 元数据方案实践
点个在看你最好看
SPRING HAS ARRIVED