SCIS专题 | 多模态大模型(英文版)

文摘   科技   2025-01-08 12:03   北京  
特约编辑:白翔,乔宇,邱锡鹏,刘禹良
近期,多模态大模型在学术界和工业界受到了广泛的关注,并经历了爆炸式的增长,在内容理解、搜索、推荐系统、问答和人机交互等领域显示出巨大的潜力。为了展示本方向最新研究进展,SCIENCE CHINA Information Sciences在2024年67卷第12期组织并出版了“多模态大模型”(Special Topic:  Large Multimodal Models) 专题。经过仔细评审,本专题首批录用了8篇文章,我们将这些新的研究成果呈现给读者,期望通过此举推动该领域的研究进入新的阶段。
(点击最下方 阅读原文 按钮,直接下载所有文章)

01

林达华,乔宇,代季峰联合团队 | 我们距离GPT-4V还有多远?使用开源套件弥合与商用多模态模型的差距

How far are we to GPT-4V? Closing the gap to commercial multimodal models with open-source suites
Chen, Zhe; Wang, Weiyun; Tian, Hao; Ye, Shenglong; Gao, Zhangwei; Cui, Erfei; Tong, Wenwen; Hu, Kongzhi; Luo, Jiapeng; Ma, Zheng; Ma, Ji; Wang, Jiaqi; Dong, Xiaoyi; Yan, Hang; Guo, Hewei; He, Conghui; Shi, Botian; Jin, Zhenjiang; Xu, Chao; Wang, Bin; Wei, Xingjian; Li, Wei; Zhang, Wenjian; Zhang, Bo; Cai, Pinlong; Wen, Licheng; Yan, Xiangchao; Dou, Min; Lu, Lewei; Zhu, Xizhou; Lu, Tong; Lin, Dahua; Qiao, Yu; Dai, Jifeng; Wang, Wenhai
Sci China Inf Sci, 2024, 67(12): 220101
http://engine.scichina.com/doi/10.1007/s11432-024-4231-5

Cite as: Chen Z, Wang W Y, Tian H, et al. How far are we to GPT-4V? Closing the gap to commercial multimodal models with open-source suites. Sci China Inf Sci, 2024, 67(12): 220101, doi: 10.1007/s11432-024-4231-5

现有的大语言模型(LLMs)为人工通用智能(AGI)系统的构建奠定了重要基础,多模态大语言模型(MLLMs)在视觉和语言的结合上更进一步,能够实现复杂的视觉-语言对话和交互。然而,开源模型与商用闭源模型之间仍存在显著差距,具体表现在参数规模、图像分辨率支持以及多语言能力等方面。为弥补这些差距,InternVL 1.5提出了一系列改进措施:首先,通过持续学习方法优化了大规模视觉基础模型(VFM),增强其视觉理解能力;其次,采用动态高分辨率策略支持最高4K分辨率输入,显著提升了场景和文档理解的精度;此外,结合高质量的中英双语数据集以及数据翻译管线,显著改善了中文场景任务的表现。实验结果表明,InternVL 1.5在OCR、多轮对话和数学推理等多个领域表现优异,甚至在部分基准上超越了GPT-4V、Gemini Pro 1.5等领先商用模型。希望这些探索能够为多模态社区的发展提供借鉴与启发。

02

OCRBench:多模态大模型中隐藏的OCR奥秘

OCRBench: on the hidden mystery of OCR in large multimodal models
Liu, Yuliang; Li, Zhang; Huang, Mingxin; Yang, Biao; Yu, Wenwen; Li, Chunyuan; Yin, Xu-Cheng; Liu, Cheng-Lin; Jin, Lianwen; Bai, Xiang
Sci China Inf Sci, 2024, 67(12): 220102
http://engine.scichina.com/doi/10.1007/s11432-024-4235-6

Cite as: Liu Y L, Li Z, Huang M X, et al. OCRBench: on the hidden mystery of OCR in large multimodal models. Sci China Inf Sci, 2024, 67(12): 220102, doi: 10.1007/s11432-024-4235-6

本文对多模态大模型的OCR能力进行了深入的研究,在27个公有数据集和2个生成的无语义和对比的有语义的数据集上对文字识别、场景文本VQA、文档VQA、关键信息抽取和手写数学表达式识别这五个任务上进行了广泛的实验。为了方便而准确地评估多模态大模型的OCR能力,本文还进一步构建了用于验证多模态大模型零样本泛化能力的文字领域最全面的评估基准OCRBench,评测了谷歌GEMINI,OpenAI-GPT4V以及目前开源的多个类GPT4V多模态大模型,揭示了多模态大模型直接应用在OCR领域的局限。

03

24个领域97万条指令!MMInstruct:具备丰富多样性的高质量多模态指令调优数据集

MMInstruct: a high-quality multi-modal instruction tuning dataset with extensive diversity
Liu, Yangzhou; Cao, Yue; Gao, Zhangwei; Wang, Weiyun; Chen, Zhe; Wang, Wenhai; Tian, Hao; Lu, Lewei; Zhu, Xizhou; Lu, Tong; Qiao, Yu; Dai, Jifeng
Sci China Inf Sci, 2024, 67(12): 220103
http://engine.scichina.com/doi/10.1007/s11432-024-4187-3

Cite as: Liu Y Z, Cao Y, Gao Z W, et al. MMInstruct: a high-quality multi-modal instruction tuning dataset with extensive diversity. Sci China Inf Sci, 2024, 67(12): 220103, doi: 10.1007/s11432-024-4187-3

现有的视觉大模型(VLLMs)虽然通过视觉-语言监督微调提升了性能,但依然面临指令标注质量和数据多样性不足的问题,如生成不准确的指令或场景不够真实。为解决这些问题,本文提出了一个高质量且多样化的多模态指令调优数据集——MMInstruct,涵盖24个领域的97万条指令。通过新型指令生成引擎,能够有效降低指令调优数据集生成成本,并通过实验验证了该数据集能显著提升VLLMs的性能,为领域发展提供了新的技术途径。

04

中科大陈恩红团队 | Woodpecker: 多模态大语言模型的幻觉缓解方法

Woodpecker: hallucination correction for multimodal large language models
Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Xu, Tong; Wang, Hao; Sui, Dianbo; Shen, Yunhang; Li, Ke; Sun, Xing; Chen, Enhong
Sci China Inf Sci, 2024, 67(12): 220105
http://engine.scichina.com/doi/10.1007/s11432-024-4251-x

Cite as: Yin S K, Fu C Y, Zhao S R, et al. Woodpecker: hallucination correction for multimodal large language models. Sci China Inf Sci, 2024, 67(12): 220105, doi: 10.1007/s11432-024-4251-x

视觉幻觉是常见于多模态大语言模型 (Multimodal Large Language Models, MLLMs) 的一个典型问题,它指的是“模型输出的描述与图片内容不相符”这一现象。幻觉对模型的可靠性产生了显著的负面影响,因此引起了许多研究者的重视。以往的方法主要集中在MLLM本身,通过在训练数据以及架构上进行改进,以重新微调的方式训练一个新的MLLM。这种方式会造成较大的数据构建和训练开销,且较难推广到各种已有的MLLMs。为了解决上述问题,本文提出了一种免训练的即插即用的通用架构“啄木鸟(Woodpecker)”,包括五个主要步骤: 关键概念提取、问题构造、视觉知识检验、视觉断言生成以及幻觉修正,通过修正的方式解决MLLM输出幻觉的问题。

05

中科大李厚强&字节跳动联合团队 | DocPedia:高分辨率多模态文档大模型

DocPedia: unleashing the power of large multimodal model in the frequency domain for versatile document understanding
Feng, Hao; Liu, Qi; Liu, Hao; Tang, Jingqun; Zhou, Wengang; Li, Houqiang; Huang, Can
Sci China Inf Sci, 2024, 67(12): 220106
http://engine.scichina.com/doi/10.1007/s11432-024-4250-y

Cite as: Feng H, Liu Q, Liu H, et al. DocPedia: unleashing the power of large multimodal model in the frequency domain for versatile document understanding. Sci China Inf Sci, 2024, 67(12): 220106, doi: 10.1007/s11432-024-4250-y

现有的多模态大模型(如LLaVA,Mini-GPT4等)无法有效解析高分辨率的文档图像,这极大地限制了其在实际应用场景中的表现。高质量的文档理解需要模型能够准确捕捉文档中的细节信息,这就要求模型具备处理高分辨率图像的能力。因此,开发能够处理高分辨率文档图像的多模态模型具有重要的实践意义。为了解决上述问题,本文提出了DocPedia模型,这是一个高分辨率多模态文档大模型。该模型具有以下创新:(1) 从频域角度解决分辨率问题。模型首先提取文档图像的DCT系数矩阵,在保留原图像图文信息的同时将空间分辨率下采样8倍。(2) 设计了级联的频域适配器(Frequency Adapter),通过与视觉编码器配合,实现了高效的分辨率压缩和特征提取。这使得一张2560×2560的图像可以用1600个token表示,相比传统方法token数量减少4倍。(3) 提出了创新的两阶段训练策略:预训练阶段专注于增强模型的感知能力,包括文字检测、识别等基础任务;微调阶段采用感知-理解联合训练策略,提升模型的语义理解能力。

06

张晏,冀中,庞彦伟,韩军功,李学龙 | 模态专家协调的多模态大模型参数高效微调方法

Modality-experts coordinated adaptation for large multimodal models
Zhang, Yan; Ji, Zhong; Pang, Yanwei; Han, Jungong; Li, Xuelong
Sci China Inf Sci, 2024, 67(12): 220107
http://engine.scichina.com/doi/10.1007/s11432-024-4234-4

Cite as: Zhang Y, Ji Z, Pang Y W, et al. Modality-experts coordinated adaptation for large multimodal models. Sci China Inf Sci, 2024, 67(12): 220107, doi: 10.1007/s11432-024-4234-4

尽管多模态大模型在各种下游任务中展现出了卓越的迁移能力,然而,其规模的持续增长以及任务范围的不断扩大,巨大的计算和存储需求使得传统的全量微调(FFT)方法变得难以为继。为了解决这一挑战,研究者们开始探索更加高效的替代方法。例如,参数高效微调(PEFT)展现了在不同领域扩展基础模型的显著能力。尽管如此,目前的PEFT方法仍面临两个主要问题:第一,如何显著提升性能,使其接近甚至超越FFT?第二,如何使PEFT方法与现有的多模态大模型无缝、高效地适配并保持高度兼容?为了解决上述问题,针对当前多模态模型在功能和结构上的复杂多样性及现有方法的两大局限性,本文提出了一种高效、轻量化且即插即用的参数适配方法——ModeX。本文具有如下创新。(1) 统一分类标准:对已有的LMMs的内部组件进行了统一分类,为适配方法建立了清晰的标准,提升了方法的兼容性。(2) 提出ModeX方法:设计了一种新颖的、轻量化的参数适配方法ModeX,可轻松适配多种LMMs,支持多模态下游任务的高效适配。(3) 协调不同专家模块:在ModeX中,针对不同类型的多头自注意力(MSA)和前馈网络(FFN)模块,提出了相应的适配方法,通过路由算法协调“模态特定专家”与“模态混合专家”。

07

华中师范大学杨宗凯团队 | COMET:用于数学题目生成的教育领域多模态模型

COMET: "cone of experience" enhanced large multimodal model for mathematical problem generation
Liu, Sannyuya; Feng, Jintian; Yang, Zongkai; Luo, Yawei; Wan, Qian; Shen, Xiaoxuan; Sun, Jianwen
Sci China Inf Sci, 2024, 67(12): 220108
http://engine.scichina.com/doi/10.1007/s11432-024-4242-0

Cite as: Liu S N Y, Feng J T, Yang Z K, et al. COMET: "cone of experience" enhanced large multimodal model for mathematical problem generation. Sci China Inf Sci, 2024, 67(12): 220108, doi: 10.1007/s11432-024-4242-0

生成式人工智能正以前所未有的方式推动教育变革。尽管许多研究者已在探索多模态大模型(LMM)与教学相结合的可能性,但在教育资源生成,尤其是数学题目生成领域的深入研究仍显不足。数学题目作为作重要的知识载体与考核手段,其自动生成技术在教学过程中具有重要的应用价值。然而,传统的“解题”与“出题”分离的研究路径,以及以单一数据结构和统一训练目标为主流的大模型微调范式,限制了数学题目生成在实际教学场景中的应用。本文首先从能力互促与应用逻辑的角度出发,将题干生成与题目解答统一到数学题目生成这一框架中。其次,提出了一种基于“经验之塔”的三阶段微调框架,通过引入类人学习的思想,探索和论证了大模型训练过程类比人类学习经历的有效性。通过剖析职业教师的成长历程,将微调数据按照抽象、观察和实践三个层次的经验内核进行划分,并在此基础上设计了多种精细化的数据构造与注入方法。最后,本工作构建了一个中文多模态数学题目数据集CMM12K,为后续多模态数学题目生成提供测评基准。

08

上海交通大学&苏州实验室联合团队 | ChemDFM-X:跨模态化学材料大模型

ChemDFM-X: towards large multimodal model for chemistry
Zhao, Zihan; Chen, Bo; Li, Jingpiao; Chen, Lu; Wen, Liyang; Wang, Pengyu; Zhu, Zichen; Zhang, Danyang; Li, Yansi; Dai, Zhongyang; Chen, Xin; Yu, Kai
Sci China Inf Sci, 2024, 67(12): 220109
http://engine.scichina.com/doi/10.1007/s11432-024-4243-0

Cite as: Zhao Z H, Chen B, Li J P, et al. ChemDFM-X: towards large multimodal model for chemistry. Sci China Inf Sci, 2024, 67(12): 220109, doi: 10.1007/s11432-024-4243-0

构建跨模态化学材料大模型对于推动材料、化学及相关领域科研具有重要意义。材料科学本质上是一个多模态学科,其研究对象多样,数据形式也多样,包括文本描述、分子结构、图像及光谱等多种类型。当前大多数AI模型主要聚焦于单一任务,输入数据通常限于单一模态,限制了此类模型在实际应用中的灵活性与泛化性。整合多种模态的大模型能够提供综合的信息处理平台,有助于更全面地理解复杂的材料与化学体系。这类多模态大模型不仅能处理来自不同来源的数据,还能有效利用不同模态间的关系信息,从而加深对物质现象的理解。本文介绍了ChemDFM-X,一个跨模态材料化学大模型。该模型基于通用化学大语言模型ChemDFM(https://huggingface.co/OpenDFM/ChemDFM-v1.5-8B)构建,支持多种材料化学相关任务类型。ChemDFM-X能够理解不同类型的化学数据,包括文本、SMILES以及五种非文本形式的数据:二维分子结构、三维分子构象、分子或反应图片、质谱图和红外光谱图。






中国科学信息科学
《中国科学:信息科学》及其英文版《Science China Information Sciences》的宣传平台。
 最新文章