SCIS专题 | 多模态大模型（英文版）

文摘科技 2025-01-08 12:03 北京

特约编辑：白翔，乔宇，邱锡鹏，刘禹良

近期，多模态大模型在学术界和工业界受到了广泛的关注，并经历了爆炸式的增长，在内容理解、搜索、推荐系统、问答和人机交互等领域显示出巨大的潜力。为了展示本方向最新研究进展，SCIENCE CHINA Information Sciences在2024年67卷第12期组织并出版了“多模态大模型”(Special Topic: Large Multimodal Models) 专题。经过仔细评审，本专题首批录用了8篇文章，我们将这些新的研究成果呈现给读者，期望通过此举推动该领域的研究进入新的阶段。

（点击最下方 阅读原文 按钮，直接下载所有文章）

林达华,乔宇,代季峰联合团队 | 我们距离GPT-4V还有多远？使用开源套件弥合与商用多模态模型的差距

How far are we to GPT-4V? Closing the gap to commercial multimodal models with open-source suites
Chen, Zhe; Wang, Weiyun; Tian, Hao; Ye, Shenglong; Gao, Zhangwei; Cui, Erfei; Tong, Wenwen; Hu, Kongzhi; Luo, Jiapeng; Ma, Zheng; Ma, Ji; Wang, Jiaqi; Dong, Xiaoyi; Yan, Hang; Guo, Hewei; He, Conghui; Shi, Botian; Jin, Zhenjiang; Xu, Chao; Wang, Bin; Wei, Xingjian; Li, Wei; Zhang, Wenjian; Zhang, Bo; Cai, Pinlong; Wen, Licheng; Yan, Xiangchao; Dou, Min; Lu, Lewei; Zhu, Xizhou; Lu, Tong; Lin, Dahua; Qiao, Yu; Dai, Jifeng; Wang, Wenhai
Sci China Inf Sci, 2024, 67(12): 220101
http://engine.scichina.com/doi/10.1007/s11432-024-4231-5

Cite as: Chen Z, Wang W Y, Tian H, et al. How far are we to GPT-4V? Closing the gap to commercial multimodal models with open-source suites. Sci China Inf Sci, 2024, 67(12): 220101, doi: 10.1007/s11432-024-4231-5

现有的大语言模型（LLMs）为人工通用智能（AGI）系统的构建奠定了重要基础，多模态大语言模型（MLLMs）在视觉和语言的结合上更进一步，能够实现复杂的视觉-语言对话和交互。然而，开源模型与商用闭源模型之间仍存在显著差距，具体表现在参数规模、图像分辨率支持以及多语言能力等方面。为弥补这些差距，InternVL 1.5提出了一系列改进措施：首先，通过持续学习方法优化了大规模视觉基础模型（VFM），增强其视觉理解能力；其次，采用动态高分辨率策略支持最高4K分辨率输入，显著提升了场景和文档理解的精度；此外，结合高质量的中英双语数据集以及数据翻译管线，显著改善了中文场景任务的表现。实验结果表明，InternVL 1.5在OCR、多轮对话和数学推理等多个领域表现优异，甚至在部分基准上超越了GPT-4V、Gemini Pro 1.5等领先商用模型。希望这些探索能够为多模态社区的发展提供借鉴与启发。

OCRBench：多模态大模型中隐藏的OCR奥秘

OCRBench: on the hidden mystery of OCR in large multimodal models
Liu, Yuliang; Li, Zhang; Huang, Mingxin; Yang, Biao; Yu, Wenwen; Li, Chunyuan; Yin, Xu-Cheng; Liu, Cheng-Lin; Jin, Lianwen; Bai, Xiang
Sci China Inf Sci, 2024, 67(12): 220102
http://engine.scichina.com/doi/10.1007/s11432-024-4235-6

Cite as: Liu Y L, Li Z, Huang M X, et al. OCRBench: on the hidden mystery of OCR in large multimodal models. Sci China Inf Sci, 2024, 67(12): 220102, doi: 10.1007/s11432-024-4235-6

本文对多模态大模型的OCR能力进行了深入的研究，在27个公有数据集和2个生成的无语义和对比的有语义的数据集上对文字识别、场景文本VQA、文档VQA、关键信息抽取和手写数学表达式识别这五个任务上进行了广泛的实验。为了方便而准确地评估多模态大模型的OCR能力，本文还进一步构建了用于验证多模态大模型零样本泛化能力的文字领域最全面的评估基准OCRBench，评测了谷歌GEMINI，OpenAI-GPT4V以及目前开源的多个类GPT4V多模态大模型，揭示了多模态大模型直接应用在OCR领域的局限。

24个领域97万条指令！MMInstruct：具备丰富多样性的高质量多模态指令调优数据集

MMInstruct: a high-quality multi-modal instruction tuning dataset with extensive diversity
Liu, Yangzhou; Cao, Yue; Gao, Zhangwei; Wang, Weiyun; Chen, Zhe; Wang, Wenhai; Tian, Hao; Lu, Lewei; Zhu, Xizhou; Lu, Tong; Qiao, Yu; Dai, Jifeng
Sci China Inf Sci, 2024, 67(12): 220103
http://engine.scichina.com/doi/10.1007/s11432-024-4187-3

Cite as: Liu Y Z, Cao Y, Gao Z W, et al. MMInstruct: a high-quality multi-modal instruction tuning dataset with extensive diversity. Sci China Inf Sci, 2024, 67(12): 220103, doi: 10.1007/s11432-024-4187-3

现有的视觉大模型（VLLMs）虽然通过视觉-语言监督微调提升了性能，但依然面临指令标注质量和数据多样性不足的问题，如生成不准确的指令或场景不够真实。为解决这些问题，本文提出了一个高质量且多样化的多模态指令调优数据集——MMInstruct，涵盖24个领域的97万条指令。通过新型指令生成引擎，能够有效降低指令调优数据集生成成本，并通过实验验证了该数据集能显著提升VLLMs的性能，为领域发展提供了新的技术途径。

中科大陈恩红团队 | Woodpecker: 多模态大语言模型的幻觉缓解方法

Woodpecker: hallucination correction for multimodal large language models
Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Xu, Tong; Wang, Hao; Sui, Dianbo; Shen, Yunhang; Li, Ke; Sun, Xing; Chen, Enhong
Sci China Inf Sci, 2024, 67(12): 220105
http://engine.scichina.com/doi/10.1007/s11432-024-4251-x

Cite as: Yin S K, Fu C Y, Zhao S R, et al. Woodpecker: hallucination correction for multimodal large language models. Sci China Inf Sci, 2024, 67(12): 220105, doi: 10.1007/s11432-024-4251-x

视觉幻觉是常见于多模态大语言模型 (Multimodal Large Language Models, MLLMs) 的一个典型问题，它指的是“模型输出的描述与图片内容不相符”这一现象。幻觉对模型的可靠性产生了显著的负面影响，因此引起了许多研究者的重视。以往的方法主要集中在MLLM本身，通过在训练数据以及架构上进行改进，以重新微调的方式训练一个新的MLLM。这种方式会造成较大的数据构建和训练开销，且较难推广到各种已有的MLLMs。为了解决上述问题，本文提出了一种免训练的即插即用的通用架构“啄木鸟（Woodpecker）”，包括五个主要步骤: 关键概念提取、问题构造、视觉知识检验、视觉断言生成以及幻觉修正，通过修正的方式解决MLLM输出幻觉的问题。

中科大李厚强&字节跳动联合团队 | DocPedia：高分辨率多模态文档大模型

DocPedia: unleashing the power of large multimodal model in the frequency domain for versatile document understanding
Feng, Hao; Liu, Qi; Liu, Hao; Tang, Jingqun; Zhou, Wengang; Li, Houqiang; Huang, Can
Sci China Inf Sci, 2024, 67(12): 220106
http://engine.scichina.com/doi/10.1007/s11432-024-4250-y

Cite as: Feng H, Liu Q, Liu H, et al. DocPedia: unleashing the power of large multimodal model in the frequency domain for versatile document understanding. Sci China Inf Sci, 2024, 67(12): 220106, doi: 10.1007/s11432-024-4250-y

现有的多模态大模型（如LLaVA，Mini-GPT4等）无法有效解析高分辨率的文档图像，这极大地限制了其在实际应用场景中的表现。高质量的文档理解需要模型能够准确捕捉文档中的细节信息，这就要求模型具备处理高分辨率图像的能力。因此，开发能够处理高分辨率文档图像的多模态模型具有重要的实践意义。为了解决上述问题，本文提出了DocPedia模型，这是一个高分辨率多模态文档大模型。该模型具有以下创新：(1) 从频域角度解决分辨率问题。模型首先提取文档图像的DCT系数矩阵，在保留原图像图文信息的同时将空间分辨率下采样8倍。(2) 设计了级联的频域适配器（Frequency Adapter），通过与视觉编码器配合，实现了高效的分辨率压缩和特征提取。这使得一张2560×2560的图像可以用1600个token表示，相比传统方法token数量减少4倍。(3) 提出了创新的两阶段训练策略：预训练阶段专注于增强模型的感知能力，包括文字检测、识别等基础任务；微调阶段采用感知-理解联合训练策略，提升模型的语义理解能力。

张晏,冀中,庞彦伟,韩军功,李学龙 | 模态专家协调的多模态大模型参数高效微调方法

Modality-experts coordinated adaptation for large multimodal models
Zhang, Yan; Ji, Zhong; Pang, Yanwei; Han, Jungong; Li, Xuelong
Sci China Inf Sci, 2024, 67(12): 220107
http://engine.scichina.com/doi/10.1007/s11432-024-4234-4

Cite as: Zhang Y, Ji Z, Pang Y W, et al. Modality-experts coordinated adaptation for large multimodal models. Sci China Inf Sci, 2024, 67(12): 220107, doi: 10.1007/s11432-024-4234-4

尽管多模态大模型在各种下游任务中展现出了卓越的迁移能力，然而，其规模的持续增长以及任务范围的不断扩大，巨大的计算和存储需求使得传统的全量微调（FFT）方法变得难以为继。为了解决这一挑战，研究者们开始探索更加高效的替代方法。例如，参数高效微调（PEFT）展现了在不同领域扩展基础模型的显著能力。尽管如此，目前的PEFT方法仍面临两个主要问题：第一，如何显著提升性能，使其接近甚至超越FFT？第二，如何使PEFT方法与现有的多模态大模型无缝、高效地适配并保持高度兼容？为了解决上述问题，针对当前多模态模型在功能和结构上的复杂多样性及现有方法的两大局限性，本文提出了一种高效、轻量化且即插即用的参数适配方法——ModeX。本文具有如下创新。(1) 统一分类标准：对已有的LMMs的内部组件进行了统一分类，为适配方法建立了清晰的标准，提升了方法的兼容性。(2) 提出ModeX方法：设计了一种新颖的、轻量化的参数适配方法ModeX，可轻松适配多种LMMs，支持多模态下游任务的高效适配。(3) 协调不同专家模块：在ModeX中，针对不同类型的多头自注意力（MSA）和前馈网络（FFN）模块，提出了相应的适配方法，通过路由算法协调“模态特定专家”与“模态混合专家”。

华中师范大学杨宗凯团队 | COMET：用于数学题目生成的教育领域多模态模型

COMET: "cone of experience" enhanced large multimodal model for mathematical problem generation
Liu, Sannyuya; Feng, Jintian; Yang, Zongkai; Luo, Yawei; Wan, Qian; Shen, Xiaoxuan; Sun, Jianwen
Sci China Inf Sci, 2024, 67(12): 220108
http://engine.scichina.com/doi/10.1007/s11432-024-4242-0

Cite as: Liu S N Y, Feng J T, Yang Z K, et al. COMET: "cone of experience" enhanced large multimodal model for mathematical problem generation. Sci China Inf Sci, 2024, 67(12): 220108, doi: 10.1007/s11432-024-4242-0

生成式人工智能正以前所未有的方式推动教育变革。尽管许多研究者已在探索多模态大模型（LMM）与教学相结合的可能性，但在教育资源生成，尤其是数学题目生成领域的深入研究仍显不足。数学题目作为作重要的知识载体与考核手段，其自动生成技术在教学过程中具有重要的应用价值。然而，传统的“解题”与“出题”分离的研究路径，以及以单一数据结构和统一训练目标为主流的大模型微调范式，限制了数学题目生成在实际教学场景中的应用。本文首先从能力互促与应用逻辑的角度出发，将题干生成与题目解答统一到数学题目生成这一框架中。其次，提出了一种基于“经验之塔”的三阶段微调框架，通过引入类人学习的思想，探索和论证了大模型训练过程类比人类学习经历的有效性。通过剖析职业教师的成长历程，将微调数据按照抽象、观察和实践三个层次的经验内核进行划分，并在此基础上设计了多种精细化的数据构造与注入方法。最后，本工作构建了一个中文多模态数学题目数据集CMM12K，为后续多模态数学题目生成提供测评基准。

上海交通大学&苏州实验室联合团队 | ChemDFM-X：跨模态化学材料大模型

ChemDFM-X: towards large multimodal model for chemistry
Zhao, Zihan; Chen, Bo; Li, Jingpiao; Chen, Lu; Wen, Liyang; Wang, Pengyu; Zhu, Zichen; Zhang, Danyang; Li, Yansi; Dai, Zhongyang; Chen, Xin; Yu, Kai
Sci China Inf Sci, 2024, 67(12): 220109
http://engine.scichina.com/doi/10.1007/s11432-024-4243-0

Cite as: Zhao Z H, Chen B, Li J P, et al. ChemDFM-X: towards large multimodal model for chemistry. Sci China Inf Sci, 2024, 67(12): 220109, doi: 10.1007/s11432-024-4243-0

构建跨模态化学材料大模型对于推动材料、化学及相关领域科研具有重要意义。材料科学本质上是一个多模态学科，其研究对象多样，数据形式也多样，包括文本描述、分子结构、图像及光谱等多种类型。当前大多数AI模型主要聚焦于单一任务，输入数据通常限于单一模态，限制了此类模型在实际应用中的灵活性与泛化性。整合多种模态的大模型能够提供综合的信息处理平台，有助于更全面地理解复杂的材料与化学体系。这类多模态大模型不仅能处理来自不同来源的数据，还能有效利用不同模态间的关系信息，从而加深对物质现象的理解。本文介绍了ChemDFM-X，一个跨模态材料化学大模型。该模型基于通用化学大语言模型ChemDFM（https://huggingface.co/OpenDFM/ChemDFM-v1.5-8B）构建，支持多种材料化学相关任务类型。ChemDFM-X能够理解不同类型的化学数据，包括文本、SMILES以及五种非文本形式的数据：二维分子结构、三维分子构象、分子或反应图片、质谱图和红外光谱图。

中国科学信息科学

《中国科学：信息科学》及其英文版《Science China Information Sciences》的宣传平台。

最新文章

朱若澜,李晨,李学龙等 | 自主水下航行器多分支网络光学导引定位方法

SCIS专题 | 多模态大模型（英文版）

武汉大学马佳义团队 | 基于多重感受野交融网络的偏振三维重建

尤肖虎院士观点 | When AI meets sustainable 6G

赵志甲,贺威,陈俊龙等 | 考虑输入约束和全局预设性能的两自由度直升机系统自适应神经网络控制

山东大学余国先团队 | 个性化联邦小样本节点分类：基于参数解耦与节点增强的联邦学习

SCIS会议 | 第58次《中国科学：信息科学》前沿学术沙龙

钱锋院士观点 | 人工智能赋能的化工新材料设计

《中国科学：信息科学》祝您新年快乐！

张翠娟,纪良浩,李华青等 | 事件触发和优先经验回放的多智能体系统最优一致控制

张笑钦,范登平,肖国宝等 | COMPrompter：多提示重构SAM的伪装目标检测

申晨,Jun Tanimoto,王震等 | 退出机制促进亲社会惩罚，但非一劳永逸的解决方案

2024年第12期目录 | SCIENCE CHINA Information Sciences

征稿启事 | 大规模智能体系统的平均场博弈与控制：从理论到实践（英文版）

东南大学虞文武团队 | 求解大规模混合整数规划问题的分布式算法架构

中科大李厚强&字节跳动联合团队 | DocPedia：高分辨率多模态文档大模型

征稿启事 | 太赫兹无线通信技术创新与应用专题（英文版）

张晏,冀中,庞彦伟,韩军功,李学龙 | 模态专家协调的多模态大模型参数高效微调方法

《中国科学: 信息科学》2024年第12期目录

中科大陈恩红团队 | Woodpecker: 多模态大语言模型的幻觉缓解方法

电子科技大学白天,肖鸣宇 | 超图上最大独立集问题的精确算法

左明成,巩敦卫 | 深度嵌入适应度评估分配策略的约束多目标进化优化方法

张笑钦,黄自玮,郑晶晶等 | DcnnGrasp：采用自适应学习方式的抓取手势识别

OCRBench：多模态大模型中隐藏的OCR奥秘

华为吴建军, 孙黎, 王东晖等 | 面向6G网络的内生安全架构和关键技术思考

王巍院士团队 | 面向多源自主导航的智能学习方法研究

党吉圣,郑慧诚,赖剑煌等 | 基于逐帧和逐段时空交互记忆网络的高效视频目标分割

王常虹,余旭东,王震等 | 基于集成后继表征的离线到在线任务泛化

上海交通大学&苏州实验室联合团队 | ChemDFM-X：跨模态化学材料大模型

大连理工大学赵楠等 | 智能通感一体化综述

华中师范大学杨宗凯团队 | COMET：用于数学题目生成的教育领域多模态模型

重庆邮电大学胡林,刘锡炎,齐倩等 | 可重构智能表面辅助多用户NOMA网络鲁棒安全资源分配

RISTA前沿大讲堂 | 可编程超表面赋能感知与通信-空军工程大学许河秀教授

丁瑞森,杨飞生,潘泉,等 | 混合攻击下基于带宽感知型事件触发机制的负荷频率控制

李群,肖甫,Bir Bhanu等 | PS-CoT-Adapter：先计划后求解的科学问答任务解决方法

姜霞,孙健,陈杰等 | 求解非光滑优化问题的随机重排采样近似梯度算法

24个领域97万条指令！MMInstruct：具备丰富多样性的高质量多模态指令调优数据集

北京大学刘譞哲金鑫等 | 万卡深度学习集群中的高效GPU共享系统

招聘科技期刊编辑 |《中国科学》杂志社

西南交通大学庞琦珂, 马征, 唐小虎 | 新一代非易失性存储器下的LDPC硬译码算法

林达华,乔宇,代季峰联合团队 | 我们距离GPT-4V还有多远？使用开源套件弥合与商用多模态模型的差距

中国科学院自动化所程龙团队 | 动态系统辅助机器人学习周期性操作技能

吴小太,唐漾等 | 驻留时间信息不可用的半马尔可夫跳跃线性系统的稳定性分析与镇定

贾茹茹,宗小峰,王庆 | 具有多领导者和乘性噪声的高阶多智能体系统时变编队跟踪控制

山东科技大学张焕水团队 | 基于最优控制的优化方法

【活动通知】庆祝中华人民共和国成立75周年暨共绘AI大模型创新蓝图峰会

东南大学孙伟锋课题组 | P型沟道氮化镓晶体管的衬底偏置效应研究

SCIS会议 | 第57次《中国科学：信息科学》前沿学术沙龙

吕思宇,吴臻,熊捷 | 混合随机系统的零和脉冲博弈

《中国科学: 信息科学》2024年第11期目录

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉