01
林达华,乔宇,代季峰联合团队 | 我们距离GPT-4V还有多远?使用开源套件弥合与商用多模态模型的差距
How far are we to GPT-4V? Closing the gap to commercial multimodal models with open-source suites
Chen, Zhe; Wang, Weiyun; Tian, Hao; Ye, Shenglong; Gao, Zhangwei; Cui, Erfei; Tong, Wenwen; Hu, Kongzhi; Luo, Jiapeng; Ma, Zheng; Ma, Ji; Wang, Jiaqi; Dong, Xiaoyi; Yan, Hang; Guo, Hewei; He, Conghui; Shi, Botian; Jin, Zhenjiang; Xu, Chao; Wang, Bin; Wei, Xingjian; Li, Wei; Zhang, Wenjian; Zhang, Bo; Cai, Pinlong; Wen, Licheng; Yan, Xiangchao; Dou, Min; Lu, Lewei; Zhu, Xizhou; Lu, Tong; Lin, Dahua; Qiao, Yu; Dai, Jifeng; Wang, Wenhai
Sci China Inf Sci, 2024, 67(12): 220101
http://engine.scichina.com/doi/10.1007/s11432-024-4231-5
02
OCRBench: on the hidden mystery of OCR in large multimodal models
Liu, Yuliang; Li, Zhang; Huang, Mingxin; Yang, Biao; Yu, Wenwen; Li, Chunyuan; Yin, Xu-Cheng; Liu, Cheng-Lin; Jin, Lianwen; Bai, Xiang
Sci China Inf Sci, 2024, 67(12): 220102
http://engine.scichina.com/doi/10.1007/s11432-024-4235-6
03
24个领域97万条指令!MMInstruct:具备丰富多样性的高质量多模态指令调优数据集
MMInstruct: a high-quality multi-modal instruction tuning dataset with extensive diversity
Liu, Yangzhou; Cao, Yue; Gao, Zhangwei; Wang, Weiyun; Chen, Zhe; Wang, Wenhai; Tian, Hao; Lu, Lewei; Zhu, Xizhou; Lu, Tong; Qiao, Yu; Dai, Jifeng
Sci China Inf Sci, 2024, 67(12): 220103
http://engine.scichina.com/doi/10.1007/s11432-024-4187-3
04
中科大陈恩红团队 | Woodpecker: 多模态大语言模型的幻觉缓解方法
Woodpecker: hallucination correction for multimodal large language models
Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Xu, Tong; Wang, Hao; Sui, Dianbo; Shen, Yunhang; Li, Ke; Sun, Xing; Chen, Enhong
Sci China Inf Sci, 2024, 67(12): 220105
http://engine.scichina.com/doi/10.1007/s11432-024-4251-x
05
中科大李厚强&字节跳动联合团队 | DocPedia:高分辨率多模态文档大模型
DocPedia: unleashing the power of large multimodal model in the frequency domain for versatile document understanding
Feng, Hao; Liu, Qi; Liu, Hao; Tang, Jingqun; Zhou, Wengang; Li, Houqiang; Huang, Can
Sci China Inf Sci, 2024, 67(12): 220106
http://engine.scichina.com/doi/10.1007/s11432-024-4250-y
现有的多模态大模型(如LLaVA,Mini-GPT4等)无法有效解析高分辨率的文档图像,这极大地限制了其在实际应用场景中的表现。高质量的文档理解需要模型能够准确捕捉文档中的细节信息,这就要求模型具备处理高分辨率图像的能力。因此,开发能够处理高分辨率文档图像的多模态模型具有重要的实践意义。为了解决上述问题,本文提出了DocPedia模型,这是一个高分辨率多模态文档大模型。该模型具有以下创新:(1) 从频域角度解决分辨率问题。模型首先提取文档图像的DCT系数矩阵,在保留原图像图文信息的同时将空间分辨率下采样8倍。(2) 设计了级联的频域适配器(Frequency Adapter),通过与视觉编码器配合,实现了高效的分辨率压缩和特征提取。这使得一张2560×2560的图像可以用1600个token表示,相比传统方法token数量减少4倍。(3) 提出了创新的两阶段训练策略:预训练阶段专注于增强模型的感知能力,包括文字检测、识别等基础任务;微调阶段采用感知-理解联合训练策略,提升模型的语义理解能力。
06
张晏,冀中,庞彦伟,韩军功,李学龙 | 模态专家协调的多模态大模型参数高效微调方法
Modality-experts coordinated adaptation for large multimodal models
Zhang, Yan; Ji, Zhong; Pang, Yanwei; Han, Jungong; Li, Xuelong
Sci China Inf Sci, 2024, 67(12): 220107
http://engine.scichina.com/doi/10.1007/s11432-024-4234-4
尽管多模态大模型在各种下游任务中展现出了卓越的迁移能力,然而,其规模的持续增长以及任务范围的不断扩大,巨大的计算和存储需求使得传统的全量微调(FFT)方法变得难以为继。为了解决这一挑战,研究者们开始探索更加高效的替代方法。例如,参数高效微调(PEFT)展现了在不同领域扩展基础模型的显著能力。尽管如此,目前的PEFT方法仍面临两个主要问题:第一,如何显著提升性能,使其接近甚至超越FFT?第二,如何使PEFT方法与现有的多模态大模型无缝、高效地适配并保持高度兼容?为了解决上述问题,针对当前多模态模型在功能和结构上的复杂多样性及现有方法的两大局限性,本文提出了一种高效、轻量化且即插即用的参数适配方法——ModeX。本文具有如下创新。(1) 统一分类标准:对已有的LMMs的内部组件进行了统一分类,为适配方法建立了清晰的标准,提升了方法的兼容性。(2) 提出ModeX方法:设计了一种新颖的、轻量化的参数适配方法ModeX,可轻松适配多种LMMs,支持多模态下游任务的高效适配。(3) 协调不同专家模块:在ModeX中,针对不同类型的多头自注意力(MSA)和前馈网络(FFN)模块,提出了相应的适配方法,通过路由算法协调“模态特定专家”与“模态混合专家”。
07
华中师范大学杨宗凯团队 | COMET:用于数学题目生成的教育领域多模态模型
COMET: "cone of experience" enhanced large multimodal model for mathematical problem generation
Liu, Sannyuya; Feng, Jintian; Yang, Zongkai; Luo, Yawei; Wan, Qian; Shen, Xiaoxuan; Sun, Jianwen
Sci China Inf Sci, 2024, 67(12): 220108
http://engine.scichina.com/doi/10.1007/s11432-024-4242-0
生成式人工智能正以前所未有的方式推动教育变革。尽管许多研究者已在探索多模态大模型(LMM)与教学相结合的可能性,但在教育资源生成,尤其是数学题目生成领域的深入研究仍显不足。数学题目作为作重要的知识载体与考核手段,其自动生成技术在教学过程中具有重要的应用价值。然而,传统的“解题”与“出题”分离的研究路径,以及以单一数据结构和统一训练目标为主流的大模型微调范式,限制了数学题目生成在实际教学场景中的应用。本文首先从能力互促与应用逻辑的角度出发,将题干生成与题目解答统一到数学题目生成这一框架中。其次,提出了一种基于“经验之塔”的三阶段微调框架,通过引入类人学习的思想,探索和论证了大模型训练过程类比人类学习经历的有效性。通过剖析职业教师的成长历程,将微调数据按照抽象、观察和实践三个层次的经验内核进行划分,并在此基础上设计了多种精细化的数据构造与注入方法。最后,本工作构建了一个中文多模态数学题目数据集CMM12K,为后续多模态数学题目生成提供测评基准。
08
上海交通大学&苏州实验室联合团队 | ChemDFM-X:跨模态化学材料大模型
ChemDFM-X: towards large multimodal model for chemistry
Zhao, Zihan; Chen, Bo; Li, Jingpiao; Chen, Lu; Wen, Liyang; Wang, Pengyu; Zhu, Zichen; Zhang, Danyang; Li, Yansi; Dai, Zhongyang; Chen, Xin; Yu, Kai
Sci China Inf Sci, 2024, 67(12): 220109
http://engine.scichina.com/doi/10.1007/s11432-024-4243-0
构建跨模态化学材料大模型对于推动材料、化学及相关领域科研具有重要意义。材料科学本质上是一个多模态学科,其研究对象多样,数据形式也多样,包括文本描述、分子结构、图像及光谱等多种类型。当前大多数AI模型主要聚焦于单一任务,输入数据通常限于单一模态,限制了此类模型在实际应用中的灵活性与泛化性。整合多种模态的大模型能够提供综合的信息处理平台,有助于更全面地理解复杂的材料与化学体系。这类多模态大模型不仅能处理来自不同来源的数据,还能有效利用不同模态间的关系信息,从而加深对物质现象的理解。本文介绍了ChemDFM-X,一个跨模态材料化学大模型。该模型基于通用化学大语言模型ChemDFM(https://huggingface.co/OpenDFM/ChemDFM-v1.5-8B)构建,支持多种材料化学相关任务类型。ChemDFM-X能够理解不同类型的化学数据,包括文本、SMILES以及五种非文本形式的数据:二维分子结构、三维分子构象、分子或反应图片、质谱图和红外光谱图。