24个领域97万条指令!MMInstruct:具备丰富多样性的高质量多模态指令调优数据集

文摘   科技   2024-12-06 12:00   日本  

研究团队

刘羊周,曹越,陈喆,路通:南京大学计算机学院

高张伟:上海交通大学电子信息与电气工程学院

王玮赟:复旦大学计算机科学技术学院

王文海:香港中文大学信息工程学系

田昊,卢乐炜:商汤科技

乔宇:上海人工智能实验室

朱锡洲,代季峰:清华大学电子工程系

文章下载

Yangzhou LIU, Yue CAO, Zhangwei GAO, Weiyun WANG, Zhe CHEN, Wenhai WANG, Hao TIAN, Lewei LU, Xizhou ZHU, Tong LU, Yu QIAO & Jifeng DAI. MMInstruct: a high-quality multi-modal instruction tuning dataset with extensive diversity. Sci China Inf Sci, 2024, doi: 10.1007/s11432-024-4187-3



研究意义

现有的视觉大模型(VLLMs)虽然通过视觉-语言监督微调提升了性能,但依然面临指令标注质量和数据多样性不足的问题,如生成不准确的指令或场景不够真实。为解决这些问题,本文提出了一个高质量且多样化的多模态指令调优数据集——MMInstruct,涵盖24个领域的97万条指令。通过新型指令生成引擎,能够有效降低指令调优数据集生成成本,并通过实验验证了该数据集能显著提升VLLMs的性能,为领域发展提供了新的技术途径。

本文工作

MMInstruct数据集的核心创新在于设计了一个高效的指令生成引擎,该引擎利用GPT-4V和GPT-3.5结合人工校正,进行半自动化指令生成。首先通过网络爬虫和相似度搜索获取高质量图像,再基于图像语义生成多样化的指令和答案,确保指令生成的多样性与准确性。这一引擎使得数据集构建成本仅为人工标注的1/6,大幅提高了数据生成效率和质量。

图1 MMInstruct的数据引擎


如图1所示,我们的数据引擎包括自动生成和人工校正:(a) 从多种来源收集大量且多样化的图像。(b) 使用GPT-4V根据图像及其上下文生成详细的图像描述。(c) 人工专家收集种子问题,并使用GPT-4V验证其有效性。(d) 利用详细的图像描述和种子问题,使用GPT-3.5生成指令-答案对。(e) 采用多种方法扩展数据集。(f) 最终进行额外的人工校正。数据示例如图2所示。
图2 MMInstruct中不同领域的视觉指令调优数据示例

本文的创新点如下:
(1) 高效的指令生成引擎:结合GPT-4V、GPT-3.5与人工校正,生成多样化且高质量的视觉指令,显著降低了数据集构建成本,仅为纯人工标注的1/6。
(2) 丰富的多模态任务域:MMInstruct涵盖24个通用领域,提供多种指令类型(判断、选择、长短视觉问答),显著提升模型的泛化能力。
(3) 增强的视觉语言模型性能:经过MMInstruct微调,模型在多个基准任务上达到最先进的性能。

实验结果

本文所提出的MMInstruct在先进的VLLM架构LLaVA-1.5上进行性能评估。在微调阶段,我们保持视觉编码器冻结,并结合LLaVA-665K指令数据集与我们的MMInstruct数据集,对MLP投影层和大型语言模型进行微调。此外,我们还设计了不同的消融实验,分析不同微调数据对VLLM的影响。
图3 不同模型大小的性能比较

如图3所示,(a) 与7B模型相比,如Qwen-VL-Chat和LLaVA-1.5-7B,我们的模型在11个基准测试中达到了最先进的性能(SoTA)。(b) 与13B模型相比,如InstructBLIP和LLaVA-1.5-13B,我们的模型在10个基准测试中也达到了最先进的性能(SoTA)。实验结果表明,基于MMInstruct进行微调后的模型在多个基准测试中表现优异,有效提升了视觉语言模型的性能。





中国科学信息科学
《中国科学:信息科学》及其英文版《Science China Information Sciences》的宣传平台。
 最新文章