24个领域97万条指令!MMInstruct:具备丰富多样性的高质量多模态指令调优数据集
文摘
科技
2024-12-06 12:00
日本
研究团队
刘羊周,曹越,陈喆,路通:南京大学计算机学院
高张伟:上海交通大学电子信息与电气工程学院
王玮赟:复旦大学计算机科学技术学院
王文海:香港中文大学信息工程学系
田昊,卢乐炜:商汤科技
乔宇:上海人工智能实验室
朱锡洲,代季峰:清华大学电子工程系
文章下载
Yangzhou LIU, Yue CAO, Zhangwei GAO, Weiyun WANG, Zhe CHEN, Wenhai WANG, Hao TIAN, Lewei LU, Xizhou ZHU, Tong LU, Yu QIAO & Jifeng DAI. MMInstruct: a high-quality multi-modal instruction tuning dataset with extensive diversity. Sci China Inf Sci, 2024, doi: 10.1007/s11432-024-4187-3
现有的视觉大模型(VLLMs)虽然通过视觉-语言监督微调提升了性能,但依然面临指令标注质量和数据多样性不足的问题,如生成不准确的指令或场景不够真实。为解决这些问题,本文提出了一个高质量且多样化的多模态指令调优数据集——MMInstruct,涵盖24个领域的97万条指令。通过新型指令生成引擎,能够有效降低指令调优数据集生成成本,并通过实验验证了该数据集能显著提升VLLMs的性能,为领域发展提供了新的技术途径。
MMInstruct数据集的核心创新在于设计了一个高效的指令生成引擎,该引擎利用GPT-4V和GPT-3.5结合人工校正,进行半自动化指令生成。首先通过网络爬虫和相似度搜索获取高质量图像,再基于图像语义生成多样化的指令和答案,确保指令生成的多样性与准确性。这一引擎使得数据集构建成本仅为人工标注的1/6,大幅提高了数据生成效率和质量。
图1 MMInstruct的数据引擎
如图1所示,我们的数据引擎包括自动生成和人工校正:(a) 从多种来源收集大量且多样化的图像。(b) 使用GPT-4V根据图像及其上下文生成详细的图像描述。(c) 人工专家收集种子问题,并使用GPT-4V验证其有效性。(d) 利用详细的图像描述和种子问题,使用GPT-3.5生成指令-答案对。(e) 采用多种方法扩展数据集。(f) 最终进行额外的人工校正。数据示例如图2所示。图2 MMInstruct中不同领域的视觉指令调优数据示例(1) 高效的指令生成引擎:结合GPT-4V、GPT-3.5与人工校正,生成多样化且高质量的视觉指令,显著降低了数据集构建成本,仅为纯人工标注的1/6。(2) 丰富的多模态任务域:MMInstruct涵盖24个通用领域,提供多种指令类型(判断、选择、长短视觉问答),显著提升模型的泛化能力。(3) 增强的视觉语言模型性能:经过MMInstruct微调,模型在多个基准任务上达到最先进的性能。本文所提出的MMInstruct在先进的VLLM架构LLaVA-1.5上进行性能评估。在微调阶段,我们保持视觉编码器冻结,并结合LLaVA-665K指令数据集与我们的MMInstruct数据集,对MLP投影层和大型语言模型进行微调。此外,我们还设计了不同的消融实验,分析不同微调数据对VLLM的影响。如图3所示,(a) 与7B模型相比,如Qwen-VL-Chat和LLaVA-1.5-7B,我们的模型在11个基准测试中达到了最先进的性能(SoTA)。(b) 与13B模型相比,如InstructBLIP和LLaVA-1.5-13B,我们的模型在10个基准测试中也达到了最先进的性能(SoTA)。实验结果表明,基于MMInstruct进行微调后的模型在多个基准测试中表现优异,有效提升了视觉语言模型的性能。