24个领域97万条指令！MMInstruct：具备丰富多样性的高质量多模态指令调优数据集

文摘科技 2024-12-06 12:00 日本

研究团队

刘羊周，曹越，陈喆，路通：南京大学计算机学院

高张伟：上海交通大学电子信息与电气工程学院

王玮赟：复旦大学计算机科学技术学院

王文海：香港中文大学信息工程学系

田昊，卢乐炜：商汤科技

乔宇：上海人工智能实验室

朱锡洲，代季峰：清华大学电子工程系

文章下载

Yangzhou LIU, Yue CAO, Zhangwei GAO, Weiyun WANG, Zhe CHEN, Wenhai WANG, Hao TIAN, Lewei LU, Xizhou ZHU, Tong LU, Yu QIAO & Jifeng DAI. MMInstruct: a high-quality multi-modal instruction tuning dataset with extensive diversity. Sci China Inf Sci, 2024, doi: 10.1007/s11432-024-4187-3

研究意义

现有的视觉大模型（VLLMs）虽然通过视觉-语言监督微调提升了性能，但依然面临指令标注质量和数据多样性不足的问题，如生成不准确的指令或场景不够真实。为解决这些问题，本文提出了一个高质量且多样化的多模态指令调优数据集——MMInstruct，涵盖24个领域的97万条指令。通过新型指令生成引擎，能够有效降低指令调优数据集生成成本，并通过实验验证了该数据集能显著提升VLLMs的性能，为领域发展提供了新的技术途径。

本文工作

MMInstruct数据集的核心创新在于设计了一个高效的指令生成引擎，该引擎利用GPT-4V和GPT-3.5结合人工校正，进行半自动化指令生成。首先通过网络爬虫和相似度搜索获取高质量图像，再基于图像语义生成多样化的指令和答案，确保指令生成的多样性与准确性。这一引擎使得数据集构建成本仅为人工标注的1/6，大幅提高了数据生成效率和质量。

图1 MMInstruct的数据引擎

如图1所示，我们的数据引擎包括自动生成和人工校正：(a) 从多种来源收集大量且多样化的图像。(b) 使用GPT-4V根据图像及其上下文生成详细的图像描述。(c) 人工专家收集种子问题，并使用GPT-4V验证其有效性。(d) 利用详细的图像描述和种子问题，使用GPT-3.5生成指令-答案对。(e) 采用多种方法扩展数据集。(f) 最终进行额外的人工校正。数据示例如图2所示。

图2 MMInstruct中不同领域的视觉指令调优数据示例

本文的创新点如下：

(1) 高效的指令生成引擎：结合GPT-4V、GPT-3.5与人工校正，生成多样化且高质量的视觉指令，显著降低了数据集构建成本，仅为纯人工标注的1/6。

(2) 丰富的多模态任务域：MMInstruct涵盖24个通用领域，提供多种指令类型（判断、选择、长短视觉问答），显著提升模型的泛化能力。

(3) 增强的视觉语言模型性能：经过MMInstruct微调，模型在多个基准任务上达到最先进的性能。

实验结果

本文所提出的MMInstruct在先进的VLLM架构LLaVA-1.5上进行性能评估。在微调阶段，我们保持视觉编码器冻结，并结合LLaVA-665K指令数据集与我们的MMInstruct数据集，对MLP投影层和大型语言模型进行微调。此外，我们还设计了不同的消融实验，分析不同微调数据对VLLM的影响。

图3 不同模型大小的性能比较

如图3所示，(a) 与7B模型相比，如Qwen-VL-Chat和LLaVA-1.5-7B，我们的模型在11个基准测试中达到了最先进的性能（SoTA）。(b) 与13B模型相比，如InstructBLIP和LLaVA-1.5-13B，我们的模型在10个基准测试中也达到了最先进的性能（SoTA）。实验结果表明，基于MMInstruct进行微调后的模型在多个基准测试中表现优异，有效提升了视觉语言模型的性能。

中国科学信息科学

《中国科学：信息科学》及其英文版《Science China Information Sciences》的宣传平台。

最新文章

朱若澜,李晨,李学龙等 | 自主水下航行器多分支网络光学导引定位方法

SCIS专题 | 多模态大模型（英文版）

武汉大学马佳义团队 | 基于多重感受野交融网络的偏振三维重建

尤肖虎院士观点 | When AI meets sustainable 6G

赵志甲,贺威,陈俊龙等 | 考虑输入约束和全局预设性能的两自由度直升机系统自适应神经网络控制

山东大学余国先团队 | 个性化联邦小样本节点分类：基于参数解耦与节点增强的联邦学习

SCIS会议 | 第58次《中国科学：信息科学》前沿学术沙龙

钱锋院士观点 | 人工智能赋能的化工新材料设计

《中国科学：信息科学》祝您新年快乐！

张翠娟,纪良浩,李华青等 | 事件触发和优先经验回放的多智能体系统最优一致控制

张笑钦,范登平,肖国宝等 | COMPrompter：多提示重构SAM的伪装目标检测

申晨,Jun Tanimoto,王震等 | 退出机制促进亲社会惩罚，但非一劳永逸的解决方案

2024年第12期目录 | SCIENCE CHINA Information Sciences

征稿启事 | 大规模智能体系统的平均场博弈与控制：从理论到实践（英文版）

东南大学虞文武团队 | 求解大规模混合整数规划问题的分布式算法架构

中科大李厚强&字节跳动联合团队 | DocPedia：高分辨率多模态文档大模型

征稿启事 | 太赫兹无线通信技术创新与应用专题（英文版）

张晏,冀中,庞彦伟,韩军功,李学龙 | 模态专家协调的多模态大模型参数高效微调方法

《中国科学: 信息科学》2024年第12期目录

中科大陈恩红团队 | Woodpecker: 多模态大语言模型的幻觉缓解方法

电子科技大学白天,肖鸣宇 | 超图上最大独立集问题的精确算法

左明成,巩敦卫 | 深度嵌入适应度评估分配策略的约束多目标进化优化方法

张笑钦,黄自玮,郑晶晶等 | DcnnGrasp：采用自适应学习方式的抓取手势识别

OCRBench：多模态大模型中隐藏的OCR奥秘

华为吴建军, 孙黎, 王东晖等 | 面向6G网络的内生安全架构和关键技术思考

王巍院士团队 | 面向多源自主导航的智能学习方法研究

党吉圣,郑慧诚,赖剑煌等 | 基于逐帧和逐段时空交互记忆网络的高效视频目标分割

王常虹,余旭东,王震等 | 基于集成后继表征的离线到在线任务泛化

上海交通大学&苏州实验室联合团队 | ChemDFM-X：跨模态化学材料大模型

大连理工大学赵楠等 | 智能通感一体化综述

华中师范大学杨宗凯团队 | COMET：用于数学题目生成的教育领域多模态模型

重庆邮电大学胡林,刘锡炎,齐倩等 | 可重构智能表面辅助多用户NOMA网络鲁棒安全资源分配

RISTA前沿大讲堂 | 可编程超表面赋能感知与通信-空军工程大学许河秀教授

丁瑞森,杨飞生,潘泉,等 | 混合攻击下基于带宽感知型事件触发机制的负荷频率控制

李群,肖甫,Bir Bhanu等 | PS-CoT-Adapter：先计划后求解的科学问答任务解决方法

姜霞,孙健,陈杰等 | 求解非光滑优化问题的随机重排采样近似梯度算法

24个领域97万条指令！MMInstruct：具备丰富多样性的高质量多模态指令调优数据集

北京大学刘譞哲金鑫等 | 万卡深度学习集群中的高效GPU共享系统

招聘科技期刊编辑 |《中国科学》杂志社

西南交通大学庞琦珂, 马征, 唐小虎 | 新一代非易失性存储器下的LDPC硬译码算法

林达华,乔宇,代季峰联合团队 | 我们距离GPT-4V还有多远？使用开源套件弥合与商用多模态模型的差距

中国科学院自动化所程龙团队 | 动态系统辅助机器人学习周期性操作技能

吴小太,唐漾等 | 驻留时间信息不可用的半马尔可夫跳跃线性系统的稳定性分析与镇定

贾茹茹,宗小峰,王庆 | 具有多领导者和乘性噪声的高阶多智能体系统时变编队跟踪控制

山东科技大学张焕水团队 | 基于最优控制的优化方法

【活动通知】庆祝中华人民共和国成立75周年暨共绘AI大模型创新蓝图峰会

东南大学孙伟锋课题组 | P型沟道氮化镓晶体管的衬底偏置效应研究

SCIS会议 | 第57次《中国科学：信息科学》前沿学术沙龙

吕思宇,吴臻,熊捷 | 混合随机系统的零和脉冲博弈

《中国科学: 信息科学》2024年第11期目录

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉