社区供稿｜智源研究院发布千万级多模态指令数据集 Infinity-MM: 驱动开源模型迈向 SOTA 性能

文摘 2024-10-31 10:30 广东

近年来，视觉语言模型（VLM）取得了显著进展，训练数据的规模扩展以及数据质量的提升是提升模型性能的关键因素。目前主要的获取数据方式为通过人工对数据进行收集和标注以及利用模型对指令进行合成，业内也有许多工作专注于此。然而，现有的开源数据和指令数据集在数量和质量上依然落后，基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。

为解决以上问题，进一步提升开源模型的性能，2024年10月25日，智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。

· Infinity-MM，包含数千万个样本，数据规模达4300万条，数据量达10TB，通过质量过滤和去重，确保了其数据的高质量和多样性。

· 智源提出了一种基于开源模型和标签体系的合成数据生成方法，能够生成高质量的指令数据并有效地扩大指令数据集的规模。

· 基于 Infinity-MM成功训练了一个 20 亿参数的多模态模型 Aquila-VL-2B，在同规模模型中取得了最先进的性能。

数据集下载地址：https://huggingface.co/datasets/BAAI/Infinity-MM

模型下载地址：https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen

模型下载地址：https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen_CG

技术报告地址：https://arxiv.org/abs/2410.18558

基于开源InfinityMM训练出SOTA模型

我们在业界公认的benchmark上针对模型性能进行了分析。以下benchmark涵盖了模型的通用视觉感知、文档理解、数学推理等能力。评测结果如下：

表1.opencompass多模态榜单测试集上2B级别模型效果

智源通过在多种视觉benchmark上进行测试，对模型的能力进行了全面的评估。Aquila-VL-2B 模型在同等规模下表现出高度竞争力，达到了最新的SOTA结果。总体来看，Aquila-VL-2B 模型在多个评估指标上均表现突出，尤其在诸如 MathVista_MINI 、HallusionBench 和 MMStar 等任务中，Aquila-VL-2B 展现出了显著的优势，这表明我们的模型在视觉感知和数学推理等多模态任务上具有强大的处理能力。然而，在某些文档理解基准测试中，例如，在 OCRBench 和 AI2D 上Aquila-VL-2B 仍有改进空间。

1.1 模型训练效率提升

表2.Aquila-VL-2B模型训练设置

Aquila-VL-2B模型采用了LLaVA-OneVision架构，文本塔使用Qwen2.5-1.5B-instruct，视觉塔使用的Siglip400m，训练采用了多阶段训练策略。智源自研的FlagScale框架对模型的训练进行了适配，同时在多元AI芯片上进行了训练。经过适配后的FlagScale，训练效率是原版基于DeepSpeed的训练代码的1.7倍。

InfinityMM 构建流程

2.1 开源数据收集整理

主要数据来源于公开数据集，经过去重和质量过滤后，数据量保持在约43M。数据涵盖了多种类型，包括视觉问答、文字识别、文档分析、数学推理等，详情如下：

表3.Infinity MM数据集按类型统计信息

表4.Infinity MM数据详细来源

2.2 InfinityMM合成数据方法

智源提出了一种基于视觉语言模型的多模态指令数据合成方法，确保了生成的指令与图片内容的匹配性、指令之间的多样性以及生成指令回答的准确性。

图1. Infinity MM数据合成流程图

2.2.1 图片与指令标签体系建立

首先，智源使用开源的识别模型（Recognize Anything Plus Model，RAM++）对图片进行自动打标，提取图片中的关键信息，如物体、动作、场景等。这些标签构成了图片的语义基础，为后续的指令生成提供依据。该模型在处理大规模图像时表现出色，能够精确捕捉多模态场景中的重要细节。

对于指令的任务类型，智源设计了一个三级指令标签体系，涵盖了指令的不同层次和种类。指令标签体系的顶层参考了MMBench，定义了六种任务类型，中层进一步细分任务特征，底层则针对具体任务需求进行精细分类。我们利用闭源模型对该体系进行了扩展和完善，确保指令体系的全面性和合理性。

2.2.2 图片与指令标签对应关系建立

在标签体系建立之后，智源选取了部分开源指令数据集作为种子数据，并对这些数据进行了图片和指令的打标。在此基础上统计了图片标签与指令标签之间的对应关系。通过这种方式，能够依据图片标签快速检索匹配的指令任务标签，从而确定适合生成的具体任务类型。

2.2.3 问题生成与过滤

在确认好目标图片需要合成的指令类型之后，进一步指示模型根据图片和该指令类型生成具体的问题。此过程中，智源采用了few-shot生成方法，从种子数据中检索出对应类型的图片和问题作为示例，输入模型以供参考。接着，将图片和生成的问题再次输入模型，由模型判断问题是否合理。

2.2.4 答案生成与过滤

在生成问题之后，进一步生成相应的指令回答。这一阶段要求生成的回答不仅要准确，而且要考虑到不同类型指令的多样性。智源通过在指令中添加不同的prompt来增加回答的多样性。最后，对生成的多模态指令数据进行严格的过滤，使用VLM来剔除与图片内容或任务不匹配的指令和答案。通过这一过程，我们生成了高质量的多模态指令数据集，为下游任务的研究提供了可靠的支持。

图2.合成数据任务类型占比

InfinityMM 分析实验

3.1 合成数据对于模型性能的帮助

在训练的第4阶段，我们引入了部分由GPT-4系列模型生成的数据，基于这些高质量的数据，按照前文介绍的方法进行了数据合成。为了评估合成数据对模型性能的影响，我们设计了消融实验（Ablation Study）。在实验中，我们去除了所有合成数据，仅保留原始的GPT生成数据进行模型训练。实验结果如下所示：去掉合成数据后，模型的整体性能出现了显著下降。这一现象表明，合成数据在提升模型性能方面起到了积极作用，进一步证明了我们所提出的方法在数据增强和多样性方面的有效性。

表5. 合成数据消融实验

3.2 InfinityMM 数据规模Scailing实验

为了进一步分析数据规模扩展（Data Size Scaling Up）对模型性能的影响，我们对模型性能随训练数据量变化的情况进行了详细研究。结果如图所示，随着训练数据量的逐步增加，模型性能呈现出稳定提升的趋势。这一变化曲线清晰表明，扩大指令数据规模对模型性能的提升具有显著的正向影响。

图3.数据规模扩展实验

3.3 视频处理评测

为了增强Aquila-VL-2B处理多图像和视频数据的能力，我们使用了部分相关数据对模型进行了进一步的训练。结果表明，即使在合并多图像和视频数据之前，模型已经表现出处理视频图像的可靠能力。在引入额外的多图像和视频数据进行进一步训练后，模型处理这些数据的能力得到了显著提高。但同时可以看到模型距离目前的SOTA效果仍有差距，仍需进一步提高。

表6.Video-MME评测结果

3.4 更多实验结果

我们在更多的测试集上同目前的SOTA模型进行了性能比较，结果显示Aquila-VL-2B模型仍具备明显优势。

表7.更多评测结果

总结&未来工作

在本工作中，我们为了提升开源模型的表现，构建了包含千万级别数据的多模态指令数据集Infinity-MM，通过增加数据规模来提升模型性能。同时，提出了一种基于开源模型和标签体系的指令数据合成方法，进一步生成高质量指令数据，扩展了数据集的规模。最终，我们基于Infinity-MM训练了Aquila-VL-2B模型，在同等规模下实现了SOTA效果。

之后我们会从以下几方面对工作进行改进：

1、进一步完善数据合成方法，增加合成数据的多样性和复杂性。

2、进一步增加文档处理类数据数据的规模。

3、基于Infinity-MM训练更多不同规模大小的模型。

‍

本文由 Hugging Face 中文社区内容共建项目提供，稿件由社区成员投稿，经授权发布于 Hugging Face 公众号。文章内容不代表官方立场，文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号:

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，请通过下面的链接投稿与我们取得联系:
https://hf.link/tougao

‍

http://mp.weixin.qq.com/s?__biz=Mzk0MDQyNTY4Mw==&mid=2247493264&idx=1&sn=ed7c2b7de9ee2a048915207c079462ee

Hugging Face

The AI community building the future.

为数据集而生的 SQL 控制台

Hugging Face 与 TruffleHog 合作，实现风险预警

社区供稿｜还在 GPT-4o 进行评测么？快来试试开源评价大模型 CompassJudger

顶点着色网格转换为 UV 映射的纹理化网格

使用 Optimum-Intel 和 OpenVINO GenAI 优化和部署模型

社区供稿 | 为什么我们需要 Hugging Face 的 Safetensors？

Hugging Face 与 Wiz Research 合作提高人工智能安全性

更快的辅助生成: 动态推测

现在 Llama 具备视觉能力并可以在你的设备上运行 - 欢迎使用 Llama 3.2

揭秘 FineVideo 数据集构建的背后的秘密

Gradio 5 稳定版正式发布

社区供稿 | 元象发布 XVERSE-MoE-A36B，多快好省！

将 LLMs 精调至 1.58 比特: 使极端量化变简单

HuggingChat macOS 版现已发布

对 LLM 工具使用进行统一

Accelerate 1.0.0

Hugging Face 论文平台 Daily Papers 功能全解析

社区供稿 | Reader-LM: 将原始 HTML 转换为干净 Markdown 的小型语言模型

社区供稿｜上线即 Trending, OCR-2.0 助力多模态大模型更快更强

通过打包 Flash Attention 来提升 Hugging Face 训练效率

社区供稿 | 全球首个多语言 ColBERT: Jina ColBERT V2 和它的“俄罗斯套娃”技术

Falcon Mamba: 首个高效的无注意力机制 7B 模型

LAVE: 使用 LLM 对 Docmatix 进行零样本 VQA 评估 - 我们还需要微调吗？

一次失败的实验 - 无限注意力，我们为什么坚持实验

Docmatix - 超大文档视觉问答数据集

ggml 简介

社区供稿 | 如何让大模型输出 10k+ 字长文？

社区供稿 | 使用 Hugging Face 和 Milvus 构建 RAG 系统

基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型

社区供稿 | 智源千万级指令微调数据集 Infinity-Instruct 持续迭代，Llama3.1 仅微调可接近 GPT-4

社区供稿 | 仅8B，全面对标 GPT-4V ！单图、多图、视频理解端侧三冠王！

社区供稿 | 开源 AI 视频工具，你只需要当导演，Hugging Face 工程师打造

TGI 多-LoRA: 部署一次，搞定 30 个模型的推理服务

XetHub 加入 Hugging Face！

社区供稿 | 面向多样应用需求，书生·浦语 2.5 开源超轻量、高性能多种参数版本

NuminaMath 是如何荣膺首届 AIMO 进步奖的？

SmolLM: 一个超快速、超高性能的小模型集合

Google 最新发布: Gemma 2 2B、ShieldGemma 和 Gemma Scope

在 Hub 上使用 Presidio 进行自动 PII 检测实验

Llama 3.1 - 405B、70B 和 8B 的多语言与长上下文能力解析

在英特尔 Gaudi 2 上加速蛋白质语言模型 ProtST

为视觉语言多模态模型进行偏好优化

微调 Florence-2 - 微软的尖端视觉语言模型

GAIA: 一个严苛的智能体基准

社区供稿 | Jina Reranker v2: 多语言支持、函数调用、代码搜索，超快推理！

Hugging Face 全球政策负责人首次参加WAIC 2024 前沿 AI 安全和治理论坛

Cosmopedia: 如何为预训练构建大规模合成数据集

OpenBMB × Hugging Face × THUNLP，联袂献上经典大模型课

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉