PaddleMIX 2.1版本发布：多模态数据能力标签模型发布，前沿模型更新，国产硬件训推支持

科技 2024-11-12 15:15 广东

在当今数字化转型的浪潮中，人工智能技术的迅猛发展正在深刻改变着各行各业。其中，多模态大模型作为关键技术，因其能够连接不同信息维度，实现跨模态理解与生成，正在推动AI领域的创新。多模态大模型不仅能够处理和理解多种类型的信息，如文本、图像、音频和视频，还可以跨模态分析不同数据之间的联系，进行信息融合和综合推理。数据作为这一技术的核心驱动力，起着至关重要的作用。高质量和多样化的数据是多模态大模型高性能的基础。高质量的数据提升了模型的准确性和泛化能力，而数据的多样性则确保模型在不同应用场景中的出色表现。因此，在构建多模态大模型时，必须确保数据的高质量和多样性，以实现卓越的模型性能。

此外多模态大模型技术处于高速发展的阶段，前沿模型架构层出不穷，然而多模态大模型的训练和推理成本相对较高，并且对开发者而言上手难度较大，因此PaddleMIX团队积极吸纳业界前沿的多模态大模型，并结合框架底层高性能硬核技术，推出飞桨多模态大模型开发套件 PaddleMIX 2.1 版本。全面兼顾数据分析处理、高性能算法、便捷开发和高效训推，极大降低业界多模态领域开发者的开发门槛。

首先来看 PaddleMIX 2.1 的三大亮点：

亮点一：多模态数据能力标签模型 PP-InsCapTagger

多模态数据处理工具箱DataCopilot发布多模态数据能力标签模型PP-InsCapTagger，试验案例表明在保持模型效果不变的条件下可减少50%的数据量，大幅提高训练效率。

亮点二：丰富的前沿多模态模型

新增 Qwen2-VL、InternVL2、Stable Diffusion 3 (SD3)等前沿模型。

亮点三：国产硬件训推能力支持

多模态大模型 InternVL2、LLaVA 、SD3、SDXL 适配国产芯片，提供国产计算芯片上的训推能力。

欢迎开发者前往开源项目主页直接体验：

https://github.com/PaddlePaddle/PaddleMIX

多模态数据能力标签模型PP-InsCapTagger

在真实的应用场景有大量使用专有数据微调多模态大模型来提升效果的需求，此过程中数据处理成为核心要素。基于此 PaddleMIX 提供了数据处理和分析的工具 DataCopilot ，使开发者可在 PaddleMIX 套件完成端到端的开发体验。DataCopilot 设计理念是把数据作为多模态算法的一部分参与迭代的全流程，让开发者根据特定任务以低代码量实现数据的基本操作。工具核心概念包括 Scheme 和 MMDataset 。Scheme 用于定义多模态数据组织结构和字段名字，可用于不同格式的转换，简化 ops 操作的逻辑，内置 MM 和 MIX 类型。MMDataset 作为数据操作的核心类，为存储，查看，转换，生成等操作的基本对象。支持基本的运算（切片，加法，遍历等操作）。支持 json 数据源。内置 map ， filter 函数，用于高效处理数据，支持多进程和多线程并发功能。支持链式调用，方便组合多种原子操作以实现复杂的功能。通过以 map 函数为接口实现对数据集每个元素的处理，通过 register 注册机制可灵活新增作用于整个数据集的通用操作功能。

# 切片dataset1 = dataset[:1000]dataset2 = dataset[-100:]# 合并newdataset = dataset1 + dataset2 # new instancedataset1 += dataset2 # modified dataset1 inplace# 采样sample_item1 = dataset.shuffle()[0]sample_item2 = dataset[random.randint(0, len(dataset))]# 查看信息dataset.info()dataset.head()

PP-InsCapTagger (Instance Capability Tagger) 是 DataCopilot 基于 PaddleMIX 实现的数据集能力标签模型，用于为多模态数据实例能力打标，通过实例能力分布对数据集进行优化，可以提高模型训练效率，为数据集分析和评价提供了一种高效的方案。结合模型推理打标结果对 LLaVA SFT 数据集进行优化，可以提高 LLaVA 模型 SFT 阶段50%的训练效率。

数据实例能力标签：在多模态任务中，每条数据都可以抽象出一种或多种能力，在训练时，模型会从这些数据中学习并增强自身对应的能力，如下图。为了评价和优化数据集，我们可以通过模型为每条多模态数据在模型训练中贡献的实例能力进行打标，并根据打标结果中数据实例能力分布进行数据集的优化，进而提升模型的训练效率。

PP-InsCapTagger 基于 PaddleMIX 进行训练，使用 llava-v1.6-7b 模型作为 base 模型。数据集使用多模态数据 LLaVA-Instruct-150K 的部分图片和多轮对话内容，并通过 GPT-4o 为每一条数据的实例能力进行打标得到 tags ，然后使用 DataCopilot 实现数据集的高效预处理，结合原始数据和 tags 生成训练数据集。

对 llava_v1_5_mix665k 数据集进行优化，我们使用 PP-InsCapTagger 打标的标签结果对数据集进行筛选，首先确定出能够覆盖80%数据的单条数据的标签数量N，然后在数据集标签集合中选出标签数量占比前0.7%的标签作为一个筛选集合R，对于 llava_v1_5_mix665k 数据集中的每条数据，如果该条数据标签数量小于 N ，且该条数据的所有标签均在集合 R 中，则删除该条数据，否则保留该条数据。通过该筛选策略，最终保留数据集规模为原始数据集的50%左右。

我们分别使用 llava_v1_5_mix665k 数据集和筛选后的数据集进行 llava-1.5-7b SFT 阶段训练，对比结果如下表所示：

通过 PP-InsCapTagger 的打标和优化，我们采样出的50%数据集优于随机采样，并且与全量原始数据集的训练效果基本持平，大大提高了模型训练效率。

丰富的前沿多模态模型

多模态理解

多模态大模型（Multimodal LLM）是当前研究的热点，在 2024 年迎来了井喷式的发展，它将多模态输入经由特定的多模态 encoder 转化为与文本对齐的 token ，随后被输入到大语言模型中来执行多模态任务。PaddleMIX 2.1 新增了两大系列多模态大模型：InternVL2 系列和 Qwen2-VL 系列，同时支持指令微调训练和推理部署，模型能力覆盖了图片问答、文档图表理解、关键信息提取、场景文本理解、 OCR 识别、科学数学问答、视频理解、多图联合理解等。

多模态生成

PPDiffusers 发布版本 0.29.0，新增图像生成模型Stable Diffusion 3 (SD3)，支持 DreamBooth 训练及高性能推理；SD3、SDXL 适配国产硬件，提供国产计算芯片上的训推能力；DIT 支持高性能推理，推理性能提升80%。

PPDiffusers 提供了 SD3 的的个性化微调训练样例，只需要少量主题图像即可定制个性化 SD3 模型，支持 DreamBooth LoRA 微调及 DreamBooth 全参数微调。在推理上，提供 SD3 模型高性能推理实现，支持多卡推理，较竟品 TensorRT 加速26%。

PaddleMIX模型库

国产硬件训推能力支持

飞桨为大模型硬件适配提供了功能完善且低成本的方案。为了满足国产芯片用户的 AI 开发需求， PaddleMIX 团队基于飞桨框架在硬件兼容性和灵活性方面的优势，深度适配了国产芯片，为用户提供了国产计算芯片上的训推能力。只需要参照 安装文档 安装多硬件版本的飞桨框架后，在模型配置文件中添加一个配置设备的参数，即可在相关硬件上使用上述工具。PaddleMIX 2.1 国产硬件适配涵盖了多模态理解模型 InternVL2 、 LLaVA 和多模态生成模型 SD3 、 SDXL 。未来我们将继续在用户使用的多种算力平台上适配 PaddleMIX 更多的模型，敬请期待。

安装文档链接：

https://github.com/PaddlePaddle/PaddleMIX/blob/develop/docs/hardware_support/npu_model_list.md

赛事招募

飞桨携手开放原子基金会发起的飞桨多模态大模型套件PaddleMIX开发大赛火热报名中，15W奖金池等你来！

此次比赛设置了面向不同能力用户的赛题任务，既有基础性的多模态数据处理，又有挑战性的多模态数据过滤、可视化。技术方案既可从单条数据和数据集多个角度进行数据质量的分析过滤，也可以从训练数据配比的角度分析训练数据的均衡性，只要有兴趣有时间都可以报名参与。

参赛项目若验证成功，数据处理方案将直接合入PaddleMIX官方套件仓库，并获得万元奖金与项目证书等奖励，作为开源贡献者推动行业降本增效！

赛题详情与报名入口：

https://competition.atomgit.com/competitionInfo?id=d65b849bc916bd42e1bc5f5ee2562efa

额外福利：

* 完成报名并参与热身赛的所有用户，即可获得AI Studio算力会员月卡，加速您的项目开发。

关注【飞桨PaddlePaddle】公众号

OSC开源社区

开源中国，只关注开源圈、技术圈的硬核内容，与嬉笑怒骂。

最新文章

何同学使用开源软件“翻车”，都别吵了！扯什么违反MIT

工作写代码，放假写书，最后豆瓣评分9.1

逃离“北上广深”，新一线是最好的去处吗？

Go排名创历史新高——将在3年内超越JavaScript

开源日报 | 谷歌被强制出售Chrome；Mistral AI搞偷袭；何同学被指盗用开源项目；国产大模型独角兽困在光环里

B站知名up主何同学被指盗用开源项目——网友锐评「移源丁真：鉴定为自研」

Node.js开始反击

谷歌被强制出售Chrome

Chrome在走IE的老路吗？

开源日报 | 真实时内核来了；阿里云的野心转让给了AI；两个打擂台的C++开源项目；OpenAI和微软的竞争悄然开始

中国软件要出海，不能总是单打独斗

PaddleScience——击破科学计算痛点，让AI与科研无缝融合

数据库 + 大模型，DBA初级变高级？

世界上第一次大规模虚拟会议，发生在1916年

BASIC编程语言共同发明人Thomas Kurtz逝世

开源日报 | 小米成立AI平台部；每月为编程投资20刀；CNCF针对专利流氓的奖励计划；开源欧拉装机量超1000万；腾讯重新扩张

30岁的CSS卸下“盾牌”——更换成紫色Logo

Java集合API的改进

雷军力挺的小米开源大神回归——担任AI平台部负责人

开源日报 | CSS全新Logo；100B以内开源大模型个人可用了；OpenAI“下一个重大突破”；AMD将裁员近1000人

微软Visual C++编译器团队架构师力挺C++26，称其是C++11以来最具影响力的版本

MySQL亿级数据平滑迁移实战

开源日报 | “国产英伟达”准备上市；.NET 9发布；探索AI搜索的广告模式；通义前核心员工或面临阿里巨额索赔；李彦宏置身事内

号称汽车上的Android、“装车量”超过2.5亿——黑莓QNX系统官宣非商用免费

TypeScript 5.7：一大波新特性来袭！

VMware Fusion和Workstation现在对所有用户免费

开源日报 | Go诞生15周年；西雅图码农年薪中值15万刀；VMware免费；浙大开源最懂Excel的GPT；车企抢滩AI大模型

最新MoonBit WASM输出体积远小于Rust

PaddleMIX 2.1版本发布：多模态数据能力标签模型发布，前沿模型更新，国产硬件训推支持

Ray在微信AI计算中的大规模实践

开源日报 | C/C++增加美国安全风险；开源的十个误解；80岁国产数据库“领航人”；LLM到底能不能进行“推理”和“计划”？

35岁草根程序员下桌，去另一个赛道写“Hello World”

腾讯云2024双十一上云拼团Go：解锁更低折扣，共享上云红利

四名CEO ，扬言要打造新一代基础软件技术栈

「开源中国」用uni-app重构了——新版APP

深入了解Java泛型——从前世今生到PECS原则

盘点二次元浓度最高前端框架——Vue重大版本的神秘代号

四名CEO ，扬言要打造新一代基础软件技术栈

开源日报 | 人类已知的最大质数；首款专用Transformer ASIC；中国移动发布“移鸿”；AI的尽头是能源？

Python 3.13「自由线程」导致整体性能下降？

重逢动感时光，开源中国「动弹」焕新归来

开源日报 | 微信推出Linux版本；GIMP 3.0 RC1；AI编程开发技巧；谷歌搜索帝国命运；「自由线程」对性能的影响

Linux版微信正式官宣——基于Qt开发、启动秒开、体验丝滑流畅，吊打隔壁QQ？

2024年度中国GenAI消费应用人气评选

开源日报 | AI大模型找到0Day漏洞；“上古软件仓”；Mozilla基金会再度裁员；微软下架Paint 3D；AI方向错了？

阿里巴巴知名开源项目、3万多star的Java工具库——EasyExcel宣布停更

MySQL还有机会赶上PostgreSQL吗？

劈柴哥：Google内部超过25%的新代码由AI生成；谷歌工程师回复：老板在吹牛

开源日报 | 黑客窃取大量诺基亚源码；Linus换座驾；ChatGPT AI搜索还不是“谷歌杀手”；百万年薪大厂人35岁被裁

国内首发！腾讯混元两大核心模型在 Gitee 正式开源

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉