探索多模态大模型数据提质，飞桨PaddleMIX开发大赛盛大启幕

企业 2024-10-15 18:24 北京

飞桨多模态大模型套件 PaddleMIX 整合了业界前沿的多模态大模型与飞桨框架底层高性能技术，全面兼顾高性能算法、便捷开发、高效训练和完备部署，其丰富的多模态模型库覆盖图像、文本、视频、音频模态模型，以及具备多模态理解和多模态生成的能力，适用金融文档多模分析、多模态医疗辅诊、电商智能营销、教育拍照解题等产业场景。预训练性能领先同类产品8%。精调阶段吞吐量提升68%，推理性能优于同类技术34%。

然而在实际项目开发过程中，各个领域的用户除了使用训练好的模型进行推理，也会使用专有数据微调来提升模型效果。在这个过程中，需要对数据进行大量的分析和处理操作。用户依赖这些数据处理的工具，可在套件完成端到端的开发体验，进一步扩大其用户数量和应用范围。为探索多模态大模型数据领域的工具组件建设，推动科技进步与产业升级，百度飞桨携手开放原子开源基金会联合主办的多模态大模型套件 PaddleMIX 开发大赛正式拉开帷幕。

本次多模态数据提质大赛赛题名称为“为飞桨多模态大模型套件丰富数据分析和处理的能力”。旨在从多模态大模型数据的领域开展工具组件的建设工作，完善飞桨多模态大模型套件数据分析和处理能力，降低用户开发成本。同时，大赛也为开发者们提供了宝贵的交流平台，促进国内外开发者之间的合作与知识共享。通过共同参与项目的开发、讨论，参赛者不仅能够提升个人的技术水平与项目经验，还能够拓宽视野，结识志同道合的伙伴，为未来的职业及学术发展奠定坚实的基础。

赛事亮点速览

权威赛事：由百度飞桨、开放原子开源基金会主办，由重庆市经济和信息化委员会、中国石油勘探开发研究院联办。

高额奖池：150,000 元。

目标实现对象：将验证有效的数据处理方案合入 PaddleMIX 套件，包括数据分析和处理功能、单元测试适配、文档适配。

技术路径：采用开源数据 llava_v1_5_mix665k，有效性验证试验在 LLaVA1.5 sft 阶段进行。技术方案可从单条数据和数据集多个角度进行数据质量的分析过滤，也可以从训练数据配比的角度分析训练数据的均衡性。最后通过一个 PR 的形式，提交到仓库，由仓库的负责人和百度飞桨研发导师，共同进行代码审查，最终合入仓库主分支。

任务介绍

任务描述：

1. 调研多模态数据分析、过滤、配比、可视化等技术。

2. 实现基本的数据处理算子，并在 llava_v1_5_mix665k 数据集上验证。

3. 根据上述算子集合，探索训练数据处理策略，并在 LLaVA1.5 sft 阶段验证方案，提交评估结果和日志。

4. 整理代码并提交 PR 至 PaddleMIX 官方仓库，协同飞桨导师，完成代码修改与合入。

参考方向：单样本（图文相关性、文本质量、图片质量、问题是否合理、回复是否有幻觉）数据集整体（重复样本，配比分析，多样性分析）

操作环境：需满足 LLaVA 模型进行 SFT 训练的要求，建议使用4张或8张 A100显卡进行模型上的数据策略验证（参与一等奖评选者必须自行完成验证过程）

注意事项：

1. 比赛相对开放，可以从数据过滤，数据配比和数据生成等多个角度进行思考；

2. 数据分析结果可视化；

3. 数据处理粒度尽可能小，复杂功能通过小算子组合。

参赛对象

参赛者身份不设限，高校、企业、科研院所等均可报名，国内外开发者均可报名。队伍人数不限，可单人或组队参赛。

赛程安排

比赛报名启动：2024年09月25日
初赛提交截止：2024年10月25日
初赛作品结果公示：2024年11月1日
决赛作品提交截止：2024年11月25日
完赛颁奖：2024年12月31日

参赛作品

▎作品提交：

1. 参赛作品提交方式

（1）参赛队伍提交作品前，需将队长在大赛官网上的注册邮箱、用户名、姓名、手机号码等信息邮件发送给本赛项工作人员（联系邮箱：hanye01@baidu.com，邮件主题命名为：“参赛队伍名称”建仓申请），工作人员确认后为该参赛队伍在 AtomGit （AtomGit 网址：https://atomgit.com/）上导入一个与目标适配工具组件同名的私有仓库，代码来源设置为 GitHub 上的适配工具组件 git 链接，完成代码仓库的初始化。然后将队长添加为该仓库管理员。参赛队伍完成作品后，将作品源代码及相关文档提交至该仓库，并在 GitHub 上提交一个相同代码内容的 PR 到工具组件仓库中，@仓库负责人和百度研发导师进行代码审查。参赛队伍所提交作品（含初赛作品及决赛作品）命名方式为：参赛队伍名称+初赛/决赛作品+作品标题。

（2）在作品提交周期内，参赛队伍可在不改变作品名称和主要功能的基础上多次提交。参赛队伍在所参加赛程中多次提交作品的，以其最后一次提交的作品视为其在该赛程中参与评审的参赛作品。同时在竞赛期间，如赛项组织方有需要，参赛队伍需配合补充提交其它作品相关材料。

（3）所有已提交的参赛作品和相关材料原则上不予退还。

2. 参赛作品提交规范

（1）参赛作品须符合本赛项及所属赛道方向，作品名称应能体现其主要特征。

（2）参赛作品必须为原创作品，不得侵犯任何第三方的专利权、著作权、商标权及其他知识产权，且不得违反国家相关法律法规，否则将取消该作品的参赛资格。

（3）作品允许使用他人开源代码，但必须在符合该代码的开源许可基础上，注明出处，以及与作品其它代码的依赖关系，且不得使用 GPL、LGPL、Mozilla 协议等强约束性开源协议下的其他开源代码；提交作品时，必须在分析设计文档中明确说明作品中使用的其他开源代码的协议、作用及所占比例。

（4）作品应能正常运行并可达到预期结果。作品应与设计文档描述的功能一致，如未能实现设计文档中描述的所有功能，应注明未实现功能及其所占比例和重要程度。

（5）参赛作品的代码注释量应足够高，原则上不得低于代码量的5%。

▎初赛作品要求：

初赛阶段要求提交 RFC 文档至：

https://github.com/PaddlePaddle/community/blob/master/rfcs/PaddleMIX

参考模板：

https://github.com/PaddlePaddle/community/blob/master/rfcs/PaddleMIX/template.md

▎初赛晋级：

提交 RFC 并通过评审即获得晋级决赛资格，晋级决赛的名额不作限制。初赛后视根据情况可能提供机器资源。

▎决赛作品要求：

1. 提交包含作品代码的 GitHub PR 链接。

2. PPT 展示适配过程中的阶段性成果以及过程中如何解决遇到的技术性问题（10页左右）。

▎决赛评选：

按照分数从高到低排名，依次给予对应的奖项（允许奖项空缺）。

一等奖要求分数>=90分

二等奖要求分数>=60分

三等奖要求分数>=40分

奖项设置

一等奖：5万，一支队伍

二等奖：3万，两支队伍

三等奖：1万，四支队伍

开源贡献奖：荣誉证书，三支队伍

▎培训资料

■ 技术培训

官方技术社群答疑交流：

https://www.wjx.top/vm/wKqysjx.aspx?udsid=462819

■ 资料下载

https://arxiv.org/abs/2309.02033

https://arxiv.org/abs/2407.08583

https://github.com/haotian-liu/LLaVA

https://github.com/modelscope/data-juicer

https://github.com/PaddlePaddle/PaddleMIX/tree/release/2.0/paddlemix/datacopilot

https://github.com/PaddlePaddle/PaddleMIX/tree/release/2.0/paddlemix/examples/llava

■ 赛事报名

https://competition.atomgit.com/previewinfo?id=d65b849bc916bd42e1bc5f5ee2562efa

扫描海报二维码加入 PaddleMIX 赛事官方技术交流群

http://mp.weixin.qq.com/s?__biz=MzI5NzUyMzM1Mg==&mid=2247646812&idx=1&sn=3a936534b65ca8217545295dd983c39f

百度AI

百度AI最新产品、产业案例、实时资讯在这里。百度是为数不多进行全栈布局的人工智能公司。从高端芯片昆仑芯，到飞桨深度学习框架，再到文心预训练大模型，各个层面都有领先业界的关键自研技术，可以实现端到端优化，大幅提升效率。

最新文章

官方带队实测，阶梯式解锁飞桨框架3.0能力新特性，轻松上手！

飞桨AI for Science课程表｜前沿讲座系列课程预告

连续两年获奖！百度文心智能体技术亮相2024世界互联网大会

2024大湾区科学论坛举行，百度吴甜解读大模型如何重塑产业智能引擎

每周一度｜文心iRAG和无代码“秒哒”发布！李彦宏：即将迎来AI应用的群星闪耀时刻；百度王海峰：文心一言用户规模达4.3亿

百度王海峰：文心一言用户规模达4.3亿

打造没有围墙的学校，百度世界2024发布科技馆智能体

大模型如何辅助训练夺金？全红婵、陈芋汐、曹缘百度世界大会现场揭秘

文心iRAG和无代码“秒哒”发布！李彦宏：即将迎来AI应用的群星闪耀时刻

距百度世界2024开幕仅剩1天！大会议程速递

每周一度｜百度智能云×石景山区：大模型产业基地服务平台上线；直击进博会现场，百度吴华分享文心大模型最新应用成果

文心一言AI绘画升级！支持多比例出图，新媒体人有救了

百度联合学界打造国内最新AI for Science系列课程

直击进博会现场，百度吴华分享文心大模型最新应用成果

实训升级、资源加码！飞桨星河社区六周年活动速通攻略来啦！

扬帆启航！你的开源之路从「启航计划」开始！

每周一度｜双第一！百度智能云领跑中国大模型市场；百度智能云×泰兴经济开发区：大模型赋能千亿级化工园区

飞桨模型产线高性能推理、服务化部署、端侧部署能力详解与实战

飞桨首创 FlashMask：加速大模型灵活注意力掩码计算，长序列训练的利器

凌智电子加入飞桨技术伙伴计划，携手PaddleX为视觉模组产品赋能添“智”

在吗？这有30+AI公开课了解一下~

探索多模态大模型数据提质，飞桨PaddleMIX开发大赛盛大启幕

每周一度｜2024年世界科技与发展论坛在京开幕，百度王海峰谈通用人工智能；金融科技赋能智慧养老，大模型产业落地正当时

纯干货！双十一，雇个AI帮我带货

AI for Science赛事启幕，打卡立刻获得周边礼品

1024程序员节，“纯AI战士”申请出战！

2024年世界科技与发展论坛在京开幕百度王海峰谈通用人工智能

PaddleOCR 2.9 发布，正式开源文本图像智能分析利器

体验超赞！飞桨×北航“启航计划”实习圆满结营

每周一度｜李彦宏：泡沫不可避免，但有1%AI企业脱颖而出创造巨大价值；吴晓波对话百度沈抖：打开一张19个月的大模型成绩单

PaddleNLP上新！浪潮信息源2.0全面接入，大模型生态加速进化！

探索多模态大模型数据提质，飞桨PaddleMIX开发大赛盛大启幕

每周一度｜百度与招商银行达成战略合作；以大模型驱动营销新变革，百度营销斩获金投赏5项大奖；飞桨×北航“启航计划”实习圆满结营

数据融合技术，助力OCR垂类模型通用能力显著提升

你的AI逛展搭子来了！假期速来打卡798艺术节

每周一度｜百度与智源研究院达成战略协议，将在大模型等领域展开合作；百度沈抖：产业活力，智能跃迁

飞桨PaddleScience助力汽车空气动力学技术发展，成果亮相领域顶会

全球首个！百度产品通过大模型平台应用系统ISO/IEC 42001认证

双料冠军！文心快码登沙利文、SuperCLUE两大评测报告榜首

百度与智源研究院达成战略协议，将在大模型等领域展开合作

星梦启航：寻找文化传媒领域闪耀应用

大模型拜师学艺！422位专家、学者加入百度“文心导师”计划

每周一度｜飞桨 PaddleScience 助力汽车空气动力学技术发展；百度用商一体·生态协同，引爆新车发布超级效能

宜鼎国际整合PaddleX超轻量实时目标检测模型，共建“AI+智能存储”创新应用

百度飞桨AI教学赋能计划（2024秋季学期）启动申请！

文心一言会员的中秋节仪式感：吃月饼，赏月亮，领月卡！

文心一言AI绘画效果全面升级，这个中秋画点不一样的！

福建少年陈君航：15岁玩转“AI”，成为“野生”计算机天才

百度吴甜：大模型重构产业数字引擎，智能体加速产业智能升级

响应“人工智能+”，百所高校将与飞桨和文心联办AI主题开学季

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉