探索多模态大模型数据提质,飞桨PaddleMIX开发大赛盛大启幕

企业   2024-10-15 18:24   北京  


飞桨多模态大模型套件 PaddleMIX 整合了业界前沿的多模态大模型与飞桨框架底层高性能技术,全面兼顾高性能算法、便捷开发、高效训练和完备部署,其丰富的多模态模型库覆盖图像、文本、视频、音频模态模型,以及具备多模态理解和多模态生成的能力,适用金融文档多模分析、多模态医疗辅诊、电商智能营销、教育拍照解题等产业场景。预训练性能领先同类产品8%。精调阶段吞吐量提升68%,推理性能优于同类技术34%。


然而在实际项目开发过程中,各个领域的用户除了使用训练好的模型进行推理,也会使用专有数据微调来提升模型效果。在这个过程中,需要对数据进行大量的分析和处理操作。用户依赖这些数据处理的工具,可在套件完成端到端的开发体验,进一步扩大其用户数量和应用范围。为探索多模态大模型数据领域的工具组件建设,推动科技进步与产业升级,百度飞桨携手开放原子开源基金会联合主办的多模态大模型套件 PaddleMIX 开发大赛正式拉开帷幕。


本次多模态数据提质大赛赛题名称为“为飞桨多模态大模型套件丰富数据分析和处理的能力”。旨在从多模态大模型数据的领域开展工具组件的建设工作,完善飞桨多模态大模型套件数据分析和处理能力,降低用户开发成本。同时,大赛也为开发者们提供了宝贵的交流平台,促进国内外开发者之间的合作与知识共享。通过共同参与项目的开发、讨论,参赛者不仅能够提升个人的技术水平与项目经验,还能够拓宽视野,结识志同道合的伙伴,为未来的职业及学术发展奠定坚实的基础。


 01 

 赛事亮点速览 


权威赛事:由百度飞桨、开放原子开源基金会主办,由重庆市经济和信息化委员会、中国石油勘探开发研究院联办。


高额奖池:150,000 元。


目标实现对象:将验证有效的数据处理方案合入 PaddleMIX 套件,包括数据分析和处理功能、单元测试适配、文档适配。


技术路径:采用开源数据 llava_v1_5_mix665k,有效性验证试验在 LLaVA1.5 sft 阶段进行。技术方案可从单条数据和数据集多个角度进行数据质量的分析过滤,也可以从训练数据配比的角度分析训练数据的均衡性。最后通过一个 PR 的形式,提交到仓库,由仓库的负责人和百度飞桨研发导师,共同进行代码审查,最终合入仓库主分支。


 02 

 任务介绍 


任务描述:


1. 调研多模态数据分析、过滤、配比、可视化等技术。
2. 实现基本的数据处理算子,并在 llava_v1_5_mix665k 数据集上验证。
3. 根据上述算子集合,探索训练数据处理策略,并在 LLaVA1.5 sft 阶段验证方案,提交评估结果和日志。
4. 整理代码并提交 PR 至 PaddleMIX 官方仓库,协同飞桨导师,完成代码修改与合入。


参考方向:单样本(图文相关性、文本质量、图片质量、问题是否合理、回复是否有幻觉)数据集整体(重复样本,配比分析,多样性分析)


操作环境:需满足 LLaVA 模型进行 SFT 训练的要求,建议使用4张或8张 A100显卡进行模型上的数据策略验证(参与一等奖评选者必须自行完成验证过程)


注意事项:


1. 比赛相对开放,可以从数据过滤,数据配比和数据生成等多个角度进行思考;

2. 数据分析结果可视化;

3. 数据处理粒度尽可能小,复杂功能通过小算子组合。


 03 

 参赛对象 


参赛者身份不设限,高校、企业、科研院所等均可报名,国内外开发者均可报名。队伍人数不限,可单人或组队参赛。


 04 

 赛程安排 


  • 比赛报名启动:2024年09月25日

  • 初赛提交截止:2024年10月25日

  • 初赛作品结果公示:2024年11月1日

  • 决赛作品提交截止:2024年11月25日

  • 完赛颁奖:2024年12月31日


 05 

 参赛作品 


▎作品提交:


1. 参赛作品提交方式


(1)参赛队伍提交作品前,需将队长在大赛官网上的注册邮箱、用户名、姓名、手机号码等信息邮件发送给本赛项工作人员(联系邮箱:hanye01@baidu.com,邮件主题命名为:“参赛队伍名称”建仓申请),工作人员确认后为该参赛队伍在 AtomGit (AtomGit 网址:https://atomgit.com/)上导入一个与目标适配工具组件同名的私有仓库,代码来源设置为 GitHub 上的适配工具组件 git 链接,完成代码仓库的初始化。然后将队长添加为该仓库管理员。参赛队伍完成作品后,将作品源代码及相关文档提交至该仓库,并在 GitHub 上提交一个相同代码内容的 PR 到工具组件仓库中,@仓库负责人和百度研发导师进行代码审查。参赛队伍所提交作品(含初赛作品及决赛作品)命名方式为:参赛队伍名称+初赛/决赛作品+作品标题。


(2)在作品提交周期内,参赛队伍可在不改变作品名称和主要功能的基础上多次提交。参赛队伍在所参加赛程中多次提交作品的,以其最后一次提交的作品视为其在该赛程中参与评审的参赛作品。同时在竞赛期间,如赛项组织方有需要,参赛队伍需配合补充提交其它作品相关材料。


(3)所有已提交的参赛作品和相关材料原则上不予退还。


2. 参赛作品提交规范


(1)参赛作品须符合本赛项及所属赛道方向,作品名称应能体现其主要特征。


(2)参赛作品必须为原创作品,不得侵犯任何第三方的专利权、著作权、商标权及其他知识产权,且不得违反国家相关法律法规,否则将取消该作品的参赛资格。


(3)作品允许使用他人开源代码,但必须在符合该代码的开源许可基础上,注明出处,以及与作品其它代码的依赖关系,且不得使用 GPL、LGPL、Mozilla 协议等强约束性开源协议下的其他开源代码;提交作品时,必须在分析设计文档中明确说明作品中使用的其他开源代码的协议、作用及所占比例。


(4)作品应能正常运行并可达到预期结果。作品应与设计文档描述的功能一致,如未能实现设计文档中描述的所有功能,应注明未实现功能及其所占比例和重要程度。


(5)参赛作品的代码注释量应足够高,原则上不得低于代码量的5%。


▎初赛作品要求:


初赛阶段要求提交 RFC 文档至:

https://github.com/PaddlePaddle/community/blob/master/rfcs/PaddleMIX


参考模板:

https://github.com/PaddlePaddle/community/blob/master/rfcs/PaddleMIX/template.md


▎初赛晋级:


提交 RFC 并通过评审即获得晋级决赛资格,晋级决赛的名额不作限制。初赛后视根据情况可能提供机器资源。


▎决赛作品要求:


1. 提交包含作品代码的 GitHub PR 链接。


2. PPT 展示适配过程中的阶段性成果以及过程中如何解决遇到的技术性问题(10页左右)。


▎决赛评选:


按照分数从高到低排名,依次给予对应的奖项(允许奖项空缺)。


一等奖要求分数>=90分

二等奖要求分数>=60分

三等奖要求分数>=40分


 06 

 奖项设置 


一等奖:5万,一支队伍

二等奖:3万,两支队伍

三等奖:1万,四支队伍

开源贡献奖:荣誉证书,三支队伍


▎培训资料


■ 技术培训


官方技术社群答疑交流:

https://www.wjx.top/vm/wKqysjx.aspx?udsid=462819


■ 资料下载


https://arxiv.org/abs/2309.02033

https://arxiv.org/abs/2407.08583

https://github.com/haotian-liu/LLaVA

https://github.com/modelscope/data-juicer

https://github.com/PaddlePaddle/PaddleMIX/tree/release/2.0/paddlemix/datacopilot 

https://github.com/PaddlePaddle/PaddleMIX/tree/release/2.0/paddlemix/examples/llava


■ 赛事报名

https://competition.atomgit.com/previewinfo?id=d65b849bc916bd42e1bc5f5ee2562efa


扫描海报二维码加入 PaddleMIX 赛事官方技术交流群



百度AI
百度AI最新产品、产业案例、实时资讯在这里。 百度是为数不多进行全栈布局的人工智能公司。从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,各个层面都有领先业界的关键自研技术,可以实现端到端优化,大幅提升效率。
 最新文章