OpenCSG助力国产大模型|YuLan-Mini:数据高效的AI模型突破

2025-01-06 18:26   中国香港  

模型简介

中国人民大学高岭人工智能学院的团队开发的YuLan-Mini,在参数更少的情况下展现了与竞争对手相匹配甚至更优的性能。YuLan-Mini拥有24.2亿参数,擅长处理多种AI任务,树立了数据效率的新标准。该模型在训练过程中使用了超过1万亿的token,其性能匹配甚至有时超越了需要更多数据的更大模型。
该模型的几项技术创新包括:
  1. 数据处理管道:复杂的数据处理流程确保了训练阶段的数据清洁和调度的最优化。
  2. 稳健优化:YuLan-Mini采用先进的优化技术,有效应对常见的训练不稳定性。
  3. 有效退火:通过长文本训练和针对性数据选择,模型细化其性能。

技术创新

YuLan-Mini模型在以下几个关键技术方面进行了重大创新,显著提升了训练效率与模型性能:
  1. 数据处理管道
  2. 数据清洁与调度:通过精细的数据处理策略,包括数据清洗、数据混合及数据时间表策略,确保训练数据的质量和效率。
    动态数据选择:模型在训练过程中动态选择与当前学习阶段最匹配的数据,优化学习效果并减少资源浪费。

  3. 稳健优化策略
  4. 优化方法:采用先进的优化算法来应对训练过程中可能出现的损失激增或梯度爆炸等不稳定情况。
    参数微调:通过细粒度的参数调整,增强模型对各类数据的泛化能力,同时保持高效的计算性能。
  5. 有效退火技术
  6. 目标数据选择:在退火阶段,模型针对性地选择能够显著提升模型性能的数据,以达到精细调优的效果。
    长文本训练:通过长文本训练策略,提升模型处理大规模文本数据的能力,特别是在复杂的自然语言处理任务中。
  7. 模型架构创新
  8. Transformer改进:在传统的Transformer架构基础上,引入多项创新技术,如分组查询注意力(Grouped-Query Attention)机制,减少计算复杂度同时保持模型性能。
    嵌入层共享:通过共享嵌入层(embedding tying)的技术,减少了模型参数的数量,同时增强了训练的稳定性。

  9. 多阶段训练流程
  10. 分阶段训练:模型训练分为预热、稳定训练和退火三个阶段,每个阶段都针对性地调整学习率和数据输入,精确控制模型的学习进度。
    自适应学习率调整:在不同的训练阶段根据模型的性能动态调整学习率,优化训练效果和速度。

基准测试与性能

YuLan-Mini模型在众多基准测试中展现了其卓越的性能,特别是在以下几个领域:
  1. 通用语言理解
  2. 在广泛使用的基准测试如GSM8K和MATH-500中,YuLan-Mini展示了其出色的数学解题和推理能力。例如,在MATH-500测试中,模型达到了37.80的高分,显示了其在处理复杂问题上的强大能力。
    在HumanEval(用于评估代码生成能力的基准)中,模型在zero-shot设置下取得了64.00的得分,这证明了它在自动编码任务上的有效性。
    YuLan-Mini与其他几个知名的基础模型进行了性能比较。例如,与Qwen2-1.5B和OLMo2-7B等模型相比,YuLan-Mini在性能评估中常常能够获得更高的分数,尤其是在处理长文本和复杂查询时的表现更为优异。
  3. 开放领域任务
  4. 在开放领域的任务,如ARC-Challenge和HellaSwag中,模型展示了其出色的推理和理解能力,以及在面对挑战性问题时的韧性和精确度。

OpenCSG助力YuLan模型

在训练YuLan-Mini模型时,大量使用了来自OpenCSG社区发布的Chinese Fineweb Edu 数据集。这是一个为教育领域的自然语言处理任务特别设计的高质量中文预训练语料库。该数据集经过了严格的筛选和去重流程,使用少量数据训练的打分模型进行评估,从海量的原始数据中提取出高价值的教育相关内容,确保了数据的质量和多样性。最终,该数据集包含了约90M条高质量的中文文本数据,总大小约为300GB,这为YuLan-Mini模型的训练提供了丰富的教育领域语料,有助于模型在相关任务上表现出色。

OpenCSG不仅是国内最活跃、最受关注的开源公益机构之一,还在不断推动高质量数据的开源。在Hugging Face(HF)数据趋势榜上,OpenCSG是唯一的中国机构代表。这些成就标志着OpenCSG在开源领域的重要实践,展现了该机构通过开源数据赋能大模型的长期愿景。
OpenCSG的开源理念是通过开放的形式,让大模型技术能够赋能每一个人,让技术触达更多行业和开发者。这种开源共建的精神不仅推动了技术进步,也为整个AI社区创造了更多可能性,推动了技术的普及和应用,展现了其对开放科技发展的贡献和承诺。

Chinese Fineweb Edu下载地址

OpenCSG社区:https://opencsg.com/datasets/OpenCSG/chinese-fineweb-edu

huggingface社区:https://huggingface.co/datasets/opencsg/chinese-fineweb-edu

魔搭社区:https://www.modelscope.cn/datasets/opencsg/chinese-fineweb-edu



模型下载

OpenCSG社区:https://opencsg.com/models/yulan-team/YuLan-Mini




欢迎加入OpenCSG社区



•贡献代码,与我们一同共建更好的OpenCSG


•Github主页

欢迎🌟:https://github.com/OpenCSGs


•Huggingface主页

欢迎下载:https://huggingface.co/opencsg


•加入我们的用户交流群,分享经验



扫描上方二维码添加小助手






“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。


OpenCSG社区
该账号是开放传神(OpenCSG)分享大模型的技术、见解、传神开放社区等方面的内容!
 最新文章