OpenCSG助力国产大模型｜YuLan-Mini：数据高效的AI模型突破

2025-01-06 18:26 中国香港

模型简介

中国人民大学高岭人工智能学院的团队开发的YuLan-Mini，在参数更少的情况下展现了与竞争对手相匹配甚至更优的性能。YuLan-Mini拥有24.2亿参数，擅长处理多种AI任务，树立了数据效率的新标准。该模型在训练过程中使用了超过1万亿的token，其性能匹配甚至有时超越了需要更多数据的更大模型。

该模型的几项技术创新包括：

数据处理管道：复杂的数据处理流程确保了训练阶段的数据清洁和调度的最优化。
稳健优化：YuLan-Mini采用先进的优化技术，有效应对常见的训练不稳定性。
有效退火：通过长文本训练和针对性数据选择，模型细化其性能。
‍

技术创新

YuLan-Mini模型在以下几个关键技术方面进行了重大创新，显著提升了训练效率与模型性能：

数据处理管道：

数据清洁与调度：通过精细的数据处理策略，包括数据清洗、数据混合及数据时间表策略，确保训练数据的质量和效率。

动态数据选择：模型在训练过程中动态选择与当前学习阶段最匹配的数据，优化学习效果并减少资源浪费。

稳健优化策略：

优化方法：采用先进的优化算法来应对训练过程中可能出现的损失激增或梯度爆炸等不稳定情况。

参数微调：通过细粒度的参数调整，增强模型对各类数据的泛化能力，同时保持高效的计算性能。

有效退火技术：

目标数据选择：在退火阶段，模型针对性地选择能够显著提升模型性能的数据，以达到精细调优的效果。

长文本训练：通过长文本训练策略，提升模型处理大规模文本数据的能力，特别是在复杂的自然语言处理任务中。

模型架构创新：

Transformer改进：在传统的Transformer架构基础上，引入多项创新技术，如分组查询注意力（Grouped-Query Attention）机制，减少计算复杂度同时保持模型性能。

嵌入层共享：通过共享嵌入层（embedding tying）的技术，减少了模型参数的数量，同时增强了训练的稳定性。

多阶段训练流程：

分阶段训练：模型训练分为预热、稳定训练和退火三个阶段，每个阶段都针对性地调整学习率和数据输入，精确控制模型的学习进度。

自适应学习率调整：在不同的训练阶段根据模型的性能动态调整学习率，优化训练效果和速度。

基准测试与性能

YuLan-Mini模型在众多基准测试中展现了其卓越的性能，特别是在以下几个领域：

通用语言理解：

在广泛使用的基准测试如GSM8K和MATH-500中，YuLan-Mini展示了其出色的数学解题和推理能力。例如，在MATH-500测试中，模型达到了37.80的高分，显示了其在处理复杂问题上的强大能力。

在HumanEval（用于评估代码生成能力的基准）中，模型在zero-shot设置下取得了64.00的得分，这证明了它在自动编码任务上的有效性。

YuLan-Mini与其他几个知名的基础模型进行了性能比较。例如，与Qwen2-1.5B和OLMo2-7B等模型相比，YuLan-Mini在性能评估中常常能够获得更高的分数，尤其是在处理长文本和复杂查询时的表现更为优异。

开放领域任务：

在开放领域的任务，如ARC-Challenge和HellaSwag中，模型展示了其出色的推理和理解能力，以及在面对挑战性问题时的韧性和精确度。

OpenCSG助力YuLan模型

在训练YuLan-Mini模型时，大量使用了来自OpenCSG社区发布的Chinese Fineweb Edu 数据集。这是一个为教育领域的自然语言处理任务特别设计的高质量中文预训练语料库。该数据集经过了严格的筛选和去重流程，使用少量数据训练的打分模型进行评估，从海量的原始数据中提取出高价值的教育相关内容，确保了数据的质量和多样性。最终，该数据集包含了约90M条高质量的中文文本数据，总大小约为300GB，这为YuLan-Mini模型的训练提供了丰富的教育领域语料，有助于模型在相关任务上表现出色。

OpenCSG不仅是国内最活跃、最受关注的开源公益机构之一，还在不断推动高质量数据的开源。在Hugging Face（HF）数据趋势榜上，OpenCSG是唯一的中国机构代表。这些成就标志着OpenCSG在开源领域的重要实践，展现了该机构通过开源数据赋能大模型的长期愿景。

OpenCSG的开源理念是通过开放的形式，让大模型技术能够赋能每一个人，让技术触达更多行业和开发者。这种开源共建的精神不仅推动了技术进步，也为整个AI社区创造了更多可能性，推动了技术的普及和应用，展现了其对开放科技发展的贡献和承诺。

Chinese Fineweb Edu下载地址

OpenCSG社区：https://opencsg.com/datasets/OpenCSG/chinese-fineweb-edu

huggingface社区：https://huggingface.co/datasets/opencsg/chinese-fineweb-edu

魔搭社区：https://www.modelscope.cn/datasets/opencsg/chinese-fineweb-edu

模型下载

OpenCSG社区：https://opencsg.com/models/yulan-team/YuLan-Mini

欢迎加入OpenCSG社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加小助手

“ 关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

OpenCSG社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

CodeSouler v1.13.0 版本更新

回首2024 | OpenCSG社区年度报告请查收

全新推理模型 DeepSeek-R1 问世，全面对标 OpenAI o1

直播预告｜OpenCSG&人大YuLan｜LLM数据新范式：深度揭秘高质量开源中文数据集

MiniMax-01重磅发布：突破Transformer架构，4M超长上下文

书生·浦语大模型升级，突破思维密度，4T数据训出高性能模型

CSGHub开源版本v1.3.0更新

直播预告｜LLM数据新范式：深度揭秘OpenCSG高质量开源中文数据集

开年巨献｜OpenCSG携UltraFeedback中文数据集强势来袭

Phi-4: 微软开源的14亿参数模型，重定义AI性能新标准

NVIDIA Cosmos平台：开启物理AI时代的技术革命

OpenCSG助力国产大模型｜YuLan-Mini：数据高效的AI模型突破

直播预告｜OpenCSG AutoHub智能探索：一键开启 AI 浏览器之旅

ModernBERT：下一代 Encoder-Only 模型的全面进化

OpenCSG月度更新2024.12

年终巨献 | OpenCSG开源SmolTalk Chinese数据集

从30年前的一根网线说起中国这张网改变了什么？

开源用户故事｜CSGHub助力国产AI基础设施建设

视频创作迎来“智变”时刻，图森未来发布“Ruyi”大模型！

论文中心｜第34期人工智能领域论文推荐

OpenCSG 2.0：让我们全面拥抱Agentic架构

C4AI Command R7B：多语言高性能AI模型，为复杂任务而生

安装指南｜OpenCSG Starship上架GitHub Marketplace

CSGHub开源版本v1.2.0更新

DeepSeek V2.5正式发布：支持联网搜索，表现全面提升

论文中心｜第33期人工智能领域论文推荐

Meetup回顾 | AI赋能下的开发流程蜕变

Qwen2-VL-72B重磅开源：跨越视觉与语言的新时代 AI 里程碑

Meta重磅开源Llama 3.3-70B：性能大幅提升，成本大幅降低

倒计时2天！ OpenCSG&JetBrains 上海站 Meetup：AI赋能下的开发流程蜕变圆桌议题公布

Hunyuan-Video：腾讯开源高质量中文通用视频生成模型

论文中心｜第32期人工智能领域论文推荐

OpenCSG&JetBrains 上海站 Meetup | AI赋能下的开发流程蜕变

OpenCSG月度更新2024.11

Qwen开源QwQ-32B-Preview：从自省到突破，解锁AI推理的无限可能

阿里国际AI团队最新开源！探索面向开放性问题的推理模型 Marco-o1

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

最快的视频生成模型来了！LTX-Video 重磅发布，开源+RTX 4090 即可跑

Meetup回顾 | 大模型全生命周期管理与AI应用的全栈可观测性

司南 OpenCompass 11月大语言模型评测即将启动，欢迎新合作厂商申请评测！

论文中心｜第31期人工智能领域论文推荐

超越GPT-4o的开源巅峰！Pixtral Large多模态模型重磅登场

RMBG 2.0 ：让图片抠图更简单，史上最强开源背景移除模型

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉