直播预告｜OpenCSG&人大YuLan｜LLM数据新范式：深度揭秘高质量开源中文数据集

2025-01-20 15:54 新加坡

点击蓝字，关注我们

🌟 OpenCSG发布四大中文预训练数据集，助力中文大模型训练 🌟

最近，OpenCSG推出了四个高质量的中文预训练数据集：Fineweb-edu-chinese、Cosmopedia-chinese、Smoltalk-chinese 和 UltraFeedback Chinese。这四个数据集的发布为中文自然语言处理（NLP）领域注入了新的动力，极大地推动了中文大模型的训练和优化，助力开发者提升中文AI模型的性能，解决了中文AI训练中的数据瓶颈问题。

🎯 OpenCSG助力国产大模型玉兰YuLan-Mini研发 🎯

中国人民大学高岭人工智能学院的团队开发的YuLan-Mini拥有2.4B小参数，在训练过程中使用了超过1万亿的token，其性能匹配甚至超越了需要更多数据的更大模型。此次直播中，我们邀请到了YuLan的嘉宾，分享YuLan-Mini-2.4B基座模型的精彩内容。值得一提的是，YuLan中文预训练数据主要使用了OpenCSG开源的Fineweb-edu-chinese数据集，专注于教育领域，帮助模型在该领域表现更为出色。

✨ 直播亮点抢先看 ✨

数据荒终结者： 还在苦苦搜寻高质量中文预训练数据？OpenCSG 帮你一键解决！

高质量数据炼成记： 详解 Fineweb-edu-chinese 教育领域数据集的筛选和打分机制，让你了解高质量数据是如何炼成的。

LLM 合成数据新范式： 探索 Cosmopedia-chinese 如何利用 LLM 合成高质量教科书级别数据，带你掌握数据生成新技能。

多样化对话数据： 详解 Smoltalk-chinese 多轮对话数据集的生成方法，让你的模型轻松应对复杂对话场景。

实验数据大公开： 全面展示使用这些数据集进行预训练/微调的实验结果，让你直观感受数据集的强大威力。

OpenCSG助力YuLan-Mini：YuLan-Mini告诉你如何用Fineweb-edu-chinese高质量数据训练，小模型也有大能力。

社区力量：OpenCSG 社区将持续开源高质量数据，助力中文 NLP 发展！

不要错过这场中文 NLP 的数据盛宴！立即报名，与 OpenCSG 一起探索 AI 的无限可能！

📡直播平台：微信视频号📱和B站📺同步直播

立即预约📅，期待您的参与！

LLM数据新范式：深度揭秘OpenCSG高质量开源中文数据集
‍‍

2025年1月22日19:00-20:30

分享嘉宾

俞同学

清华大学硕士

具有丰富的模型训练经验，深耕于LLM、Long-Context LLM等前沿领域，取得了多项突破性成果，研究成果多次发表于该领域的国际顶级会议和期刊。

与联通等全球知名企业和顶尖研究机构建立了深入合作，推动了产学研结合的创新发展。

胡同学

中国人民大学高瓴人工智能学院

师从导师赵鑫教授，研究方向为大语言模型与高效预训练等。主导人大全自研开源小模型 YuLan-Mini-2.4B 从头预训练工作，共同主导研发 LLMBox（大语言模型工具包）。

报名方式

扫描上方海报中的二维码即可报名。

欢迎加入OpenCSG社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https:// github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加小助手

OpenCSG社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

CodeSouler v1.13.0 版本更新

回首2024 | OpenCSG社区年度报告请查收

全新推理模型 DeepSeek-R1 问世，全面对标 OpenAI o1

直播预告｜OpenCSG&人大YuLan｜LLM数据新范式：深度揭秘高质量开源中文数据集

MiniMax-01重磅发布：突破Transformer架构，4M超长上下文

书生·浦语大模型升级，突破思维密度，4T数据训出高性能模型

CSGHub开源版本v1.3.0更新

直播预告｜LLM数据新范式：深度揭秘OpenCSG高质量开源中文数据集

开年巨献｜OpenCSG携UltraFeedback中文数据集强势来袭

Phi-4: 微软开源的14亿参数模型，重定义AI性能新标准

NVIDIA Cosmos平台：开启物理AI时代的技术革命

OpenCSG助力国产大模型｜YuLan-Mini：数据高效的AI模型突破

直播预告｜OpenCSG AutoHub智能探索：一键开启 AI 浏览器之旅

ModernBERT：下一代 Encoder-Only 模型的全面进化

OpenCSG月度更新2024.12

年终巨献 | OpenCSG开源SmolTalk Chinese数据集

从30年前的一根网线说起中国这张网改变了什么？

开源用户故事｜CSGHub助力国产AI基础设施建设

视频创作迎来“智变”时刻，图森未来发布“Ruyi”大模型！

论文中心｜第34期人工智能领域论文推荐

OpenCSG 2.0：让我们全面拥抱Agentic架构

C4AI Command R7B：多语言高性能AI模型，为复杂任务而生

安装指南｜OpenCSG Starship上架GitHub Marketplace

CSGHub开源版本v1.2.0更新

DeepSeek V2.5正式发布：支持联网搜索，表现全面提升

论文中心｜第33期人工智能领域论文推荐

Meetup回顾 | AI赋能下的开发流程蜕变

Qwen2-VL-72B重磅开源：跨越视觉与语言的新时代 AI 里程碑

Meta重磅开源Llama 3.3-70B：性能大幅提升，成本大幅降低

倒计时2天！ OpenCSG&JetBrains 上海站 Meetup：AI赋能下的开发流程蜕变圆桌议题公布

Hunyuan-Video：腾讯开源高质量中文通用视频生成模型

论文中心｜第32期人工智能领域论文推荐

OpenCSG&JetBrains 上海站 Meetup | AI赋能下的开发流程蜕变

OpenCSG月度更新2024.11

Qwen开源QwQ-32B-Preview：从自省到突破，解锁AI推理的无限可能

阿里国际AI团队最新开源！探索面向开放性问题的推理模型 Marco-o1

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

最快的视频生成模型来了！LTX-Video 重磅发布，开源+RTX 4090 即可跑

Meetup回顾 | 大模型全生命周期管理与AI应用的全栈可观测性

司南 OpenCompass 11月大语言模型评测即将启动，欢迎新合作厂商申请评测！

论文中心｜第31期人工智能领域论文推荐

超越GPT-4o的开源巅峰！Pixtral Large多模态模型重磅登场

RMBG 2.0 ：让图片抠图更简单，史上最强开源背景移除模型

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉