直播预告|OpenCSG&人大YuLan|LLM数据新范式:深度揭秘高质量开源中文数据集

2025-01-20 15:54   新加坡  

点击蓝字,关注我们

🌟 OpenCSG发布四大中文预训练数据集,助力中文大模型训练 🌟
最近,OpenCSG推出了四个高质量的中文预训练数据集:Fineweb-edu-chineseCosmopedia-chineseSmoltalk-chineseUltraFeedback Chinese。这四个数据集的发布为中文自然语言处理(NLP)领域注入了新的动力,极大地推动了中文大模型的训练和优化,助力开发者提升中文AI模型的性能,解决了中文AI训练中的数据瓶颈问题。
🎯 OpenCSG助力国产大模型玉兰YuLan-Mini研发 🎯
中国人民大学高岭人工智能学院的团队开发的YuLan-Mini拥有2.4B小参数,在训练过程中使用了超过1万亿的token,其性能匹配甚至超越了需要更多数据的更大模型。此次直播中,我们邀请到了YuLan的嘉宾,分享YuLan-Mini-2.4B基座模型的精彩内容。值得一提的是,YuLan中文预训练数据主要使用了OpenCSG开源的Fineweb-edu-chinese数据集,专注于教育领域,帮助模型在该领域表现更为出色。
直播亮点抢先看 ✨
数据荒终结者: 还在苦苦搜寻高质量中文预训练数据?OpenCSG 帮你一键解决!
高质量数据炼成记: 详解 Fineweb-edu-chinese 教育领域数据集的筛选和打分机制,让你了解高质量数据是如何炼成的。
LLM 合成数据新范式: 探索 Cosmopedia-chinese 如何利用 LLM 合成高质量教科书级别数据,带你掌握数据生成新技能。
多样化对话数据: 详解 Smoltalk-chinese 多轮对话数据集的生成方法,让你的模型轻松应对复杂对话场景。
实验数据大公开: 全面展示使用这些数据集进行预训练/微调的实验结果,让你直观感受数据集的强大威力。
OpenCSG助力YuLan-Mini:YuLan-Mini告诉你如何用Fineweb-edu-chinese高质量数据训练,小模型也有大能力。
社区力量:OpenCSG 社区将持续开源高质量数据,助力中文 NLP 发展!
不要错过这场中文 NLP 的数据盛宴! 立即报名,与 OpenCSG 一起探索 AI 的无限可能!
📡直播平台:微信视频号📱和B站📺同步直播 
立即预约📅,期待您的参与!

LLM数据新范式:深度揭秘OpenCSG高质量开源中文数据集
‍‍

 

2025年1月22日19:00-20:30


分享嘉宾

俞同学

清华大学硕士

具有丰富的模型训练经验,深耕于LLM、Long-Context LLM等前沿领域,取得了多项突破性成果,研究成果多次发表于该领域的国际顶级会议和期刊。

与联通等全球知名企业和顶尖研究机构建立了深入合作,推动了产学研结合的创新发展。


胡同学

中国人民大学高瓴人工智能学院

师从导师赵鑫教授,研究方向为大语言模型与高效预训练等。主导人大全自研开源小模型 YuLan-Mini-2.4B 从头预训练工作,共同主导研发 LLMBox(大语言模型工具包)。

报名方式

  • 扫描上方海报中的二维码即可报名。




欢迎加入OpenCSG社区



•贡献代码,与我们一同共建更好的OpenCSG


•Github主页

欢迎🌟:https:// github.com/OpenCSGs


•Huggingface主页

欢迎下载:https://huggingface.co/opencsg


•加入我们的用户交流群,分享经验



扫描上方二维码添加小助手


OpenCSG社区
该账号是开放传神(OpenCSG)分享大模型的技术、见解、传神开放社区等方面的内容!
 最新文章