🌟OpenCSG 开源高质量中文预训练数据集系列——助力中文 AI 发展
最近一年,OpenCSG 推出的四个高质量开源中文预训练数据集:Fineweb-edu-chinese、Cosmopedia-chinese 、 Smoltalk-chinese和UltraFeedback Chinese。这四个数据集的发布,将为中文自然语言处理(NLP)领域带来巨大的推动力,帮助开发者们训练出性能更优异的中文 AI 模型。你是否还在为找不到高质量的中文预训练数据而苦恼?你是否还在为模型效果提升缓慢而焦虑? 还在为中文 AI 数据发愁?OpenCSG 带你破局! 🚀数据荒终结者: 还在苦苦搜寻高质量中文预训练数据?OpenCSG 帮你一键解决!高质量数据炼成记: 详解 Fineweb-edu-chinese 教育领域数据集的筛选和打分机制,让你了解高质量数据是如何炼成的。LLM 合成数据新范式: 探索 Cosmopedia-chinese 如何利用 LLM 合成高质量教科书级别数据,带你掌握数据生成新技能。多样化对话数据: 详解 Smoltalk-chinese 多轮对话数据集的生成方法,让你的模型轻松应对复杂对话场景。实验数据大公开: 全面展示使用这些数据集进行预训练/微调的实验结果,让你直观感受数据集的强大威力。社区力量:OpenCSG 社区将持续开源高质量数据,助力中文 NLP 发展!不要错过这场中文 NLP 的数据盛宴! 立即报名,与 OpenCSG 一起探索 AI 的无限可能!LLM数据新范式:深度揭秘OpenCSG高质量开源中文数据集
俞同学
清华大学硕士
具有丰富的模型训练经验,深耕于LLM、Long-Context LLM等前沿领域,取得了多项突破性成果,研究成果多次发表于该领域的国际顶级会议和期刊。
与联通等全球知名企业和顶尖研究机构建立了深入合作,推动了产学研结合的创新发展。
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https:// github.com/OpenCSGs
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验