OpenCSG开源数据集再次登顶HF数据榜

2024-09-29 17:57 上海

在大模型主宰的时代，中文数据集的研究迎来高光时刻！本月继Chinese Fineweb Edu数据登顶HF数据趋势榜后，OpenCSG又一开源Chinese Cosmopedia 数据集最近在 Hugging Face 爆火。

OpenCSG目前是国内最积极最火的开源公益机构之一，正在不断开源高质量数据。OpenCSG是HF数据趋势榜唯一中国机构，Chinese Cosmopedia是 HF数据趋势榜上唯一的中文数据集，也是 OpenCSG 在开源领域的一次重要实践，展现了OpenCSG通过开源数据赋能大模型的长期愿景。

OpenCSG 的开源理念是通过开放的形式，让大模型技术能够赋能每一个人，让技术触达更多行业和开发者。这种开源共建的精神不仅推动了技术进步，也为整个社区创造了更多可能性。

下载地址：

huggingface社区：https://huggingface.co/datasets/opencsg/chinese-cosmopedia

魔搭社区：https://www.modelscope.cn/datasets/opencsg/chinese-cosmopedia

为什么要推出 Chinese Cosmopedia？

大模型训练通常依赖于大量数据，尤其是在生成式模型崛起的当下，数据的质量和多样性变得至关重要。然而，中文数据资源相对匮乏，阻碍了中文大模型的进一步发展。OpenCSG 作为国内最活跃的开源机构之一，瞄准了这一空白，致力于打造一个涵盖广泛领域的中文合成数据集，以应对中文生成式模型的训练需求。

Chinese Cosmopedia 的推出标志着一个新的里程碑，专注于提升中文语言模型的生成能力。该项目不仅包括中文维基百科、百度百科等知识性内容，还涵盖学术教科书、技术教程、故事等多样化文本，通过多样的prompt设计保证数据集的高质量与实用性。

Chinese Cosmopedia 的数据形式与风格

Chinese Cosmopedia数据集特别注重生成内容的风格与形式，涵盖了从学术到日常应用的多种文本类型，主要包括以下几类：

大学教科书：内容结构严谨，深入探讨各类大学学科的核心概念。
中学教科书：适合中学生的教学内容，简洁易懂，注重基本知识的传达。
幼儿故事：面向5岁儿童，语言简洁易懂，帮助幼儿理解世界和人际关系。
普通故事：通过引人入胜的情节和人物对话，展开对某一概念的生动描述。
WikiHow风格教程：详细的步骤指导，帮助用户完成特定任务。

每种文体都根据不同的应用场景和目标读者群体，进行了精细化的风格调整。通过这种设计，Cosmopedia不仅适用于学术研究，还能广泛应用于教育、娱乐、技术等领域。

OpenCSG开源中文版fineweb edu数据集

Chinese Fineweb Edu 数据集是一个精心构建的高质量中文预训练语料数据集，专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程，利用少量数据训练打分模型进行评估，从海量的原始数据中提取出高价值的教育相关内容，确保数据的质量和多样性。最终，数据集包含约90M条高质量的中文文本数据，总大小约为300GB。

chinese-fineweb-edu在hf数据趋势榜排名全球Top3‍‍‍‍

点击图片即可跳转~

在数据筛选过程中，Chinese Fineweb Edu 数据集采用了与 Fineweb-Edu 类似的筛选策略，重点关注数据的教育价值和内容质量。具体筛选步骤如下：

教育价值评估：首先使用csg-wukong-enterprise打分模型对样本的教育价值进行评估，模型会根据样本内容的相关性和质量给出0-5的评分。在初步筛选阶段，我们选取了约100k条评分较高的数据。
打分模型训练：利用这100k条样本数据训练了一个BERT模型，用于对更大规模的预训练数据集进行文本打分。这一步确保了模型能够有效地识别出具有高教育价值的内容。
数据筛选：接下来，使用训练好的BERT模型对原始数据进行全面打分，仅保留得分大于4的数据。这一筛选过程极大地提高了数据集的质量和相关性，确保了其在教育领域的应用价值。
MinHash去重：为避免重复内容对模型训练的负面影响，数据集采用MinHash算法对所有数据进行了去重处理。这种方法确保了数据的独特性，同时保留了多样化的教育内容。

下载地址：

OpenCSG社区：https://opencsg.com/datasets/OpenCSG/chinese-fineweb-edu

huggingface社区：https://huggingface.co/datasets/opencsg/chinese-fineweb-edu

魔搭社区：https://www.modelscope.cn/datasets/opencsg/chinese-fineweb-edu

我们诚邀对这一领域感兴趣的开发者和研究者关注和联系社区，共同推动技术的进步。敬请期待更多数据集的开源发布！

欢迎加入传神社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加传神小助手

“ 关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

加入传神社区

http://mp.weixin.qq.com/s?__biz=MzkxNTYxMjU1Mw==&mid=2247486842&idx=1&sn=1f1be47b3044aa74aa51e7bfe88954d4

传神社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

微软OmniParser：一切皆文档，OCR驱动智能操作

从文本到动态视频：Allegro模型让创意更轻松

传神论文中心｜第30期人工智能领域论文推荐

超快速，高性能！Meta发布移动端MobileLLM

DataFlow v202410 版本更新一站式数据处理平台

OpenCSG与传神社区的创新瞬间

OpenCSG传神社区月度功能更新

突破语言壁垒：Cohere 发布多语言大模型 Aya Expanse

Stable Diffusion 3.5震撼发布：三大版本满足多层次AI图像生成需求

OpenCSG携手书生·浦语：InternLM2.5-20B-Chat 正式上线，共建AI未来新生态

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

无需依赖闭源模型！司南CompassJudger为AI评测带来新选择

CSGHub SaaS快速入门指南

Mochi 1视频生成模型亮相：动作流畅，开放源代码

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

传神论文中心｜第29期人工智能领域论文推荐

重磅升级 | OpenCSG开源中文版fineweb edu v2数据集

英伟达推出Nemotron-70B：强大开源语言模型，基准测试中全面领先！

直播预告｜未来视界：多模态AI的创新与挑战

苹果开源Depth Pro：0.3秒实现从2D图像到3D深度图的革命性突破

传神论文中心｜第28期人工智能领域论文推荐

2B参数搞定高质量视频！北大&快手携手打造Pyramid Flow

直播预告｜当A股疯涨挑战经典金额理论，大模型能否作为一个“理性投资人”？

CodeSouler v1.0.8 版本更新

传神论文中心｜第27期人工智能领域论文推荐

OpenCSG传神社区月度功能更新

OpenCSG开源数据集再次登顶HF数据榜

OpenCSG DataFlow：锻造大模型智慧的炼金术，开启数据集Agentic新范式

微软推出GRIN-MoE：开创专家路由新范式

Llama 3.2：轻量级设计与多模态能力

英伟达发布NVLM 1.0：屠榜多模态任务，纯文本性能逆势提升

高效、精准、智能：GOT-OCR2.0引领OCR 2.0时代

传神论文中心｜第26期人工智能领域论文推荐

超越极限！Qwen2.5 助力多领域智能应用

年度巨献 | OpenCSG开源最大中文合成数据集Chinese Cosmopedia

CSGHub开源版本v0.9.0更新

传神论文中心｜第25期人工智能领域论文推荐

Mistral AI再创新高，Pixtral 12B多模态模型强势来袭

CodeSouler v1.0.7 版本更新

重磅发布！DeepSeek-V2.5：融合通用与代码能力的全新开源模型

小而强大！零一万物 Yi-Coder 模型震撼发布！

国产“小钢炮”MiniCPM3-4B：小参数，大能量！

国内独家首发 | OpenCSG开源中文版fineweb edu数据集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉