OpenCSG开源数据集再次登顶HF数据榜

2024-09-29 17:57   上海  
在大模型主宰的时代,中文数据集的研究迎来高光时刻!本月继Chinese Fineweb Edu数据登顶HF数据趋势榜后,OpenCSG又一开Chinese Cosmopedia 数据集最近在 Hugging Face 爆火。
OpenCSG目前是国内最积极最火的开源公益机构之一,正在不断开源高质量数据。OpenCSG是HF数据趋势榜唯一中国机构,Chinese Cosmopedia是 HF数据趋势榜上唯一的中文数据集也是 OpenCSG 在开源领域的一次重要实践,展现了OpenCSG通过开源数据赋能大模型的长期愿景。
OpenCSG 的开源理念是通过开放的形式,让大模型技术能够赋能每一个人,让技术触达更多行业和开发者。这种开源共建的精神不仅推动了技术进步,也为整个社区创造了更多可能性。

下载地址:

huggingface社区:https://huggingface.co/datasets/opencsg/chinese-cosmopedia

魔搭社区:https://www.modelscope.cn/datasets/opencsg/chinese-cosmopedia

为什么要推出 Chinese Cosmopedia?

大模型训练通常依赖于大量数据,尤其是在生成式模型崛起的当下,数据的质量和多样性变得至关重要。然而,中文数据资源相对匮乏,阻碍了中文大模型的进一步发展。OpenCSG 作为国内最活跃的开源机构之一,瞄准了这一空白,致力于打造一个涵盖广泛领域的中文合成数据集,以应对中文生成式模型的训练需求。

Chinese Cosmopedia 的推出标志着一个新的里程碑,专注于提升中文语言模型的生成能力。该项目不仅包括中文维基百科、百度百科等知识性内容,还涵盖学术教科书、技术教程、故事等多样化文本,通过多样的prompt设计保证数据集的高质量与实用性。

Chinese Cosmopedia 的数据形式与风格

Chinese Cosmopedia数据集特别注重生成内容的风格与形式,涵盖了从学术到日常应用的多种文本类型,主要包括以下几类:
  • 大学教科书:内容结构严谨,深入探讨各类大学学科的核心概念。
  • 中学教科书:适合中学生的教学内容,简洁易懂,注重基本知识的传达。
  • 幼儿故事:面向5岁儿童,语言简洁易懂,帮助幼儿理解世界和人际关系。
  • 普通故事:通过引人入胜的情节和人物对话,展开对某一概念的生动描述。
  • WikiHow风格教程:详细的步骤指导,帮助用户完成特定任务。
每种文体都根据不同的应用场景和目标读者群体,进行了精细化的风格调整。通过这种设计,Cosmopedia不仅适用于学术研究,还能广泛应用于教育、娱乐、技术等领域。

OpenCSG开源中文版fineweb edu数据集

Chinese Fineweb Edu 数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程,利用少量数据训练打分模型进行评估,从海量的原始数据中提取出高价值的教育相关内容,确保数据的质量和多样性。最终,数据集包含约90M条高质量的中文文本数据,总大小约为300GB。

chinese-fineweb-edu在hf数据趋势榜排名全球Top3


点击图片即可跳转~

在数据筛选过程中,Chinese Fineweb Edu 数据集采用了与 Fineweb-Edu 类似的筛选策略,重点关注数据的教育价值和内容质量。具体筛选步骤如下:
  1. 教育价值评估:首先使用csg-wukong-enterprise打分模型对样本的教育价值进行评估,模型会根据样本内容的相关性和质量给出0-5的评分。在初步筛选阶段,我们选取了约100k条评分较高的数据。
  2. 打分模型训练:利用这100k条样本数据训练了一个BERT模型,用于对更大规模的预训练数据集进行文本打分。这一步确保了模型能够有效地识别出具有高教育价值的内容。
  3. 数据筛选:接下来,使用训练好的BERT模型对原始数据进行全面打分,仅保留得分大于4的数据。这一筛选过程极大地提高了数据集的质量和相关性,确保了其在教育领域的应用价值。
  4. MinHash去重:为避免重复内容对模型训练的负面影响,数据集采用MinHash算法对所有数据进行了去重处理。这种方法确保了数据的独特性,同时保留了多样化的教育内容。

下载地址:
OpenCSG社区:https://opencsg.com/datasets/OpenCSG/chinese-fineweb-edu
huggingface社区:https://huggingface.co/datasets/opencsg/chinese-fineweb-edu
魔搭社区https://www.modelscope.cn/datasets/opencsg/chinese-fineweb-edu
我们诚邀对这一领域感兴趣的开发者和研究者关注和联系社区,共同推动技术的进步。敬请期待更多数据集的开源发布!






欢迎加入传神社区



•贡献代码,与我们一同共建更好的OpenCSG


•Github主页

欢迎🌟:https://github.com/OpenCSGs


•Huggingface主页

欢迎下载:https://huggingface.co/opencsg


•加入我们的用户交流群,分享经验



扫描上方二维码添加传神小助手






“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。


关注OpenCSG

加入传神社区



传神社区
该账号是开放传神(OpenCSG)分享大模型的技术、见解、传神开放社区等方面的内容!
 最新文章