重磅升级 | OpenCSG开源中文版fineweb edu v2数据集

2024-10-21 16:41   上海  

01

背景

近年来,人工智能(AI)领域的飞速进步,尤其是自然语言处理(NLP)技术的突破性发展,正逐步改变着各行各业的运作方式。从智能客服到内容生成、从自动翻译到智能搜索,NLP的广泛应用使得语言模型在全球范围内的重要性不断攀升。与此相关的预训练模型(Pre-trained Models),凭借其在海量数据上训练所积累的知识,成为NLP技术发展的核心支柱。而预训练模型的成功很大程度上依赖于其背后数据集的质量。
在此过程中,高质量的中文数据集一直是NLP社区的短板。当前市面上许多高质量的预训练数据集主要集中在英文领域,针对中文的高质量大规模数据集则相对较少,且质量参差不齐。这种不平衡限制了中文NLP技术的快速发展,尤其是在教育、智能搜索等应用场景中,亟需更加丰富和精准的中文数据资源。
为解决这一问题,国内外的AI研究团队近年来加紧了中文预训练数据集的研发。2024年,OpenCSG团队发布了Chinese Fineweb edu数据集,这一数据集迅速成为中文NLP研究的热门选择,并且成功登上了Huggingface的Trending榜单,在全球AI研究社区引起广泛关注。作为一个专注于中文预训练的大规模数据集,Chinese Fineweb为国内外研究人员提供了高质量的资源,推动了中文NLP技术的进步。
时至今日,OpenCSG团队基于用户反馈和实际应用需求,对Chinese Fineweb进行了大幅优化和升级,正式发布了Chinese Fineweb edu v2版本。这一全新版本不仅在规模和质量上有显著提升,还引入了更多的数据来源和优化的打分模型,为NLP模型的训练提供了更强大的支持。


02 

Huggingface Fineweb数据集介绍

Huggingface的FineWeb数据集在2024年5月31日首次发布,是一个面向大型语言模型(LLMs)预训练的大开源数据集,旨在推动自然语言处理领域的研究与应用。该数据集集合了来自CommonCrawl的96个快照数据,总共包含超过15万亿个token,占据44TB的磁盘空间。这些数据涵盖了从2013年至2024年的网页内容,通过精心设计的处理流程,FineWeb提供了丰富且多样的高质量语料资源,为训练更强大、更精确的语言模型提供了高质量数据。

FineWeb数据集的构建不仅依赖于庞大的数据量,更在于其精细的处理过程。首先,在数据提取和清洗环节,Huggingface团队采用了先进的过滤策略来保证数据的质量。例如,他们使用了语言分类、URL过滤等方法去除非英语文本和不合适的内容,并应用了启发式过滤器来删除过度重复的内容或那些未能正确结束的文档。这些措施确保了数据集在保持规模的同时,拥有高质量的内容。
为了进一步提升模型的训练效果,FineWeb在去重处理上采用了MinHash模糊哈希技术。通过这项技术,团队能够高效地移除数据中的重复部分,从而降低了模型对重复内容的记忆,这对于提高模型在多样化文本理解上的表现至关重要。具体而言,FineWeb的数据去重过程包括逐个快照的去重和全局去重,这种多层次的去重策略确保了数据集的独特性和质量。
此外,FineWeb还推出了一个专门针对教育内容的子集——FineWeb-Edu。这个子集通过Llama-3-70B-Instruct模型生成的合成注释进行分类和过滤,最终形成了一个1.3万亿token的教育类数据集,特别适合用于教育领域的基准测试,如MMLU、ARC和OpenBookQA等。


数据集链接:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu



03 

Chinese Fineweb Edu 数据集

数据集简介

Chinese Fineweb Edu 数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程,利用少量数据训练打分模型进行评估,从海量的原始数据中提取出高价值的教育相关内容,确保数据的质量和多样性。最终,数据集包含约90M条高质量的中文文本数据,总大小约为300GB。
下载地址:
OpenCSG社区:https://opencsg.com/datasets/OpenCSG/chinese-fineweb-edu
huggingface社区:https://huggingface.co/datasets/opencsg/chinese-fineweb-edu

筛选方法

在数据筛选过程中,Chinese Fineweb Edu 数据集采用了与 Fineweb-Edu 类似的筛选策略,重点关注数据的教育价值和内容质量。具体筛选步骤如下:
  1. 教育价值评估:首先使用csg-wukong-enterprise打分模型对样本的教育价值进行评估,模型会根据样本内容的相关性和质量给出0-5的评分。在初步筛选阶段,我们选取了约100k条评分较高的数据。
  2. 打分模型训练:利用这100k条样本数据训练了一个BERT模型,用于对更大规模的预训练数据集进行文本打分。这一步确保了模型能够有效地识别出具有高教育价值的内容。
  3. 数据筛选:接下来,使用训练好的BERT模型对原始数据进行全面打分,仅保留得分大于4的数据。这一筛选过程极大地提高了数据集的质量和相关性,确保了其在教育领域的应用价值。
  4. MinHash去重:为避免重复内容对模型训练的负面影响,数据集采用MinHash算法对所有数据进行了去重处理。这种方法确保了数据的独特性,同时保留了多样化的教育内容。

原始数据来源
Chinese Fineweb Edu 数据集的原始数据来源广泛,涵盖了多个国内主流的中文预训练数据集。这些数据集虽然在规模和覆盖领域上各有不同,但通过精细筛选和处理,最终为Chinese Fineweb Edu 数据集提供了坚实的基础。主要数据来源包括:
  • CCI2-Data:经过严格的清洗、去重和质量过滤处理,一个高质量且可靠的中文安全数据集。
  • SkyPile-150B:一个来自中国互联网上的1500亿token大规模数据集,经过复杂的过滤和去重处理
  • IndustryCorpus:一个涵盖多个行业的中文预训练数据集,包含1TB的中文数据,特别适合行业特定的模型训练
  • Tele-AI:一个从电信星辰大模型TeleChat预训练语料中提取出的高质量大规模中文数据集,包含约2.7亿条经过严格过滤和去重处理的纯中文文本。
  • MAP-CC:一个规模庞大的中文预训练语料库,结合了多种来源的高质量数据,特别针对中文语言模型的训练进行了优化

这些多样化的数据来源不仅为Chinese Fineweb Edu 数据集提供了丰富的内容基础,还通过不同领域和来源的数据融合,提升了数据集的广泛适用性和全面性。这种数据整合方式确保了模型在面对多样化的教育场景时,能够保持卓越的表现和高质量的输出。

打分模型

我们使用OpenCSG的csg-wukong-enterprise企业版大模型作为打分模型,通过设计prompt,让其对每一条预训练样本进行打分,分数分为0-5分共6个等级:
0分:如果网页没有提供任何教育价值,完全由无关信息(如广告、宣传材料)组成。
1分:如果网页提供了一些与教育主题相关的基本信息,即使包含一些无关或非学术内容(如广告和宣传材料)。
2分:如果网页涉及某些与教育相关的元素,但与教育标准不太吻合。它可能将教育内容与非教育材料混杂,对潜在有用的主题进行浅显概述,或以不连贯的写作风格呈现信息。
3分:如果网页适合教育使用,并介绍了与学校课程相关的关键概念。内容连贯但可能不全面,或包含一些无关信息。它可能类似于教科书的介绍部分或基础教程,适合学习但有明显局限,如涉及对中学生来说过于复杂的概念。
4分:如果网页对不高于中学水平的教育目的高度相关和有益,表现出清晰一致的写作风格。它可能类似于教科书的一个章节或教程,提供大量教育内容,包括练习和解答,极少包含无关信息,且概念对中学生来说不会过于深奥。内容连贯、重点突出,对结构化学习有价值。
5分:如果摘录在教育价值上表现出色,完全适合小学或中学教学。它遵循详细的推理过程,写作风格易于理解,对主题提供深刻而全面的见解,不包含任何非教育性或复杂内容。
我们记录了100k条数据及其得分,形成fineweb_edu_classifier_chinese_ data。将数据集中的得分作为文本打分的标签,我们训练了一个中文Bert模型 fineweb_edu_classifier_chinese,此模型能够为每条输入文本给出0-5分的得分。我们会进一步优化这个打分模型,未来,OpenCSG算法团队将开源fineweb_edu_classifier_chinese_data数据集以及fineweb_edu_classifier _chinese打分模型,以进一步推动社区的发展和交流。该数据集包含了经过精细标注打分的教育领域文本数据,能够为研究人员和开发者提供高质量的训练数据。

消融实验

经过精心设计的消融实验,我们旨在对比 Chinese-fineweb-edu 数据集与传统中文预训练语料的效果差异。为此,我们从 CCI2-Data、SkyPile-150B、TeleChat-PTD、IndustryCorpus 和 MAP-CC 这五个数据集中,随机抽取了与 Chinese-fineweb-edu 数据比例相同的样本,构建了一个对比数据集chinese-random-select
实验中,我们使用了一个 2.1B 参数规模的模型,预训练了 65k 步。在训练过程中,我们定期保存模型的 checkpoint,并在中文评测基准 CEvalCMMLU 数据集上进行了验证。下图展示了这两个数据集在评测任务中的表现变化趋势。
从结果可以清晰看出,使用 Chinese-fineweb-edu 训练的数据集在两个评测任务中均显著优于 chinese-random-select 数据集,特别是在训练到后期时表现出极大的优势,证明了 Chinese-fineweb-edu 在中文语言任务中的有效性和适配性。这一实验结果也进一步表明,数据集的选择和构建对模型的最终性能有着关键性的影响。

通过实验结果可以发现,在训练的靠后阶段,可能是由于进入了第2个epoch,且学习率进入快速下降阶段,训练的效果开始逐渐涌现,此时,使用chinese-fineweb-edu训练的模型,准确率有了明显的上升,而使用随机抽取的数据训练,则一直处于较低水平。这证明了chinese-fineweb-edu有更高的数据质量,适合作为模型预训练数据,在同样训练时间下,能够更快的提升模型能力。这一结果与英文版的fineweb-edu一致。

消融模型链接
csg-wukong-ablation-chinese-random
OpenCSG:https://opencsg.com/models/OpenCSG/csg-wukong-ablation-chinese-random
Hugging Face:https://huggingface.co/opencsg/csg-wukong-ablation-chinese-random
csg-wukong-ablation-chinese-fineweb-edu:
OpenCSG:https://opencsg.com/models/OpenCSG/csg-wukong-ablation-chinese-fineweb-edu
Hugging Face:https://huggingface.co/opencsg/csg-wukong-ablation-chinese-fineweb-edu



04 

Chinese Fineweb Edu v2数据集

数据集简介

Chinese Fineweb Edu v2Chinese Fineweb Edu的全新升级版,专为教育领域的自然语言处理(NLP)任务设计和优化的高质量中文预训练数据集。该数据集在前一版本的基础上进行了大规模的改进和扩展,致力于为研究人员和开发者提供更加多样化、广泛适用的教育类语料资源。Fineweb Edu v2 不仅数据量达到188M条数据,约420B tokens,还优化了数据的筛选方式和打分模型,以确保其在教育领域的有效性和实用性。

下载地址:
huggingface社区:https://huggingface.co/datasets/opencsg/chinese-fineweb-edu-v2

更强的打分模型

在Chinese Fineweb edu v2版本中,数据筛选的打分模型进行了重大升级,采用了规模更大、性能更强的OpenCSG csg-wukong-enterprise V2模型。该模型的训练数据增加到100万条,涵盖了多种类型的文本,如书籍、新闻、博客,以及25%的英文数据。相比于上一版本的打分模型,csg-wukong-enterprise V2拥有更大的参数量和更深层次的语义理解能力,特别是在中文文本理解和处理方面表现出色。该模型不仅能对文本的结构、内容进行更细致的分析,还能有效捕捉隐藏在语言中的深层次语义和情感信息。
这种提升意味着在数据筛选过程中,模型能够更加精准地评估文本的教育价值、写作质量以及其对实际应用的价值。尤其是在处理教育类、技术类等高要求的文本时,Fineweb2的打分模型确保了筛选结果的高质量和高一致性。这一进步显著提高了数据筛选的可靠性,为后续的模型训练提供了更有力的保障。

Prompt改进

在Fineweb2数据集的构建过程中,数据筛选环节尤为重要。为确保筛选出真正具有教育价值和实用性的文本,我们对数据筛选的Prompt设计进行了细致的优化。新的Prompt能够更加准确地评估网页内容的教育价值、写作水平和实用性,从而使筛选过程更加细化和精确。
新的Prompt不仅明确了对教育内容的评分标准,还对文本的写作风格、连贯性以及主题深度提出了要求。具体评分标准如下:
以下是一段网页内容摘录。请使用以下5分制评分系统来评估该网页的写作水平、教育价值和实用性:0分:如果网页没有提供任何教育价值,完全由无关信息(如广告、宣传材料、少儿不宜内容)组成。1分:如果网页提供了一些可能有教育价值的基本信息,但包含较多的无关或非学术内容(如广告和宣传材料)。2分:如果网页涉及某些与教育相关的元素,但与教育标准不太吻合。它可能将教育内容与非教育材料混杂,对潜在的有用的主题进行浅显概述,或以不连贯的写作风格呈现信息。3分:如果网页适合教育使用,并介绍了与某些学校课程中可能学到的关键概念,或对个人发展有用的实用信息。它的内容连贯但可能不全面,或包含一些无关信息。它可能类似于教科书的一小段节选,可以学习但有明显局限,如涉及过于复杂的概念、过于具体的不重要事件。4分:如果网页与教育高度相关,对个人学习发展有益,表现出清晰一致的写作风格。它可能类似于教科书的一个章节或教程,提供大量教育内容,极少包含无关信息,且概念对学生来说不会过于深奥。内容连贯、重点突出,对结构化学习有价值。5分:如果网页摘录在教育价值上表现极好,完全适合小学、中学或大学教学或专业人士学习。它遵循详细的推理过程,写作风格易于理解,对主题提供深刻而全面的见解,不包含任何非教育性或无实用意义内容。
网页内容摘录:{}
在审查这段网页摘录后:请简要地为您的评分进行合理的解释,最多不超过100字,最后以“教育得分:<分数>”的格式结束。请根据所列出的标准系统地赋予分数。
所有数据集合并后,样本的得分分布如下,通过csg-wukong-enterprise V2模型对这些数据进行评分后,最终选取了3分以上的文本,总计达到188M条数据,约420B tokens。这些数据不仅数量庞大,且经过了严格的筛选和去重处理,确保了数据集的高质量和高独特性。这些经过打分的数据将在Fineweb2的数据集中用于训练大规模语言模型,帮助其在各类任务中实现更高的性能表现。

数据筛选范围扩大

Fineweb2数据集的数据来源进一步扩展。相较于初代Fineweb,Fineweb2引入了来自多个不同领域和来源的海量数据,新增了Industry2、CCI3、michao、wanjuan1.0、wudao和ChineseWebText等高质量数据集。这些数据集覆盖了更广泛的行业和领域,增加了数据集的多样性和广泛适用性。
最终,Fineweb2的数据集不仅在规模上更大,还在数据的质量、内容的多样性、筛选的精确度等方面有了显著提升。这为未来中文NLP应用的进一步发展打下了坚实的基础,同时也为研究人员提供了更加丰富的资源去探索和优化各种模型训练方法。
我们诚邀对这一领域感兴趣的开发者和研究者关注和联系社区,共同推动技术的进步。敬请期待数据集的开源发布!

参考链接

  1. CCI2-DATA: 

    https://huggingface.co/datasets/BAAI/CCI2-Data

  2. IndustryCorpus:

    https://huggingface.co/datasets/BAAI/IndustryCorpus

  3. MAP-CC:https:

    https://huggingface.co/datasets/m-a-p/MAP-CC

  4. SkyPile-150B:

     https://huggingface.co/datasets/Skywork/SkyPile-150B

  5. TeleChat-PTD:

    https://huggingface.co/datasets/Tele-AI/TeleChat-PTD

作者及单位

原文作者:俞一炅、戴紫赟、Tom Pei      

单位:OpenCSG LLM  Research Team    

欢迎加入OpenCSG开源社区

OpenCSG作为一家大模型开源社区,基于线上线下一体的CSGHub平台上开源了丰富的训练数据资产、模型资产可以供广大的爱好者免费获取。其中OpenCSG的 Open是开源开放;C 代表 Converged resources,整合和充分利用的混合异构资源优势,算力降本增效;S 代表 Software Refinement,重新定义软件的交付方式,通过大模型驱动软件开发,人力降本增效;G 代表 Generative LM,大众化、普惠化和民主化的可商用的开源生成式大模型。OpenCSG的愿景是让每个行业、每个公司、每个人都拥有自己的模型。我们坚持开源开放的原则,将OpenCSG的大模型软件栈开源到社区。欢迎使用、反馈和参与共建,欢迎关注和Star⭐️


•贡献代码,与我们一同共建更好的OpenCSG


•Github主页

欢迎🌟:https:// github.com/OpenCSGs


•Huggingface主页

欢迎下载:https://huggingface.co/opencsg


•加入我们的用户交流群,分享经验



扫描上方二维码添加传神小助手






“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。


关注OpenCSG

加入传神社区


传神社区
该账号是开放传神(OpenCSG)分享大模型的技术、见解、传神开放社区等方面的内容!
 最新文章