TLDR
• 苹果开源了一个全新的语言模型训练数据集 DCLM-BASELINE 和训练框架 DCLM,推动高效 LLM 训练!
• DCLM-BASELINE 在 MMLU 基准测试中达到了 64% 的准确率,超越了所有开源数据集,甚至接近了闭源模型。
• DCLM 框架提供了标准化的语料库 DCLM-Pool、高效的预训练方法以及 53 个下游任务的评估套件,帮助研究者系统化地探索数据 curation 策略。
• 研究发现,严格的数据过滤比单纯增加数据量更重要,基于模型的过滤是有效数据 curation 的关键。
• DCLM 还揭示了人工质量判断的局限性,表明基于模型的过滤更有效。
引言:数据质量,高效训练的关键
大型语言模型 (LLM) 的训练依赖于海量数据,但数据规模的不断增长也带来了训练成本的飙升。如何用更少的计算资源训练出更高效的 LLM 成为研究者们关注的焦点。近年来,越来越多的研究表明,数据的质量对 LLM 的性能有着至关重要的影响。精心挑选的、高质量的训练数据能够显著提升 LLM 的性能,甚至超越那些使用更大、未经过滤数据集训练的模型。
为了推动数据驱动的语言模型研究,苹果发布了一个全新的语言模型训练数据集 DCLM-BASELINE 和训练框架 DCLM,旨在帮助研究者们系统化地探索数据 curation 策略,并最终打造更强大、更高效的 LLM。
DCLM 框架:数据 curation 的测试平台
DCLM (DataComp for Language Models) 是一个用于控制数据集实验的测试平台,目标是改进语言模型。它提供了一个标准化的环境,让研究人员可以专注于数据本身的影响,而不受模型架构、训练方法等因素的干扰。
DCLM-Pool:240 万亿 token,探索无限可能
DCLM 的核心是一个名为 DCLM-Pool 的庞大语料库,它包含从 Common Crawl 中提取的 240 万亿个 token,是目前最大的公共语言模型训练语料库。DCLM-Pool 为研究者们提供了一个广阔的数据空间,让他们可以自由地尝试不同的数据过滤、混合等 curation 策略。
DCLM 工作流程:科学严谨,步步为营
DCLM 框架将数据 curation 的过程分解为四个步骤,并提供了一套标准化的工具和评估指标,确保实验结果的可比性和可重复性:
1. 选择规模: 参与者首先选择一个模型规模和对应的训练 token 数量,DCLM 提供了 5 种不同的规模,涵盖了从 412M 到 7B 参数的模型,以及相应的训练 token 数量。
Scale Model parameters Train tokens Train FLOPs Train H100 hours Pool size 400M-1x 412M 8.2B 2.0e19 26 469B 1B-1x 1.4B 28B 2.4e20 240 1.64T 1B-5x 1.4B 138B 1.2e21 1200 8.20T 7B-1x 6.9B 138B 5.7e21 3700 7.85T 7B-2x 6.9B 276B 1.1e22 7300 15.7T 2. 构建数据集: 参与者可以选择两种赛道:
• 过滤赛道: 从 DCLM-Pool 中选择数据,并通过各种方法进行过滤,例如去重、基于规则的过滤、基于模型的过滤等。
• 混合赛道: 将 DCLM-Pool 与其他数据源混合,例如维基百科、书籍、代码等,并探索最佳的混合比例。
3. 训练模型: 使用构建好的数据集,参与者可以使用 DCLM 提供的标准化训练代码和特定于规模的超参数,对模型进行训练。
4. 评估: DCLM 提供了一个包含 53 个下游任务的评估套件,用于评估模型的性能。这些任务涵盖了各种自然语言理解能力,包括问答、推理、代码生成等。DCLM 提供了三种主要的评估指标:
• MMLU 5-shot 准确率
• CORE 集中准确率 (基于 22 个任务)
• EXTENDED 集中准确率 (基于所有 53 个任务)
DCLM-BASELINE:高质量数据集,性能突破
超越开源,比肩闭源
DCLM-BASELINE 是苹果基于 DCLM 框架构建的全新语言模型训练数据集。通过一系列精心设计的实验,DCLM-BASELINE 在各种规模上都取得了优异的性能,超越了所有开源数据集,甚至接近了那些使用私有数据集训练的闭源模型。
以下图表展示了 DCLM-BASELINE 与其他 7B 参数规模模型的性能对比:
模型 | 参数量 | Token 数量 | 开源数据集? | CORE | MMLU | EXTENDED |
闭源模型,闭源数据集 | ||||||
Llama2 | 7B | 2T | ✗ | 49.2 | 45.8 | 34.1 |
DeepSeek | 7B | 2T | ✗ | 50.7 | 48.5 | 35.3 |
Mistral-0.3 | 7B | ? | ✗ | 57.0 | 62.7 | 45.1 |
QWEN-2 | 7B | ? | ✗ | 57.5 | 71.9 | 50.5 |
Llama3 | 8B | 15T | ✗ | 57.6 | 66.2 | 46.3 |
Gemma | 8B | 6T | ✗ | 57.8 | 64.3 | 44.6 |
Phi-3 | 7B | ? | ✗ | 61.0 | 69.9 | 57.9 |
开源模型,开源数据集 | ||||||
Falcon | 7B | 1T | ✓ | 44.1 | 27.4 | 25.1 |
OLMo-1.7 | 7B | 2.1T | ✓ | 47.0 | 54.0 | 34.2 |
MAP-Neo | 7B | 4.5T | ✓ | 50.2 | 57.1 | 40.4 |
DCLM 训练的模型 | ||||||
FineWeb edu | 7B | 0.14T | ✓ | 38.7 | 26.3 | 22.1 |
FineWeb edu | 7B | 0.28T | ✓ | 41.9 | 37.3 | 24.5 |
DCLM-BASELINE | 7B | 0.14T | ✓ | 44.1 | 38.3 | 25.0 |
DCLM-BASELINE | 7B | 0.28T | ✓ | 48.9 | 50.8 | 31.8 |
DCLM-BASELINE | 7B | 2.6T | ✓ | 57.1 | 63.7 | 45.4 |
例如,在 7B 参数规模上,使用 2.6 万亿 token 训练的 DCLM-BASELINE 模型在 MMLU 基准测试中达到了 64% 的准确率,超越了 MAP-Neo 等其他开源数据集,甚至接近了 Mistral-7B-v0.3 (63%) 和 Llama 3 8B (66%) 等闭源模型,而后者使用了高达 6.6 倍的计算量。
图1:构建更高效训练模型的数据集。 使用 DCLM,我们开发了一个高质量的数据集 DCLM-BASELINE,用于训练具有强大计算性能权衡的模型。我们在核心任务集(左)和 MMLU 5-shot(右)上进行比较。DCLM-BASELINE(橙色)相对于闭源模型(十字)和其他开源数据集和模型(圆圈)显示出良好的性能。
基于模型的过滤:精益求精,化腐朽为神奇
DCLM-BASELINE 的成功离不开基于模型的过滤技术。研究者们训练了一个简单的二元语法分类器,用于区分高质量和低质量的文本数据。通过使用这个分类器对 DCLM-Pool 进行过滤,研究者们成功地创建了一个高质量的训练数据集。研究发现,fastText 分类器在过滤任务中表现最佳,特别是使用 OpenHermes 2.5 和 ELI5 数据集训练的 fastText 分类器,在 CORE 指标上提升了 3.5 个百分点。
颠覆认知:严格过滤胜过海量数据
DCLM-BASELINE 的成功还颠覆了人们以往的认知:严格的数据过滤比单纯增加数据量更重要。通过使用基于模型的过滤来选择高质量的训练数据,DCLM-BASELINE 在各种规模上都取得了优异的性能。这意味着,专注于数据的质量比仅仅增加数据的数量更重要。
下图展示了 DCLM-BASELINE 的构建流程:
图4:从 DCLM-Pool 构建 DCLM-BASELINE。 在此流程之前,我们使用 resiliparse 从 Common Crawl 中提取了 DCLM-Pool。百分比基于原始文档总数。
万亿 token 规模:DCLM-BASELINE 持续领先
为了进一步验证 DCLM-BASELINE 的有效性,研究人员将其扩展到万亿 token 规模,并与 StarCoder 和 ProofPile2 数据集混合,用于训练 7B 参数的语言模型。结果表明,DCLM-BASELINE 依然表现出色,超越了所有使用公开数据集训练的 7B 模型,并接近了闭源模型的性能,例如 Llama-8B、Mistral-7B 和 Gemma-7B。
下图展示了不同规模下,数据集对模型性能的影响:
图3:DCLM 中的数据集在不同竞争规模中排名一致。 这使得在小规模上迭代数据 curation 成为可能。
DCLM 的启示:数据质量的新标准
人工判断 vs. 模型过滤:效率与可扩展性的胜利
DCLM 的实验揭示了人工质量判断的局限性。尽管人工 curation 依然被视为数据集构建的“黄金标准”,但 DCLM 的结果表明,人工质量判断在识别高质量训练数据方面价值有限,并且成本高昂,难以扩展到大型数据集。相比之下,基于模型的过滤更加高效,更容易扩展,并且在 DCLM 的实验中取得了更好的效果。
下图展示了不同质量过滤方法的性能对比:
图8:在人类注释样本子集上,不同质量过滤器的 ROC-AUC 与准确度测量值之间的比较。 上图:MAJORITY,下图:AGREEMENT。左图:CORE 分数,中图:StrategyQA,右图:SQuAD。所有模型共享相同的规模 (1B-1x) 和训练超参数,并基于相同的预过滤池,使用类似的过滤率 (保留池中约 15% 的数据)。水平线标记了在未过滤池的随机子集上训练的模型的基线分数。虽然 StrategyQA 可能存在一些正相关性,但 SQuAD 则相反,并且在两种情况下 R2 < 0.3。与 CORE 分数中看到的情况类似,对于几乎所有其他任务,都没有明显的关联性。
未来展望:数据驱动,迈向更高效的 LLM 时代
DCLM 框架和 DCLM-BASELINE 数据集的发布,为语言模型训练数据集的研究开辟了新的方向。未来,研究者们可以利用 DCLM 框架,进一步探索数据 curation 策略,开发更加强大、更高效的语言模型,并将其应用于更广泛的领域。
相关链接
• DCLM 官网: https://datacomp.ai/dclm/
• DCLM-Baseline-7B HuggingFace 页面: https://huggingface.co/apple/DCLM-7B
• DCLM 论文: https://arxiv.org/abs/2406.11794