苹果开源70亿参数语言模型DCLM-7B，数据集与训练框架同步开放！

文摘 2024-07-21 10:37 美国

TLDR

• 苹果开源了一个全新的语言模型训练数据集 DCLM-BASELINE 和训练框架 DCLM，推动高效 LLM 训练！
• DCLM-BASELINE 在 MMLU 基准测试中达到了 64% 的准确率，超越了所有开源数据集，甚至接近了闭源模型。
• DCLM 框架提供了标准化的语料库 DCLM-Pool、高效的预训练方法以及 53 个下游任务的评估套件，帮助研究者系统化地探索数据 curation 策略。
• 研究发现，严格的数据过滤比单纯增加数据量更重要，基于模型的过滤是有效数据 curation 的关键。
• DCLM 还揭示了人工质量判断的局限性，表明基于模型的过滤更有效。

引言：数据质量，高效训练的关键

大型语言模型 (LLM) 的训练依赖于海量数据，但数据规模的不断增长也带来了训练成本的飙升。如何用更少的计算资源训练出更高效的 LLM 成为研究者们关注的焦点。近年来，越来越多的研究表明，数据的质量对 LLM 的性能有着至关重要的影响。精心挑选的、高质量的训练数据能够显著提升 LLM 的性能，甚至超越那些使用更大、未经过滤数据集训练的模型。

为了推动数据驱动的语言模型研究，苹果发布了一个全新的语言模型训练数据集 DCLM-BASELINE 和训练框架 DCLM，旨在帮助研究者们系统化地探索数据 curation 策略，并最终打造更强大、更高效的 LLM。

DCLM 框架：数据 curation 的测试平台

DCLM (DataComp for Language Models) 是一个用于控制数据集实验的测试平台，目标是改进语言模型。它提供了一个标准化的环境，让研究人员可以专注于数据本身的影响，而不受模型架构、训练方法等因素的干扰。

DCLM-Pool：240 万亿 token，探索无限可能

DCLM 的核心是一个名为 DCLM-Pool 的庞大语料库，它包含从 Common Crawl 中提取的 240 万亿个 token，是目前最大的公共语言模型训练语料库。DCLM-Pool 为研究者们提供了一个广阔的数据空间，让他们可以自由地尝试不同的数据过滤、混合等 curation 策略。

DCLM 工作流程：科学严谨，步步为营

DCLM 框架将数据 curation 的过程分解为四个步骤，并提供了一套标准化的工具和评估指标，确保实验结果的可比性和可重复性：

1. 选择规模： 参与者首先选择一个模型规模和对应的训练 token 数量，DCLM 提供了 5 种不同的规模，涵盖了从 412M 到 7B 参数的模型，以及相应的训练 token 数量。

Scale	Model parameters	Train tokens	Train FLOPs	Train H100 hours	Pool size
400M-1x	412M	8.2B	2.0e19	26	469B
1B-1x	1.4B	28B	2.4e20	240	1.64T
1B-5x	1.4B	138B	1.2e21	1200	8.20T
7B-1x	6.9B	138B	5.7e21	3700	7.85T
7B-2x	6.9B	276B	1.1e22	7300	15.7T

2. 构建数据集： 参与者可以选择两种赛道：

• 过滤赛道： 从 DCLM-Pool 中选择数据，并通过各种方法进行过滤，例如去重、基于规则的过滤、基于模型的过滤等。
• 混合赛道： 将 DCLM-Pool 与其他数据源混合，例如维基百科、书籍、代码等，并探索最佳的混合比例。

3. 训练模型： 使用构建好的数据集，参与者可以使用 DCLM 提供的标准化训练代码和特定于规模的超参数，对模型进行训练。

4. 评估： DCLM 提供了一个包含 53 个下游任务的评估套件，用于评估模型的性能。这些任务涵盖了各种自然语言理解能力，包括问答、推理、代码生成等。DCLM 提供了三种主要的评估指标：

• MMLU 5-shot 准确率
• CORE 集中准确率 (基于 22 个任务)
• EXTENDED 集中准确率 (基于所有 53 个任务)

DCLM-BASELINE：高质量数据集，性能突破

超越开源，比肩闭源

DCLM-BASELINE 是苹果基于 DCLM 框架构建的全新语言模型训练数据集。通过一系列精心设计的实验，DCLM-BASELINE 在各种规模上都取得了优异的性能，超越了所有开源数据集，甚至接近了那些使用私有数据集训练的闭源模型。

以下图表展示了 DCLM-BASELINE 与其他 7B 参数规模模型的性能对比：

模型	参数量	Token 数量	开源数据集?	CORE	MMLU	EXTENDED
闭源模型，闭源数据集
Llama2	7B	2T	✗	49.2	45.8	34.1
DeepSeek	7B	2T	✗	50.7	48.5	35.3
Mistral-0.3	7B	?	✗	57.0	62.7	45.1
QWEN-2	7B	?	✗	57.5	71.9	50.5
Llama3	8B	15T	✗	57.6	66.2	46.3
Gemma	8B	6T	✗	57.8	64.3	44.6
Phi-3	7B	?	✗	61.0	69.9	57.9
开源模型，开源数据集
Falcon	7B	1T	✓	44.1	27.4	25.1
OLMo-1.7	7B	2.1T	✓	47.0	54.0	34.2
MAP-Neo	7B	4.5T	✓	50.2	57.1	40.4
DCLM 训练的模型
FineWeb edu	7B	0.14T	✓	38.7	26.3	22.1
FineWeb edu	7B	0.28T	✓	41.9	37.3	24.5
DCLM-BASELINE	7B	0.14T	✓	44.1	38.3	25.0
DCLM-BASELINE	7B	0.28T	✓	48.9	50.8	31.8
DCLM-BASELINE	7B	2.6T	✓	57.1	63.7	45.4

例如，在 7B 参数规模上，使用 2.6 万亿 token 训练的 DCLM-BASELINE 模型在 MMLU 基准测试中达到了 64% 的准确率，超越了 MAP-Neo 等其他开源数据集，甚至接近了 Mistral-7B-v0.3 (63%) 和 Llama 3 8B (66%) 等闭源模型，而后者使用了高达 6.6 倍的计算量。

图1：构建更高效训练模型的数据集。 使用 DCLM，我们开发了一个高质量的数据集 DCLM-BASELINE，用于训练具有强大计算性能权衡的模型。我们在核心任务集（左）和 MMLU 5-shot（右）上进行比较。DCLM-BASELINE（橙色）相对于闭源模型（十字）和其他开源数据集和模型（圆圈）显示出良好的性能。

基于模型的过滤：精益求精，化腐朽为神奇

DCLM-BASELINE 的成功离不开基于模型的过滤技术。研究者们训练了一个简单的二元语法分类器，用于区分高质量和低质量的文本数据。通过使用这个分类器对 DCLM-Pool 进行过滤，研究者们成功地创建了一个高质量的训练数据集。研究发现，fastText 分类器在过滤任务中表现最佳，特别是使用 OpenHermes 2.5 和 ELI5 数据集训练的 fastText 分类器，在 CORE 指标上提升了 3.5 个百分点。

颠覆认知：严格过滤胜过海量数据

DCLM-BASELINE 的成功还颠覆了人们以往的认知：严格的数据过滤比单纯增加数据量更重要。通过使用基于模型的过滤来选择高质量的训练数据，DCLM-BASELINE 在各种规模上都取得了优异的性能。这意味着，专注于数据的质量比仅仅增加数据的数量更重要。

下图展示了 DCLM-BASELINE 的构建流程：

图4：从 DCLM-Pool 构建 DCLM-BASELINE。 在此流程之前，我们使用 resiliparse 从 Common Crawl 中提取了 DCLM-Pool。百分比基于原始文档总数。

万亿 token 规模：DCLM-BASELINE 持续领先

为了进一步验证 DCLM-BASELINE 的有效性，研究人员将其扩展到万亿 token 规模，并与 StarCoder 和 ProofPile2 数据集混合，用于训练 7B 参数的语言模型。结果表明，DCLM-BASELINE 依然表现出色，超越了所有使用公开数据集训练的 7B 模型，并接近了闭源模型的性能，例如 Llama-8B、Mistral-7B 和 Gemma-7B。

下图展示了不同规模下，数据集对模型性能的影响：

图3：DCLM 中的数据集在不同竞争规模中排名一致。 这使得在小规模上迭代数据 curation 成为可能。

DCLM 的启示：数据质量的新标准

人工判断 vs. 模型过滤：效率与可扩展性的胜利

DCLM 的实验揭示了人工质量判断的局限性。尽管人工 curation 依然被视为数据集构建的“黄金标准”，但 DCLM 的结果表明，人工质量判断在识别高质量训练数据方面价值有限，并且成本高昂，难以扩展到大型数据集。相比之下，基于模型的过滤更加高效，更容易扩展，并且在 DCLM 的实验中取得了更好的效果。

下图展示了不同质量过滤方法的性能对比：

图8：在人类注释样本子集上，不同质量过滤器的 ROC-AUC 与准确度测量值之间的比较。 上图：MAJORITY，下图：AGREEMENT。左图：CORE 分数，中图：StrategyQA，右图：SQuAD。所有模型共享相同的规模 (1B-1x) 和训练超参数，并基于相同的预过滤池，使用类似的过滤率 (保留池中约 15% 的数据)。水平线标记了在未过滤池的随机子集上训练的模型的基线分数。虽然 StrategyQA 可能存在一些正相关性，但 SQuAD 则相反，并且在两种情况下 R2 < 0.3。与 CORE 分数中看到的情况类似，对于几乎所有其他任务，都没有明显的关联性。

未来展望：数据驱动，迈向更高效的 LLM 时代

DCLM 框架和 DCLM-BASELINE 数据集的发布，为语言模型训练数据集的研究开辟了新的方向。未来，研究者们可以利用 DCLM 框架，进一步探索数据 curation 策略，开发更加强大、更高效的语言模型，并将其应用于更广泛的领域。