苹果开源70亿参数语言模型DCLM-7B,数据集与训练框架同步开放!

文摘   2024-07-21 10:37   美国  

TLDR

  • • 苹果开源了一个全新的语言模型训练数据集 DCLM-BASELINE 和训练框架 DCLM,推动高效 LLM 训练!

  • • DCLM-BASELINE 在 MMLU 基准测试中达到了 64% 的准确率,超越了所有开源数据集,甚至接近了闭源模型。

  • • DCLM 框架提供了标准化的语料库 DCLM-Pool、高效的预训练方法以及 53 个下游任务的评估套件,帮助研究者系统化地探索数据 curation 策略。

  • • 研究发现,严格的数据过滤比单纯增加数据量更重要,基于模型的过滤是有效数据 curation 的关键。

  • • DCLM 还揭示了人工质量判断的局限性,表明基于模型的过滤更有效。

引言:数据质量,高效训练的关键

大型语言模型 (LLM) 的训练依赖于海量数据,但数据规模的不断增长也带来了训练成本的飙升。如何用更少的计算资源训练出更高效的 LLM 成为研究者们关注的焦点。近年来,越来越多的研究表明,数据的质量对 LLM 的性能有着至关重要的影响。精心挑选的、高质量的训练数据能够显著提升 LLM 的性能,甚至超越那些使用更大、未经过滤数据集训练的模型。

为了推动数据驱动的语言模型研究,苹果发布了一个全新的语言模型训练数据集 DCLM-BASELINE 和训练框架 DCLM,旨在帮助研究者们系统化地探索数据 curation 策略,并最终打造更强大、更高效的 LLM。

DCLM 框架:数据 curation 的测试平台

DCLM (DataComp for Language Models) 是一个用于控制数据集实验的测试平台,目标是改进语言模型。它提供了一个标准化的环境,让研究人员可以专注于数据本身的影响,而不受模型架构、训练方法等因素的干扰。

DCLM-Pool:240 万亿 token,探索无限可能

DCLM 的核心是一个名为 DCLM-Pool 的庞大语料库,它包含从 Common Crawl 中提取的 240 万亿个 token,是目前最大的公共语言模型训练语料库。DCLM-Pool 为研究者们提供了一个广阔的数据空间,让他们可以自由地尝试不同的数据过滤、混合等 curation 策略。

DCLM 工作流程:科学严谨,步步为营

DCLM 框架将数据 curation 的过程分解为四个步骤,并提供了一套标准化的工具和评估指标,确保实验结果的可比性和可重复性:

  1. 1. 选择规模: 参与者首先选择一个模型规模和对应的训练 token 数量,DCLM 提供了 5 种不同的规模,涵盖了从 412M 到 7B 参数的模型,以及相应的训练 token 数量。

    ScaleModel parametersTrain tokensTrain FLOPsTrain H100 hoursPool size
    400M-1x412M8.2B2.0e1926469B
    1B-1x1.4B28B2.4e202401.64T
    1B-5x1.4B138B1.2e2112008.20T
    7B-1x6.9B138B5.7e2137007.85T
    7B-2x6.9B276B1.1e22730015.7T
  2. 2. 构建数据集: 参与者可以选择两种赛道:

  • • 过滤赛道: 从 DCLM-Pool 中选择数据,并通过各种方法进行过滤,例如去重、基于规则的过滤、基于模型的过滤等。

  • • 混合赛道: 将 DCLM-Pool 与其他数据源混合,例如维基百科、书籍、代码等,并探索最佳的混合比例。

  • 3. 训练模型: 使用构建好的数据集,参与者可以使用 DCLM 提供的标准化训练代码和特定于规模的超参数,对模型进行训练。

  • 4. 评估: DCLM 提供了一个包含 53 个下游任务的评估套件,用于评估模型的性能。这些任务涵盖了各种自然语言理解能力,包括问答、推理、代码生成等。DCLM 提供了三种主要的评估指标:

    • • MMLU 5-shot 准确率

    • • CORE 集中准确率 (基于 22 个任务)

    • • EXTENDED 集中准确率 (基于所有 53 个任务)

    DCLM-BASELINE:高质量数据集,性能突破

    超越开源,比肩闭源

    DCLM-BASELINE 是苹果基于 DCLM 框架构建的全新语言模型训练数据集。通过一系列精心设计的实验,DCLM-BASELINE 在各种规模上都取得了优异的性能,超越了所有开源数据集,甚至接近了那些使用私有数据集训练的闭源模型。

    以下图表展示了 DCLM-BASELINE 与其他 7B 参数规模模型的性能对比:

    模型参数量Token 数量开源数据集?COREMMLUEXTENDED
    闭源模型,闭源数据集





    Llama27B2T49.245.834.1
    DeepSeek7B2T50.748.535.3
    Mistral-0.37B?57.062.745.1
    QWEN-27B?57.571.950.5
    Llama38B15T57.666.246.3
    Gemma8B6T57.864.344.6
    Phi-37B?61.069.957.9
    开源模型,开源数据集





    Falcon7B1T44.127.425.1
    OLMo-1.77B2.1T47.054.034.2
    MAP-Neo7B4.5T50.257.140.4
    DCLM 训练的模型





    FineWeb edu7B0.14T38.726.322.1
    FineWeb edu7B0.28T41.937.324.5
    DCLM-BASELINE7B0.14T44.138.325.0
    DCLM-BASELINE7B0.28T48.950.831.8
    DCLM-BASELINE7B2.6T57.163.745.4

    例如,在 7B 参数规模上,使用 2.6 万亿 token 训练的 DCLM-BASELINE 模型在 MMLU 基准测试中达到了 64% 的准确率,超越了 MAP-Neo 等其他开源数据集,甚至接近了 Mistral-7B-v0.3 (63%) 和 Llama 3 8B (66%) 等闭源模型,而后者使用了高达 6.6 倍的计算量。

    图1:构建更高效训练模型的数据集。 使用 DCLM,我们开发了一个高质量的数据集 DCLM-BASELINE,用于训练具有强大计算性能权衡的模型。我们在核心任务集(左)和 MMLU 5-shot(右)上进行比较。DCLM-BASELINE(橙色)相对于闭源模型(十字)和其他开源数据集和模型(圆圈)显示出良好的性能。

    基于模型的过滤:精益求精,化腐朽为神奇

    DCLM-BASELINE 的成功离不开基于模型的过滤技术。研究者们训练了一个简单的二元语法分类器,用于区分高质量和低质量的文本数据。通过使用这个分类器对 DCLM-Pool 进行过滤,研究者们成功地创建了一个高质量的训练数据集。研究发现,fastText 分类器在过滤任务中表现最佳,特别是使用 OpenHermes 2.5 和 ELI5 数据集训练的 fastText 分类器,在 CORE 指标上提升了 3.5 个百分点。

    颠覆认知:严格过滤胜过海量数据

    DCLM-BASELINE 的成功还颠覆了人们以往的认知:严格的数据过滤比单纯增加数据量更重要。通过使用基于模型的过滤来选择高质量的训练数据,DCLM-BASELINE 在各种规模上都取得了优异的性能。这意味着,专注于数据的质量比仅仅增加数据的数量更重要。

    下图展示了 DCLM-BASELINE 的构建流程:

    图4:从 DCLM-Pool 构建 DCLM-BASELINE。 在此流程之前,我们使用 resiliparse 从 Common Crawl 中提取了 DCLM-Pool。百分比基于原始文档总数。

    万亿 token 规模:DCLM-BASELINE 持续领先

    为了进一步验证 DCLM-BASELINE 的有效性,研究人员将其扩展到万亿 token 规模,并与 StarCoder 和 ProofPile2 数据集混合,用于训练 7B 参数的语言模型。结果表明,DCLM-BASELINE 依然表现出色,超越了所有使用公开数据集训练的 7B 模型,并接近了闭源模型的性能,例如 Llama-8B、Mistral-7B 和 Gemma-7B。

    下图展示了不同规模下,数据集对模型性能的影响:

    图3:DCLM 中的数据集在不同竞争规模中排名一致。 这使得在小规模上迭代数据 curation 成为可能。

    DCLM 的启示:数据质量的新标准

    人工判断 vs. 模型过滤:效率与可扩展性的胜利

    DCLM 的实验揭示了人工质量判断的局限性。尽管人工 curation 依然被视为数据集构建的“黄金标准”,但 DCLM 的结果表明,人工质量判断在识别高质量训练数据方面价值有限,并且成本高昂,难以扩展到大型数据集。相比之下,基于模型的过滤更加高效,更容易扩展,并且在 DCLM 的实验中取得了更好的效果。

    下图展示了不同质量过滤方法的性能对比:

    图8:在人类注释样本子集上,不同质量过滤器的 ROC-AUC 与准确度测量值之间的比较。 上图:MAJORITY,下图:AGREEMENT。左图:CORE 分数,中图:StrategyQA,右图:SQuAD。所有模型共享相同的规模 (1B-1x) 和训练超参数,并基于相同的预过滤池,使用类似的过滤率 (保留池中约 15% 的数据)。水平线标记了在未过滤池的随机子集上训练的模型的基线分数。虽然 StrategyQA 可能存在一些正相关性,但 SQuAD 则相反,并且在两种情况下 R2 < 0.3。与 CORE 分数中看到的情况类似,对于几乎所有其他任务,都没有明显的关联性。

    未来展望:数据驱动,迈向更高效的 LLM 时代

    DCLM 框架和 DCLM-BASELINE 数据集的发布,为语言模型训练数据集的研究开辟了新的方向。未来,研究者们可以利用 DCLM 框架,进一步探索数据 curation 策略,开发更加强大、更高效的语言模型,并将其应用于更广泛的领域。

    相关链接

    • • DCLM 官网: https://datacomp.ai/dclm/

    • • DCLM-Baseline-7B HuggingFace 页面: https://huggingface.co/apple/DCLM-7B

    • • DCLM 论文: https://arxiv.org/abs/2406.11794


    子非AI
    子非AI,焉知AI之乐:分享AI的有趣应用和创新案例,让你了解AI的乐趣。
     最新文章