代码数据在预训练时要训吗?训多少?退火时要放吗?

文摘   科技   2024-09-01 16:54   英国  

To Code, or Not To Code? Exploring Impact of Code in Pre-training

代码数据在预训练时要训吗?训多少?退火时要放吗?

‍‍‍‍‍





小编一直坚信代码数据与代码任务的重要性,恰好有一篇前些天很火的文章,给出了很多关于这方面的详细结论。首先放一张网友总结的图片如下。

传言代码数据在提高通用LLM表现上有很关键作用,但分析代码在非代码任务上的具体影响的工作很有限。作者在自然语言推理、世界知识类任务、代码任务测试上和以LLM-as-a-judge的胜率比较的方式评估从470M到2.8B规模的模型表现。在各类设置中,作者发现了一致的结果,即代码质量的提升对所有任务都有显著的影响。各项结论如下:

  • 代码为其他非代码任务提供关键提升:与仅限于文本的预训练相比,加入代码可使自然语言推理能力相对提升8.2%,世界知识(world knowledge)相对提升4.2%,生成式的胜率(generative win-rates)提升6.6%,代码性能则提升了12倍。

  • 代码质量和特性很重要:使用标记语言、GitHub提交记录和合成生成的代码等与代码相关的数据集,可以提升预训练的性能。特别是,使用高质量的合成代码数据集进行训练,与基于网络的代码数据(取自The Stack)相比,自然语言推理能力提高了9%,代码性能提高了44%;

  • 代码在冷却(Cooldown)阶段(在训练最后阶段提高高质量数据权重并退火学习率)能进一步提升所有任务的性能:在预训练的冷却阶段包含代码数据,并增加高质量数据集的权重,相较于冷却前的模型,自然语言推理能力提升了3.6%,世界知识提升了10.1%,代码性能提升了20%。


论文的框架见figue1,总结了作者的实验。

首先对实验的数据有个感知:对于纯文本数据来说,取自SlimPajama预训练语料库,滤掉代码及代码相关数据后剩下503B token;对于代码数据,有以下四类:1.基于网络的代码数据:过滤后的The Stack数据集(从Github爬取的有license的数据),按质量与语言过滤后有139B数据,2.Markdown数据:180B的标记语言如Markdown, CSS和HTML等,3.合成代码数据:3.2B的私有的Python编程题数据,均被验证过正确性,作者将这部分看作高质量数据,4.相近代码的数据:包括Github commit,Jupyter notebook,StackExchange threads之类的数据,这部分数据量为21.4B。另外关于预训练冷却数据集,由高质量文本、数学、代码和指令式文本数据集组成。

评估的具体任务和模型细节略过不表,关于训练的数据量可能更重要:作者共预训练了64个模型,在预训练阶段训了200B,在冷却阶段训了40B。

以下分部分讲一下详细的结论,提到的一些模型可见table2,可以看一下有个印象以防看晕:

【用代码模型初始化训练LLM的影响,见figure2】

  • 使用代码预训练模型进行初始化可以提升自然语言任务的表现。基于100%和50%代码模型的持续文本预训练,分别相比于仅使用文本的基线,在推理任务中带来了8.8%和8.2%的相对提升。对于知识任务,尽管使用100%代码进行初始化的表现与仅使用文本的基线相同,但50%代码的模型取得了4.2%的相对提升。
  • 使用100%和50%代码模型进行的持续文本预训练也提高了开放式生成的质量,两者的胜率均达到了53.3%。
  • 完全平衡的预训练(50%代码50%文本一起训400B)在代码生成性能上表现最佳,因为这很大程度上取决于代码数据的比例。然而,仅使用平衡数据的模型在自然语言任务中落后于代码初始化(用代码训200B然后训200B文本)和平衡初始化(用50%代码50%文本初始化然后训200B文本)的文本模型(balanced→text, code→text),可能的结论是如果代码数据量恒定,为了加强自然语言任务,不如将代码数据往前面放而不是一直混着训


【参数规模的影响,见figure3】

  • 将模型规模从470M扩展到2.8B,在相同的token数量下,模型在自然语言推理和知识任务中的平均结果分别提升了30%、31.7%和33.1%(对于balance, balanced→text和code→text三种模型)。尤其是在世界知识领域,2.8B模型的表现大约是470M模型的三倍。
  • 就使用代码预训练模型进行初始化而言,470M参数规模下观察到的趋势在2.8B模型中同样适用。code→text和balanced→text模型相比于平衡模型分别提升了6.9%和6.1%,但在代码生成性能上显著落后,这表明在更大规模下,自然语言任务和代码生成之间存在更高程度的制衡,说人话就就是对于更大的模型,如果要在后期保持代码能力,代码数据是更加需要继续喂的


【预训练中代码数据比例的影响,见figure4】

  • 为了在世界知识和自然语言推理基准测试中获得最高的平均性能,最优的代码比例为25%。当代码比例达到75%时,平均性能开始下降,特别是在代码比例最高时,世界知识的性能显著下降,降幅高达86.1%。
  • 如果不包括任何代码数据,自然语言推理的性能会受损,相比于使用25%代码进行预训练,性能下降了3.4%。
  • 代码性能基准随着代码数据比例的增加几乎呈线性提升。在预训练中将代码比例从25%增加到100%,代码性能提升了2.6倍。


【代码质量与性质在通用表现上的影响,见figure5】

  • 高质量的合成代码数据,即使比例小,也能有强大的影响。在仅代码预训练中,合成代码数据(code+synth)相对于仅使用Stack数据集中来自网络的代码训练的基线模型,在自然语言推理方面提升了9%的相对性能,在代码基准测试中提升了44.9%。
  • 高质量的合成代码数据带来的改进也可以转移到持续预训练中。使用合成代码数据的最佳变体(balanced+synth→text)相比于不含合成代码数据的相同变体(balanced+synth→text),分别在自然语言推理和代码生成方面实现了2%和35%的相对提升。


【在冷却阶段包含代码的影响,见figure6和7】

  • 在冷却阶段包括代码,并对高质量数据源进行加权处理,相较于没有冷却的模型,在自然语言推理中提升了3.6%、在世界知识中提升了10.1%、在代码性能中提升了20%。然而,如果冷却阶段不包括代码,模型在自然语言推理和代码基准测试中的性能并不会提高,仅在世界知识任务中相较于无冷却状态有3.6%的相对提升。
  • 无论是否包括代码,冷却阶段都显著提升了生成质量(由LLM评判)。然而,在冷却阶段包括代码能够带来最佳的生成质量,相较于没有代码的冷却阶段,对比无冷却阶段,生成胜率额外提高了4.1%。


【比较所有预训练recipes】
  • 总结实验,与仅文本预训练相比,在最佳的变体balanced→text中,加入代码使得自然语言推理提升了8.2%,世界知识提升了4.2%,生成胜率提升了6.6%,代码性能提升了12倍。
  • 进一步在冷却阶段加入代码,与冷却前的模型相比,使balanced→text的结果在自然语言推理、世界知识和代码性能上分别提升了3.6%、10.1%和20%,从而使其在非代码任务上成为总体表现最佳的模型变体。
  • 就代码性能而言,balanced-only取得了最佳结果(为balanced→text结果的1.4倍),然而balanced→text在非代码任务上总体表现比balanced-only模型高出2.5%。
  • 比较成对模型的生成质量,balanced-text在和text-only模型比较时的胜率更高,达到了37.7%对34.7%;而balanced-only模型在对抗text-only模型时落后,胜率为32.7%对35.7%。



撰文:戴剑波;编辑:戴剑波

未经本公众号授权不得转载,欢迎转发。

SparksofAGI
人工智能前沿论文分享(注意!未关注的朋友我是回复不了您的私信的)