LLM洗数据：怎么做Continue Pretrain的数据

文摘 2024-10-25 22:14 美国

原文：https://zhuanlan.zhihu.com/p/721492096

打分清洗的文章难产，写起来没有思路，就换换脑子写写旁门左道，探讨一下common数据质量不理想的情况下，如何做一个还可以的Continue Pretrain。

背景

首先介绍下什么是Continue Pretrain（CP）。CP 和 Pretrain、SFT一样指的是 LLM 训练的一个阶段，在前大模型时代还被称作Post Pretrain。CP 是在Pretrain和SFT之间的训练阶段，目的是为模型注入领域知识，这个领域是泛指的领域，既包含金融、法律、教育这种学科领域，也包含推理、理解、创作这种能力领域。现在很多论文工作都说明了我们的通用基座模型还没有达到各个尺寸模型的上限，也就是我们的模型还能学习更多知识，进行更准确的推理。但是做法却并不容易，简单的next token loss + generate 已经无法满足要求了。但是如果只求提升某一方面的能力，那在某一个领域训练一个领域大模型无疑是更简单有效的方法。根据我的训练经验，做领域相关的通用任务，比如金融领域的文档总结或信息抽取，再比如小说剧本的创作，领域模型通常是好于通用模型的。经常有人问我注入领域知识SFT不行吗，为什么要CP？我的回答是并没有不行，只是看量而已。SFT和Pretrain主要区别就是数据量和多样性，Pretrain的数据量更大，多样性更丰富，和现实世界自然语料的分布更接近，因此不需要case by case的关注数据质量，更多的只要保证数据源的质量和可信度，多样性可以由其他数据源混合来提高。SFT可以认为数据是人类偏好、任务导向的数据，相比于自然世界的语料是有偏的。需要严格确保数据质量和丰富性，防止出现hacking。

灾难性遗忘

灾难性遗忘是指在训练domain数据时，模型向domain数据的分布偏移，导致通用能力大幅减弱。缓解灾难性遗忘除了各种trick，如模型部分训练、加正则、减小学习率、模型融合等，必做的操作是混合common数据。但是这里有一个关键问题，common数据怎么混？我的暴论：“不能复现的模型不是开源模型，只是免费模型”，目前大量“开源”模型不仅不公布数据，甚至不公布配比。就算有配比，非大厂的研究者、从业者通常也搞不到大厂里那么高质量的common数据。用质量不高的数据、非官方的配比，训练模型本身就有损通用能力，拿来作为防止灾难性遗忘的数据就更有点贻笑大方了。数据不好洗，配比不好验，CP就只能胎死腹中了吗？或许我们可以从PPO里面找找解决办法。

重要性采样

重要性是一种蒙特卡洛方法，用于估计目标分布的期望值。核心思想是当目标分布难以直接采样时，可以从一个更容易采样的分布中抽样，并通过对这些样本加权来修正估计的偏差。也就是说重要性采样能够让我们以有偏的方式采样，但是无偏的估计原分布。更加正规化的解释是这样的：

假设要计算一个离散随机变量的函数在概率分布下的期望值：

但是原始分布采样困难，那我们可以寻找一个“建议分布” 进行采样：

再通过蒙特卡洛估计，可以把公式转换为：

这里需要注意的是，采样困难，并不是计算的概率困难。重要性采样成立的前提是的支撑集必须覆盖 ,且与的乘积具有有限的方差。白话说就是采样的这个需要是的子集，且两个分布的差异越小越好。PPO利用重要性采样是为了提高数据利用效率，让新策略能够重用旧策略产生的数据。

看看CP，也是从采样困难（从基座模型的训练数据采样困难），从采样容易（从开源或自己的数据采样容易），那就可以尝试把重要性采样引入CP。

Continue Pretrain结合重要性采样

语言模型的优化目标是：

这里表示原始模型使用的训练数据分布，是从中采样的一条语料，表示语料中的t个token。

做一下重要性采样：

最后的问题是，怎么获得语料在当前数据中的概率和在原始语料中的概率。我这里用当前正在训练的模型CP估计,用没有经过训练的预训练模型P估计，也就是：

Domain数据选择 & 退火

解决了common数据问题，就剩下domain数据了。通常情况下，我们会根据要强化的方向选择分布相似的数据，比如法律模型收集法条、判例、裁判文书等等。但是具体哪些数据对模型是有好处的？这个一般都是加一些数据训一下小模型，看看评估指标是否有提升。但是更取巧一点的办法是用退火，这在Llama3.1的技术报告里也提到了。退火是指模型训练过程中动态衰减学习率的一种训练方式。退火在不同数据上会呈现不同的效果：

• 在拟合程度较高的数据上，退火可以让模型搜索到局部最优，快速降低loss
• 在欠拟合的数据上，退火会让模型更加欠拟合

我们可以在少量数据上退火，同时加入大比例的待测试数据，这样可以让模型快速拟合待测试数据，又不会过度遗忘通用能力。方便我们观察待测数据对评估指标的影响。

另外，如果要刷榜，一定要退火。在没有数据穿透的情况下，用榜单同分布数据退火也能涨好几个点。用数学退火对数学和code都有好处。

其他

最后再提一嘴，除了训练数据，评估数据的准备也非常重要，甚至可以比训练数据更重要。评估数据的好坏决定了评估是否能忠实反应模型能力，是模型优化方向的重要指导。指导错了模型还能有好？

备注：进群，进入大模型技术群

id：baobaogpt，记得备注呦

http://mp.weixin.qq.com/s?__biz=MzIwNDY1NTU5Mg==&mid=2247492858&idx=1&sn=863b88e56cc36d897cc72359d9f82b7b

包包算法笔记

大模型技术和行业认知

最新文章

大模型对齐中的各种loss讲解

微调图像大模型的经验分享

人人都能看懂的RL-PPO理论知识

校招字节开奖，大模型50K*15！准备接了

个人从零预训练1B LLM心路历程

代码大模型OpenCoder技术报告解读

SFT洗数据，有多少细节？

LSTM依然能打！原作者带队最新开源成果吊打Transformer和Mamba

大模型中有哪些形式简单却很巧妙的上分方法？

智谱生成视频升级，告别默片Sora

FlashAttention算法之美：极简推导版

ACL 2024中RAG论文整理和简析

AI搜索的16个局限性和提升建议

图解大模型训练系列：序列并行2，DeepSpeed Ulysses

大模型SFT数据选择方法综述

图解大模型训练系列：序列并行

Perplexity CEO揭秘：不训大模型、关键在于检索、排序、编排

复现 OpenAI o1 的一小步：Steiner 开源模型解析

字节大模型搞推荐，有业务收益了

OpenAI 12月发布最新模型Orion？Altman又辟谣

LLM洗数据：怎么做Continue Pretrain的数据

LLM洗数据：数据或许比算法更重要？大模型剪枝中的校准数据

LLM洗数据：数据去重之Simhash&Minhash分析与实现

小红书用大模型搞推荐

NeurIPS'24｜大模型LoRA超级变体！仅需参数0.4%达微调效率巅峰！

Claude 3.5，学会了用电脑！遥遥领先openAI

Yann LeCun最新演讲：基本上不做LLM了

如何用一个统一的视角，分析RLHF下的各种算法？

终于被CCF A类会议AAAI录用了！！！

万字长文梳理LLM+RLHF的脉络

字节实锤大模型造实习生攻击？这下反而更...

大模型SFT暗藏陷阱？梯度累计有坑

手撕LLM+RLHF+VLM+o1推理，我全都要!!!

Anthropic分享RAG最佳实践：Contextual Retrieval

如何从头训练大语言模型: A simple technical report

Meta视频生成论文解读

写在Ph.D第0年：AI/CV科研菜鸟的进阶之路

KDD Cup 2024 Meta LLMs RAG挑战赛冠军方案开源

DPO的局限性讨论：理论和实践

字节用大模型做推荐。。

今年顶会这情况。。。大家提前做准备吧！

OpenAI o1技术详解3：让模型自我纠错

OpenAI o1 技术详解2：MCTS增强推理（代码级）

红杉专访OpenAI O1团队全文记录

大模型算法岗，Kaggle金牌和CCF A一作哪个更有用？

全是细节｜大模型SFT的100个关键点

也来猜猜 o1 实现方法

多模态大模型技术点总结

OpenAI o1 技术系列1：整体框架，利用Test-Time Scaling Law提升逻辑推理能力

一文讲明白大模型分布式逻辑（从GPU通信原语到Megatron、Deepspeed）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉