基础模型与后训练范式:验证器工程,后训练范式,监督信号;从零训练的德语1B语言模型
Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
2024-11-18|Chinese Information Processing Laboratory, CAS, Alibaba Group, Xiaohongshu|🔺12
http://arxiv.org/abs/2411.11504v1
https://huggingface.co/papers/2411.11504
https://github.com/icip-cas/Verifier-Engineering
研究背景与意义
机器学习的演进历程一直围绕着两个核心目标:开发更强大的模型和扩展监督信号的规模。在过去的几十年中,我们从特征工程时代逐步迈入了数据工程时代,并最终迎来了基础模型时代。基础模型(如大型语言模型和视觉语言模型)展示了卓越的性能,但同时也带来了新的挑战:如何为这些模型提供有效的后训练监督信号以进一步提升其能力。
传统的数据工程方法,如大规模的数据集构建和人工标注,已经逐渐达到了其实用极限。首先,高质量的人工标注成本高昂且不可持续;其次,复杂任务的监督信号需要模型具备更强的能力才能有效利用。因此,当前亟需探索新的监督信号和技术方法,以应对基础模型时代的挑战。
本文提出了验证器工程(Verifier Engineering),一个专为基础模型时代设计的新型后训练范式。验证器工程的核心思想是通过一套自动化验证器对候选响应进行验证,并向基础模型提供有意义的反馈。通过将验证器工程分为搜索、验证和反馈三个阶段,我们系统地回顾了各个阶段的最新研究进展,并展望了其在通用人工智能(AGI)道路上的潜在贡献。
研究方法与创新
搜索阶段
搜索阶段的目标是高效地从模型的输出分布中采样出具有代表性的候选响应,以揭示模型的性能边界和局限性。由于状态-动作空间的指数级增长,穷尽搜索整个空间是不切实际的。因此,高效的搜索策略,如线性搜索和树搜索,成为了提升模型性能的关键。
线性搜索:逐 token 生成响应,适用于需要逐步操作的任务。其优点是计算成本低,但在早期选择不当的情况下,后续序列可能难以纠正。 树搜索:在每一步探索多个潜在动作,适用于需要复杂推理的任务。其优点是能够探索更广泛的状态-动作空间,但计算成本较高。
为了进一步提升搜索效率,本文讨论了多种增强方法,如调整探索参数(如温度、Top-k、Top-p)和干预初始状态(如思维链、逻辑推理)。
验证阶段
验证阶段的核心是使用验证器对候选响应进行评估,评估结果直接影响下游策略的性能。验证器的质量和鲁棒性是验证器工程的关键。
验证形式:二元反馈、评分反馈、排名反馈、文本反馈。 验证粒度:token 级别、思维级别、轨迹级别。 验证来源:基于程序的验证器、基于模型的验证器。 额外训练:需要额外训练的验证器、不需要额外训练的验证器。
本文详细分类并总结了各类验证器,并通过多个维度(验证形式、验证粒度、验证来源、额外训练)对验证器进行了全面的分类。
反馈阶段
反馈阶段的目标是利用验证结果提升模型的输出。反馈方法分为基于训练的反馈和基于推理的反馈。
基于训练的反馈:通过搜索和验证获取高质量数据,使用监督微调(SFT)、偏好学习(DPO)、强化学习(RLHF)等方法更新模型参数。 基于推理的反馈:在推理过程中修改输入或推理策略,以获得更好的输出,而不改变模型参数。
本文详细讨论了多种基于训练和推理的反馈方法,并通过具体任务(如数学推理、代码生成、指令跟随)展示了各类方法的实际应用。
实验设计与结果分析
本文通过多个实验验证了验证器工程在不同任务上的有效性。
搜索方法对比:实验结果表明,树搜索方法在复杂推理任务中显著优于线性搜索方法,但其计算成本较高。 验证器对比:基于程序的验证器在准确性和可解释性上具有优势,但缺乏灵活性;基于模型的验证器则更适应复杂、动态的环境。 反馈方法对比:基于训练的反馈方法在特定任务上表现优异,但其性能依赖于训练数据的质量;基于推理的反馈方法则更具鲁棒性,但其实现复杂度较高。
多场景实验结果显示,验证器工程在数学推理、代码生成、指令跟随等任务中均取得了显著的性能提升。
结论与展望
本文提出了验证器工程,一个专为基础模型时代设计的新型后训练范式。通过将验证器工程分为搜索、验证和反馈三个阶段,我们系统地回顾了各个阶段的最新研究进展,并展示了验证器工程在多个任务上的实际应用。
尽管验证器工程展示了巨大的潜力,但仍面临诸多挑战:
搜索效率:如何更好地平衡探索与 exploitation,以提升搜索效率。 验证器设计:如何设计更全面、有效的验证器组合,以应对不同任务的需求。 反馈效果:如何进一步提升反馈方法的有效性,以实现更强的模型性能。
未来研究可以聚焦于开发更高效的搜索算法、设计更全面的验证器组合系统,以及探索更具鲁棒性的反馈方法,以推动验证器工程在通用人工智能道路上的发展。
LLäMmlein: Compact and Competitive German-Only Language Models from Scratch
2024-11-17|JMU, CAIDAS, Data Science Chair|🔺7
http://arxiv.org/abs/2411.11171v1
https://huggingface.co/papers/2411.11171
https://www.informatik.uni-wuerzburg.de/datascience/projects/nlp/llammlein/
研究背景与意义
近年来,大型语言模型(LLMs)在多个领域取得了显著进展,但这些进展主要集中在英语语言上。相比之下,其他语言如德语的LLM研究相对滞后。虽然已有少量针对德语的BERT或较小的GPT模型进行了预训练,但当前德语LLM领域仍面临显著的透明度不足问题,尤其是在训练数据和模型能力贡献方面。为了填补这一空白,本文介绍了一个全新的德语语言模型——LLäMmlein,该模型从零开始训练,旨在为德语NLP研究社区提供透明、可复现的资源。
研究方法与创新
数据集预处理为了训练LLäMmlein模型,我们首先对RedPajama V2数据集进行了全面清理和预处理。我们仅保留高质量的德语数据,并通过段落级去重方案去除重复内容。此外,我们还进一步清理了数据集中的冗余换行符和空格,并使用Token-to-Word比率过滤器去除了低质量文本。
自定义德语Tokenizer的训练我们训练了一个拥有32,000词汇量的Byte-Pair Encoding (BPE) Tokenizer,以更好地适应德语语言和模型训练需求。通过对比不同数据量训练出的Tokenizer,我们选择了在较小数据集上训练的Tokenizer,以提高效率和Tokenization性能。
模型预训练框架我们采用了TinyLlama GitHub仓库作为项目的基础,使用PyTorch Lightning进行数据准备、模型训练和部署。为了适应德语语言和数据集的特点,我们对Tokenizer、模型架构和训练流程进行了定制化调整。
模型评估我们定期评估训练过程中的中间检查点,选取了六个具有代表性的SuperGLEBer任务进行评估。这些任务涵盖了不同的任务类型,以便全面评估模型的性能。
实验设计与结果分析
#实验设计我们对LLäMmlein 120M和1B模型进行了全面的评估,比较了它们与其他德语语言模型的性能。实验涵盖了分类、序列标记、句子相似性等多项任务。
#结果分析LLäMmlein 120M模型在多个任务中表现优异,特别是在自然语言推理(NLI)和数据库方面(DBAspect)的任务中。与german-gpt2和gbert-base等模型相比,LLäMmlein 120M在某些任务中表现出显著的优势。
LLäMmlein 1B模型在SuperGLEBer基准测试中持续排名靠前,特别是在句子相似性和常识推理任务中表现出色。与相似参数规模的模型(如Llama 3.2 1B)相比,LLäMmlein 1B在多个任务中取得了更好的成绩。
结论与展望
总结贡献本文的主要贡献包括:
清理、过滤和预处理RedPajama数据集。 训练新的德语Tokenizer。 从零开始训练两个德语语言模型LLäMmlein 120M和1B。 评估训练过程并发布中间检查点。 与现有最先进的语言模型进行比较。 开放源代码、数据和训练流程,促进德语LLM研究社区的合作和进一步研究。
分析局限尽管LLäMmlein模型在多个任务中表现优异,但仍存在一些局限性:
在某些任务中,模型性能提升较早出现平台期。 生成任务中,模型倾向于生成较长答案,影响标准化评分。
方法展望未来工作可以包括:
对训练过程的进一步细粒度分析,利用保存的中间检查点进行更深入的动态分析。 探索高质量的德语指令数据集,进一步提升模型的指令调优效果。 针对特定领域进行模型适应和评估,提供更多关于模型能力和局限性的见解。