大型语言模型(LLMs)高质量数据的增长速度远远落后于训练数据集的扩张,在这种情况下,合成数据已成为一个有希望的解决方案。目前,数据生成主要包含两种主要方法:数据增强和合成。全面回顾并总结了LLMs整个生命周期中的数据生成技术,包括数据准备、预训练、微调、指令调优、偏好对齐和应用。
现有关于数据合成和增强技术的调查与本次工作的比较。先前的调查主要关注基于大型语言模型(LLM)的数据合成和增强方法,旨在支持下游任务。相比之下,我们的工作强调以LLM为导向的数据合成和增强,系统地涵盖了LLM的完整生命周期——从数据准备到应用——并解决核心LLM功能,如理解和生成,最终目标是通过以数据为中心的技术来改进LLM本身。
数据增强与合成
介绍了数据生成方法的分类,这些方法在处理数据稀缺性和不平衡性方面起着关键作用,从而提高模型性能和泛化能力,将数据增强和合成技术的发展和演变进行了总结:
数据增强(Data Augmentation):
数据增强是一种从数据到数据的生成方法,通常涉及对原始数据的操作以增加其多样性和数量,而不显著改变其基本特征。数据增强技术旨在通过变换或扰动来增强现有数据样本的丰富性。
数据增强可以分为数据标注、数据重构和共同标注三个子类别。
数据合成(Data Synthesis):
数据合成旨在从头开始或基于生成模型创建全新的数据,这些数据与真实数据的分布相似。随着生成AI的爆炸式增长,合成数据的质量和生成效率都有了显著提升。
数据合成可以分为通用模型蒸馏、领域模型蒸馏和模型自我改进三个子类别。
数据准备阶段
讨论了在大型语言模型(LLMs)的数据准备阶段,数据合成和增强如何帮助生成多样化和高质量的数据集,以应对真实世界数据稀缺的挑战。根据之前讨论的分类,将当前的研究分为通用模型蒸馏和数据增强两部分:
通用模型蒸馏(General Model Distillation):
这种方法利用强大的通用LLMs来蒸馏高质量数据。根据方法和数据模态,进一步细分为从种子合成、合成推理步骤、可控合成、从零合成和合成多模态数据等类别。
例如,TinyStories通过指令LLM生成结合1500个基本单词的故事来训练和评估语言模型。Case2Code利用LLM生成适合这些功能的输入,并使用代码解释器计算相应的输出。
自我指导(Self-Instruct)通过迭代过程生成新指令和相应的实例,以增强LLMs的指令遵循能力。
数据增强(Data Augmentation):
数据增强旨在通过各种技术处理现有数据,以获得更多样化的高质量数据集。在数据准备阶段,主要分为数据标注、数据重构、共同标注和非LLM驱动的方法。
例如,FullAnno通过指令LLM获取图像的全面标注,包括对象类别、位置、区域描述和图像中的文本信息。
数据重构尝试将现有数据转换为更广泛的变体,例如TinyGSM通过提示LLM从GSM8K生成问题变体,然后过滤掉低质量的实例。
共同标注是指人类和LLMs共同注释未标记数据的过程,例如CoAnnotating框架根据LLMs的注释不确定性自动决定每个数据实例是否应由人类或LLMs注释。
数据准备中的数据合成和增强。在表格中,方法概述了每项研究提出的技术。数据源和合成数据分别指用于生成合成数据的原始数据和为训练目的创建的合成数据。任何单元格中的破折号(-)表示在引用的文献中没有提及相应的内容。
预训练阶段
探讨了在大型语言模型(LLMs)的预训练阶段,数据合成和增强如何提供丰富、多样化且可控制的训练数据,以提升模型性能并减少偏见。从模型自我改进、通用模型蒸馏和数据增强三个角度讨论了现有的方法:
模型自我改进(Model Self-Improvement):
在预训练阶段,模型自我改进指的是利用LLM生成数据,并使用这些数据对同一LLM进行预训练。
例如,VILA-2利用自我增强过程,使用当前轮次的VILA生成详细说明,以用于下一轮预训练。
通用模型蒸馏(General Model Distillation):
通用模型蒸馏指的是使用具有强大能力的通用LLM来蒸馏高质量数据。
例如,Phi-1和Phi-1.5利用GPT-3.5生成的代码数据集进行预训练,以展示高质量数据在打破现有规模法则中的潜力。
TinyDialogues通过提示GPT-4生成真实对话,其中包含不同年龄的孩子作为主要参与者。
数据增强(Data Augmentation):
数据增强旨在通过各种技术进一步处理现有数据,以获得更多样化的数据集。
例如,WRAP利用现成的指令调整模型来重新表述网络文档,从而在真实数据和合成数据的组合上对LLM进行预训练。
非LLM驱动的方法,如Code Llama在Proof-Pile-2数据集上进行预训练,该数据集包含科学论文和网络数据,通过过滤公开资源中的高质量数据来丰富数据集。
预训练中的数据合成和增强。方法概述了每项研究提出的技术。数据源和合成数据分别指用于生成合成数据的原始数据和为预训练创建的合成数据。基础模型和预训练模型分别指基础模型和已经过预训练的模型。任何单元格中的破折号(-)表示在引用的文献中没有提及相应的内容。
微调阶段
讨论了在大型语言模型(LLMs)的微调阶段,数据合成和增强如何通过生成的数据对LLMs进行微调,以提升模型在特定任务上的表现。从模型自我改进、通用模型蒸馏和数据增强三个角度探讨了现有的方法:
模型自我改进(Model Self-Improvement):
这种方法通过LLM生成数据,并使用这些数据对同一模型进行微调,从而提升模型性能。
例如,STaR利用LLM生成的理由生成能力,通过为模型未能解决的问题生成理由来增强数据集。
ReST和ReST-EM通过生成多个输出预测,然后对过滤后的数据集进行微调,以此来提升模型性能。
通用模型蒸馏(General Model Distillation):
通过使用强大的LLM生成高质量数据,对较弱的模型进行微调。
例如,LLM2LLM通过学生模型在初始数据集上进行微调,然后识别错误,并基于这些错误用教师LLM生成的合成样本来增强训练数据。
数据增强(Data Augmentation):
数据增强通过各种技术处理现有数据,以创建更广泛和多样化的数据集。
例如,通过使用LLM对未标记数据进行标注,可以生成带有标签的合成数据,从而提升模型在特定任务上的性能。
微调中的数据合成和增强。在表格中,方法概述了每项研究提出的技术。数据源和合成数据分别指用于生成合成数据的原始数据和为微调创建的合成数据。基础模型和微调模型分别指基础模型和已经过微调的模型。任何单元格中的破折号(-)表示在引用的文献中没有提及相应的内容。
指令调优阶段
探讨了在大型语言模型(LLMs)的指令调优阶段,数据合成和增强如何帮助生成高质量的指令遵循数据。将现有的方法分为三个类别:通用模型蒸馏、模型自我改进和数据增强。
通用模型蒸馏(General Model Distillation):
利用强大的LLM生成指令遵循数据,然后对较弱的模型进行指令调优。
例如,Alpaca使用GPT-3.5生成指令-响应对,然后微调Llama模型以创建一个可复制的指令遵循模型。
其他模型如Vicuna和WizardLM也采用了类似的方法,通过生成指令数据来提升模型在遵循复杂指令时的性能。
模型自我改进(Model Self-Improvement):
模型自我改进通过自生成的反馈来提升模型性能,减少对外部数据的依赖。
自我指导(Self-Instruct)方法通过提示现成的GPT-3生成新的指令和相应的实例,以此来增强模型自身的指令遵循能力。
其他方法如SPIN和ReST利用自我播放机制和迭代自我改进策略来提升模型性能。
数据增强(Data Augmentation):
数据增强通过为未标记的数据生成标签或重新构造现有数据来增强模型的指令遵循能力。
例如,通过使用LLMs对政治推文消息进行分类和标注,可以生成带有标签的合成数据,从而提升模型在特定任务上的性能。
数据重构(Data Reformation)方法通过变换现有数据来增加数据的多样性,例如,通过同义词替换、复制粘贴等操作来生成新的数据变体。
偏好对齐阶段
讨论了如何通过数据合成和增强技术来优化大型语言模型(LLMs)以符合复杂的人类偏好。这个过程涉及以下几个关键阶段:
通用模型蒸馏(General Model Distillation):
目的是利用大型语言模型和外部工具生成高质量的偏好数据,以改善模型在实际应用中的性能,特别是在安全性、可靠性和伦理考量方面。
通过从多个强大的模型中进行蒸馏,而不是依赖单一模型,来减少偏见并增加响应的多样性。
例如,ULTRAFEEDBACK利用GPT-4生成了超过一百万的反馈点,并通过技术如最佳-n采样和近端策略优化(PPO)来提高反馈质量和减少注释偏差。
领域模型蒸馏(Domain Model Distillation):
专注于通过训练特定领域的数据集来优化模型,以提升模型在特定任务和领域的表现。
例如,通过生成与特定领域相关的数据集,如安全导向的场景、文本摘要、数学问题求解、基于搜索的问题回答以及代码生成和逻辑推理等,来增强模型在这些领域的性能。
模型自我改进(Model Self-Improvement):
使模型能够通过自我生成的反馈进行迭代改进,减少对人类标注数据的依赖。
包括自我反馈循环,其中模型根据自我生成的反馈自主改进输出,以及外部评估模型,依赖外部评估者来评估模型的响应。
数据增强(Data Augmentation):
通过创建现有数据的任务特定变体来增强模型的泛化能力,而无需额外的数据收集。
技术包括数据标注、数据重构和共同标注,以确保增强的数据保持相关性和一致性,从而提高模型在各种任务上的性能。
应用阶段
探讨了大型语言模型(LLMs)在特定应用领域中如何通过数据合成和增强技术来提升性能。这些应用领域通常需要高质量的数据集来实现有效的指令调优。将这些应用分为几个主要领域,以及在这些领域中数据合成和增强的方法:
数学(Math):
为了提升LLMs在数学问题解答方面的能力,研究人员提出了生成更多的理由语料库和多样化的问答对。
例如,通过LLMs生成的链式思考(CoTs)来明确推理步骤,或者通过自生成的公式化问题和证明来扩展训练语料库。
科学(Science):
在科学应用中,需要深入理解知识密集型概念和推理,这要求高质量的数据集来进行有效的指令调优。
研究人员通过统一不同学科的格式,将结构化数据转换为可读文本,然后生成指令调优数据集。
编程(Code):
在编程任务中,生成合成数据以提升编码性能是一个长期研究的领域。
例如,通过自玩方法生成编程难题及其解决方案,并通过代码解释器验证正确性,然后将LLM在生成的数据上进行微调以提升性能。
医疗(Medical):
在医疗应用中,LLMs主要作为医疗对话聊天机器人,需要通过多轮对话与患者互动。
通过收集专业文档作为种子语料库,然后利用通用的大型语言模型生成多样化的问答对,以提升模型的理解能力并产生有用的回应。
法律(Law):
LLMs在法律领域的应用,特别是在法律问题回答和咨询方面,已经引起了广泛关注。
研究人员关注于通过数据合成改善微调数据集的数量和质量,以提升模型回应的清晰度和正式度。
按发表年份和会议场所分组的,与以LLM为导向的数据合成和增强技术相关的出版物统计数据。
https://arxiv.org/pdf/2410.12896
A Survey on Data Synthesis and Augmentation for Large Language Models
来源 | PaperAgent