一篇大模型数据合成和增强技术最新综述

科技 2024-10-27 01:25 泰国

大型语言模型（LLMs）高质量数据的增长速度远远落后于训练数据集的扩张，在这种情况下，合成数据已成为一个有希望的解决方案。目前，数据生成主要包含两种主要方法：数据增强和合成。全面回顾并总结了LLMs整个生命周期中的数据生成技术，包括数据准备、预训练、微调、指令调优、偏好对齐和应用。

本综述的主要内容流程和分类

现有关于数据合成和增强技术的调查与本次工作的比较。先前的调查主要关注基于大型语言模型（LLM）的数据合成和增强方法，旨在支持下游任务。相比之下，我们的工作强调以LLM为导向的数据合成和增强，系统地涵盖了LLM的完整生命周期——从数据准备到应用——并解决核心LLM功能，如理解和生成，最终目标是通过以数据为中心的技术来改进LLM本身。

数据增强与合成

介绍了数据生成方法的分类，这些方法在处理数据稀缺性和不平衡性方面起着关键作用，从而提高模型性能和泛化能力，将数据增强和合成技术的发展和演变进行了总结：

数据增强（Data Augmentation）：

数据增强是一种从数据到数据的生成方法，通常涉及对原始数据的操作以增加其多样性和数量，而不显著改变其基本特征。数据增强技术旨在通过变换或扰动来增强现有数据样本的丰富性。
数据增强可以分为数据标注、数据重构和共同标注三个子类别。

数据合成（Data Synthesis）：

数据合成旨在从头开始或基于生成模型创建全新的数据，这些数据与真实数据的分布相似。随着生成AI的爆炸式增长，合成数据的质量和生成效率都有了显著提升。
数据合成可以分为通用模型蒸馏、领域模型蒸馏和模型自我改进三个子类别。

大型模型数据合成和增强技术发展演变步骤的说明图

数据准备阶段

讨论了在大型语言模型（LLMs）的数据准备阶段，数据合成和增强如何帮助生成多样化和高质量的数据集，以应对真实世界数据稀缺的挑战。根据之前讨论的分类，将当前的研究分为通用模型蒸馏和数据增强两部分：

通用模型蒸馏（General Model Distillation）：

这种方法利用强大的通用LLMs来蒸馏高质量数据。根据方法和数据模态，进一步细分为从种子合成、合成推理步骤、可控合成、从零合成和合成多模态数据等类别。
例如，TinyStories通过指令LLM生成结合1500个基本单词的故事来训练和评估语言模型。Case2Code利用LLM生成适合这些功能的输入，并使用代码解释器计算相应的输出。
自我指导（Self-Instruct）通过迭代过程生成新指令和相应的实例，以增强LLMs的指令遵循能力。

数据增强（Data Augmentation）：

数据增强旨在通过各种技术处理现有数据，以获得更多样化的高质量数据集。在数据准备阶段，主要分为数据标注、数据重构、共同标注和非LLM驱动的方法。
例如，FullAnno通过指令LLM获取图像的全面标注，包括对象类别、位置、区域描述和图像中的文本信息。
数据重构尝试将现有数据转换为更广泛的变体，例如TinyGSM通过提示LLM从GSM8K生成问题变体，然后过滤掉低质量的实例。
共同标注是指人类和LLMs共同注释未标记数据的过程，例如CoAnnotating框架根据LLMs的注释不确定性自动决定每个数据实例是否应由人类或LLMs注释。

数据准备中的数据合成和增强。在表格中，方法概述了每项研究提出的技术。数据源和合成数据分别指用于生成合成数据的原始数据和为训练目的创建的合成数据。任何单元格中的破折号（-）表示在引用的文献中没有提及相应的内容。

预训练阶段

探讨了在大型语言模型（LLMs）的预训练阶段，数据合成和增强如何提供丰富、多样化且可控制的训练数据，以提升模型性能并减少偏见。从模型自我改进、通用模型蒸馏和数据增强三个角度讨论了现有的方法：

模型自我改进（Model Self-Improvement）：

在预训练阶段，模型自我改进指的是利用LLM生成数据，并使用这些数据对同一LLM进行预训练。
例如，VILA-2利用自我增强过程，使用当前轮次的VILA生成详细说明，以用于下一轮预训练。

通用模型蒸馏（General Model Distillation）：

通用模型蒸馏指的是使用具有强大能力的通用LLM来蒸馏高质量数据。
例如，Phi-1和Phi-1.5利用GPT-3.5生成的代码数据集进行预训练，以展示高质量数据在打破现有规模法则中的潜力。
TinyDialogues通过提示GPT-4生成真实对话，其中包含不同年龄的孩子作为主要参与者。

数据增强（Data Augmentation）：

数据增强旨在通过各种技术进一步处理现有数据，以获得更多样化的数据集。
例如，WRAP利用现成的指令调整模型来重新表述网络文档，从而在真实数据和合成数据的组合上对LLM进行预训练。
非LLM驱动的方法，如Code Llama在Proof-Pile-2数据集上进行预训练，该数据集包含科学论文和网络数据，通过过滤公开资源中的高质量数据来丰富数据集。

预训练中的数据合成和增强。方法概述了每项研究提出的技术。数据源和合成数据分别指用于生成合成数据的原始数据和为预训练创建的合成数据。基础模型和预训练模型分别指基础模型和已经过预训练的模型。任何单元格中的破折号（-）表示在引用的文献中没有提及相应的内容。

微调阶段

讨论了在大型语言模型（LLMs）的微调阶段，数据合成和增强如何通过生成的数据对LLMs进行微调，以提升模型在特定任务上的表现。从模型自我改进、通用模型蒸馏和数据增强三个角度探讨了现有的方法：

模型自我改进（Model Self-Improvement）：

这种方法通过LLM生成数据，并使用这些数据对同一模型进行微调，从而提升模型性能。
例如，STaR利用LLM生成的理由生成能力，通过为模型未能解决的问题生成理由来增强数据集。
ReST和ReST-EM通过生成多个输出预测，然后对过滤后的数据集进行微调，以此来提升模型性能。

通用模型蒸馏（General Model Distillation）：

通过使用强大的LLM生成高质量数据，对较弱的模型进行微调。
例如，LLM2LLM通过学生模型在初始数据集上进行微调，然后识别错误，并基于这些错误用教师LLM生成的合成样本来增强训练数据。

数据增强（Data Augmentation）：

数据增强通过各种技术处理现有数据，以创建更广泛和多样化的数据集。
例如，通过使用LLM对未标记数据进行标注，可以生成带有标签的合成数据，从而提升模型在特定任务上的性能。

微调中的数据合成和增强。在表格中，方法概述了每项研究提出的技术。数据源和合成数据分别指用于生成合成数据的原始数据和为微调创建的合成数据。基础模型和微调模型分别指基础模型和已经过微调的模型。任何单元格中的破折号（-）表示在引用的文献中没有提及相应的内容。

指令调优阶段

探讨了在大型语言模型（LLMs）的指令调优阶段，数据合成和增强如何帮助生成高质量的指令遵循数据。将现有的方法分为三个类别：通用模型蒸馏、模型自我改进和数据增强。

通用模型蒸馏（General Model Distillation）：

利用强大的LLM生成指令遵循数据，然后对较弱的模型进行指令调优。
例如，Alpaca使用GPT-3.5生成指令-响应对，然后微调Llama模型以创建一个可复制的指令遵循模型。
其他模型如Vicuna和WizardLM也采用了类似的方法，通过生成指令数据来提升模型在遵循复杂指令时的性能。

模型自我改进（Model Self-Improvement）：

模型自我改进通过自生成的反馈来提升模型性能，减少对外部数据的依赖。
自我指导（Self-Instruct）方法通过提示现成的GPT-3生成新的指令和相应的实例，以此来增强模型自身的指令遵循能力。
其他方法如SPIN和ReST利用自我播放机制和迭代自我改进策略来提升模型性能。

数据增强（Data Augmentation）：

数据增强通过为未标记的数据生成标签或重新构造现有数据来增强模型的指令遵循能力。
例如，通过使用LLMs对政治推文消息进行分类和标注，可以生成带有标签的合成数据，从而提升模型在特定任务上的性能。
数据重构（Data Reformation）方法通过变换现有数据来增加数据的多样性，例如，通过同义词替换、复制粘贴等操作来生成新的数据变体。

偏好对齐阶段

讨论了如何通过数据合成和增强技术来优化大型语言模型（LLMs）以符合复杂的人类偏好。这个过程涉及以下几个关键阶段：

通用模型蒸馏（General Model Distillation）：

目的是利用大型语言模型和外部工具生成高质量的偏好数据，以改善模型在实际应用中的性能，特别是在安全性、可靠性和伦理考量方面。
通过从多个强大的模型中进行蒸馏，而不是依赖单一模型，来减少偏见并增加响应的多样性。
例如，ULTRAFEEDBACK利用GPT-4生成了超过一百万的反馈点，并通过技术如最佳-n采样和近端策略优化（PPO）来提高反馈质量和减少注释偏差。

领域模型蒸馏（Domain Model Distillation）：

专注于通过训练特定领域的数据集来优化模型，以提升模型在特定任务和领域的表现。
例如，通过生成与特定领域相关的数据集，如安全导向的场景、文本摘要、数学问题求解、基于搜索的问题回答以及代码生成和逻辑推理等，来增强模型在这些领域的性能。

模型自我改进（Model Self-Improvement）：

使模型能够通过自我生成的反馈进行迭代改进，减少对人类标注数据的依赖。
包括自我反馈循环，其中模型根据自我生成的反馈自主改进输出，以及外部评估模型，依赖外部评估者来评估模型的响应。

数据增强（Data Augmentation）：

通过创建现有数据的任务特定变体来增强模型的泛化能力，而无需额外的数据收集。
技术包括数据标注、数据重构和共同标注，以确保增强的数据保持相关性和一致性，从而提高模型在各种任务上的性能。

应用阶段

探讨了大型语言模型（LLMs）在特定应用领域中如何通过数据合成和增强技术来提升性能。这些应用领域通常需要高质量的数据集来实现有效的指令调优。将这些应用分为几个主要领域，以及在这些领域中数据合成和增强的方法：

数学（Math）：

为了提升LLMs在数学问题解答方面的能力，研究人员提出了生成更多的理由语料库和多样化的问答对。
例如，通过LLMs生成的链式思考（CoTs）来明确推理步骤，或者通过自生成的公式化问题和证明来扩展训练语料库。

科学（Science）：

在科学应用中，需要深入理解知识密集型概念和推理，这要求高质量的数据集来进行有效的指令调优。
研究人员通过统一不同学科的格式，将结构化数据转换为可读文本，然后生成指令调优数据集。

编程（Code）：

在编程任务中，生成合成数据以提升编码性能是一个长期研究的领域。
例如，通过自玩方法生成编程难题及其解决方案，并通过代码解释器验证正确性，然后将LLM在生成的数据上进行微调以提升性能。

医疗（Medical）：

在医疗应用中，LLMs主要作为医疗对话聊天机器人，需要通过多轮对话与患者互动。
通过收集专业文档作为种子语料库，然后利用通用的大型语言模型生成多样化的问答对，以提升模型的理解能力并产生有用的回应。

法律（Law）：

LLMs在法律领域的应用，特别是在法律问题回答和咨询方面，已经引起了广泛关注。
研究人员关注于通过数据合成改善微调数据集的数量和质量，以提升模型回应的清晰度和正式度。

按发表年份和会议场所分组的，与以LLM为导向的数据合成和增强技术相关的出版物统计数据。

https://arxiv.org/pdf/2410.12896A Survey on Data Synthesis and Augmentation for Large Language Models

来源 | PaperAgent

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

40岁副教授跳槽去大厂，试用期没过被辞退, 原单位回不去, 哭得稀里哗啦……

[送5本]《机器学习漫画小抄》万人追读，未出版就爆火，这本机器学习漫画小抄终于出版了！

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

今天Qwen2.5技术报告发布啦！

大厂跳槽到Start up！分享我的心路历程

震撼高层，中国工程院院士孙凝晖给正国级、副国级讲课-《人工智能与智能计算的发展》

炸裂发布！《大语言模型：导论》重磅发布！（附PDF）

Anthropic：Agents 2024年度总结！

解析大模型常用微调方法：P-Tuning、Prefix Tuning、Adapter、LoRA

[vLLM vs TensorRT-LLM]：采样方法对两者性能的影响

10W+下载，2025最新中文版《大模型基础》教程pdf免费分享

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

DPO vs PPO：深度解读谁是LLM Alignment的未来

零容忍！一博士被撤销学位，证书作废

必看！大模型训练圣经《从头训练大模型》免费PDF分享

YYDS！哈工大博士的PyTorch笔记火了！！

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

谷歌首席科学家 Jeff Dean演讲：人类设计芯片需要18个月，AI只用了1秒钟

微软开源MarkitDown，RAG文档解析就这么解决了~

吴恩达最新演讲：企业都在技术栈底层较劲，应用层才是价值洼地

最值得读的LLM书！下载量10w+！《基于Transformer和扩散模型的生成式AI》pdf免费分享

所有大模型领域学习者必读论文，没有之一！由深度学习三巨头联合撰写！

校招字节终于开奖，大模型50K*16 ！！

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

一文看懂：四种多Agent范式哪种最好

OCR多模态大模型：视觉模型与LLM的结合之路

DL4大名著，谷歌科学家Kaggle大神编写《Python深度学习》最新中文版分享

AAAI 2025论文中了：没算法没实验，全靠idea思路好...

2024年大模型后训练(post-training)总结

大模型Infra王朝2024

Qwen预训练并未终结~

终于弄懂了《Transformer入门到精通》高清pdf分享

我国退步最快的985大学？曾位列全国前十，如今排名连年下降...

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

复旦大学：RAG最佳实践

年轻举报者命丧黄泉，生前曝光OpenAI ChatGPT训练惊人黑幕！！

[送5本]《智能崛起：AI文明演化史》智人之上，智能崛起，人类智能是怎么进化出来的？

哈工大博士耗时一年整理《PyTorch常用函数手册》分享，轻松掌握PyTorch的各种操作！

专访李飞飞：从2D到3D，AI将为我们带来哪些改变？

DeepSeek-VL2开源，VLM迈入MoE时代~

每个instance应该有自己的prompt！阿里提出新方法，突破零样本思维链局限

必看！大模型训练圣经《从头训练大模型》免费PDF分享

爆推！中科院博士小册子助你啃透了机器学习！

哈工大博士耗时一年整理《PyTorch常用函数手册》分享，轻松掌握PyTorch的各种操作！

爆推！中科院博士小册子助你啃透了机器学习！

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

腾讯优图最新开源Freeze-Omini：冻结LLM引入语音处理能力

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉