【国盛通信·深度】“合成数据+强化学习”:大模型进化的新范式

科技   2024-09-20 09:13   上海  

摘要

当地时间9月12日,OpenAI发布新模型系列o1(代号“草莓”),该模型的特点主要是在给出推理结果前,花更多时间“思考”,产生较长内部思维链,在解决科学、数学、代码等类问题的表现更好。o1-preview每百万token输入15美元,每百万输出token60美元,o1-mini相对便宜,每百万token输入3美元,每百万token输出12美元。目前ChatGPT Plus和Team用户可以在模型选取器中手动选择,o1-preview每周限制30条消息,o1-mini每周限制50条消息。


o1亮点一:或为OpenAI新模型“Orin”生成合成数据。据The Information,o1或为OpenAI新模型“Orin”生成合成数据。无独有偶,我们注意到,OpenAI创始团队出走创办的Anthropic——OpenAI的有力竞争对手,2024年6月发布了大模型Claude 3.5 Sonnet,该模型使用了合成数据,在多个测试中的表现优于GPT4o。我们发现,在人类生成的数据或将耗尽之际,合成数据还具备“性价比可能更高”“更完整、全面”“隐私性更好”等优点,尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题,但能通过“诱导幻觉”“加入数据评估机制”“在训练过程中积累数据”等方式尝试解决。


o1亮点二:“合成数据+强化学习”,o1或确认大模型进化新范式。市场认为,Scaling Law(指大模型随着参数的增大而增强能力)只存在于大模型训练阶段。但我们发现,根据OpenAI工程师Jason Wei,o1使用了强化学习(RL)做思维链(Chain of Thought)来训练模型;思维链可以使模型在推理阶段实现能力增强,即Scaling Law可以不止出现在训练阶段,也出现在推理阶段。这里我们所说的强化学习(RL),指模型A生成推理结果后,由模型B给推理结果打分,帮助模型A不断调整参数、迭代、进化,分成RLAIF(基于AI反馈的强化学习)和RLHF(基于人类反馈的强化学习)多种,后者曾因被用于ChatGPT而名声大噪。我们认为,o1系列的惊艳面世,或许不仅是确认了合成数据的重要性,还意味着大模型对强化学习的倚重,而在强化学习中,我们注意到,RLAIF(基于AI反馈的强化学习)逐渐成为Meta LLama3、英伟达Nemotron-4 340B、微软Orca-2等热门大模型的选择,相较于RLHF(基于人类反馈的强化学习),需要的人类标注较少,适合代码、数学等有客观评价标准的领域。我们推测,RLAIF或许也是o1在代码、数学等问题上表现更好的原因。


投资建议:根据OpenAI,o1模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现随着训练和测试计算量的增长而变得更好,这表明o1“推理时,在响应用户前,思考更多”有助于让o1表现更好,这正是推理Scaling Law。我们认为,这有助于打破投资界过往的担忧,即“推理需要的算力比训练少,当大模型的进化转向推理,算力板块承压”;相反,推理Scaling Law仍将利好算力板块。建议关注:1)光模块产业链:中际旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等;2)液冷服务商:英维克;3)PCB服务商:沪电股份等;4)AIDC:润泽科技等。


风险提示:大模型算法进展不及预期,大模型应用落地不及预期,全球宏观经济下行风险。


1 Open AI新模型开出高额订阅费,多领域实现新飞跃

1.1 OpenAI发布新模型o1系列,逻辑推理能力卓越


当地时间9月12日,OpenAI发布新模型系列o1(代号“草莓”,以下除非注明,统称为“o1”),该模型的特点主要是,在给出推理结果前,花更多时间“思考”,产生较长内部思维链,在解决科学、数学、代码等类问题上的表现比之前的模型更好。



OpenAI o1理科能力强。o1在编程题库Codeforces得到89分,在美国数学竞赛(AIME)处于全美学生的前500名,在物理、生物和化学题库GPQA的表现上超过了人类博士水平,其强大的逻辑能力使o1相较于gpt4o有着多维度的性能提升。




OpenAI o1API定价昂贵且使用次数限制较大。应用程序编程接口(API,Application Programming Interface)的价格上,o1-preview每百万token输入15美元,每百万输出token60美元,o1-mini相对便宜,每百万token输入3美元,每百万token输出12美元。目前ChatGPT Plus和Team用户可以在模型选取器中手动选择,o1-preview每周限制30条消息,o1-mini每周限制50条消息。对于开发者来说,只对已经付过1000美刀的等级5开发者开放,每分钟限制20次。



1.2 o1或为Open AI新模型猎户座(Orion)生成合成数据


The Information认为,草莓就是之前的Q-Star,曾经被警告“AI 重大新突破或危及人类”的神秘模型,其合成数据的方法能够大幅提升大语言模型(LLM)的智能推理能力,尤其体现在数学解题、解字谜、代码生成等复杂推理任务。


据The Information,OpenAI在推出新模型o1后,将推出模型“猎户座”(Orion),而OpenAI o1,则将在其中扮演关键角色——负责生成猎户座所需的数据,通过高质量的合成数据来降低模型错误率。


智能体创企Minion AI首席执行官Alex Graveley认为,使用OpenAI草莓模型生成更高质量的训练数据可以帮助OpenAI减少其模型产生的错误数量,即所谓的幻觉。该模型之所以能够做到这一点,是因为“训练数据中的歧义较少,所以它猜测的次数较少”。


无独有偶,我们注意到,OpenAI创始团队出走创办的Anthropic——OpenAI的有力竞争对手,2024年6月发布了大模型Claude 3.5 Sonnet,该模型使用了合成数据,在多个测试中的表现优于GPT4o。



2 合成数据面面观:定义、优点、不足与解决方案

2.1 合成数据的定义


2022 年发表在arXiv上的一项研究表明:如果大语言模型(LLM)保持现有训练速度,大约会在2026~2032年间耗尽公开的、人类生成的文本数据。面对当前的“数据荒”局面,合成数据或将成为大模型的未来,也是业界公认的解决之法。


合成数据(Synthetic Data)是一种模仿真实世界数据的非人工创建的数据。它是由基于生成式人工智能技术的计算算法和模拟创建而成。合成数据集具有与其所基于的实际数据相同的数学特性,但不包含相同信息。对于语言模型来说,虽然要生成高质量的合成文本存在一定难度,但通过优化现有数据、从多模态数据中学习等策略,或许能够大幅降低对新数据的需求量。


合成数据的使用率逐渐上升,与传统数据相比优势明显。英伟达科学家Jim Fan曾发文表示,合成数据将提供下一万亿个高质量的训练token;Cohere首席执行官Aiden Gomez表示,合成数据可以适用于很多训练场景,只是目前尚未全面推广。与传统数据相比,合成数据具有明显的优势。


2.2 合成数据的优点


2.2.1 相较于人工生成的数据,性价比或更高

数据的成本来自于采集和标注,在这两部分,合成数据都有显著的优势。相对于真实数据低效的收集方式, 合成数据可以定向生成场景,让每一个字节的数据都是有价值的。不需要大量的数据采集团队,也不需要大规模的数据回传系统和数据筛选系统,合成数据从生产开始就根据模型训练的需求出发,大部分产出都可以直接使用,也就降低了数据采集成本。


在标注成本方面,合成数据也有较大优势。第一批专门提供合成数据服务的公司之一——AI.Reverie的联合创始人Paul Walborsky估计,在自动驾驶图像标注上,一张图像的标记成本是6美元,而合成数据的成本只有6美分。


2.2.2 更完整、全面

一些特定情况或数据在真实世界中难以观测,如罕见病或极端天气等。合成数据可以设计比真实数据集更广泛的情况,对Corner Case进行模拟,提升训练数据集的全面性和多样性,确保在处理边缘案例时也有良好性能,提升模型泛化能力。


2.2.3 隐私性更好

根据行业和数据类型的不同,企业在处理敏感数据时可能会面临数据安全挑战,引起对于隐私问题的担忧。例如在医疗行业,患者数据通常包括个人健康信息。而合成数据可以减轻对这类问题的担忧,因为它能够在不暴露私有或敏感数据的情况下显示相同的统计相关信息。以医学研究创建的合成数据为例,它保持与原始数据集相同的生物学特征和遗传标记百分比,但所有姓名、地址和其他个人患者信息都是虚假的。Walborsky表示:“合成数据已成为处理隐私问题的关键。它通过确保数据能够代表真实世界的多样性来减少偏见。”


2.3合成数据的不足与解决方案


2.3.1 不足

使用合成数据可以成为解决训练数据稀缺以及衍生而来的高成本问题的有效手段,为什么大量AI厂商还是倾向于挖掘或购买人类生成的数据呢?


合成数据可能会被引入噪声。在采用精心设计的prompt(提示指令)和有监督训练的前提下,大语言模型固有的偏见(大模型在处理数据时表现出的某种偏好或倾向性)和幻觉(大模型产生的响应不准确或捏造信息)等问题仍可能会给数据集引入噪声。而在错误的、有幻觉的或有偏见的合成数据基础上训练的大语言模型,会无法泛化到现实世界场景。建立在合成数据基础上的大语言模型需要避免被机器学习“污染”,而训练数据中合成数据的占比越大,自然语言理解能力就越不容易提升。


合成数据的泛化能力不足,存在边界。斯坦福教授Percy Liang指出,合成数据缺乏珍贵的“人性”,以至于基于合成数据训练的大模型并不足以达到通用人工智能(Artificial General Intelligence,AGI)。更为重要的是,合成数据可以用来验证或扩展人类已经知道的领域,却无法揭示初始数据集中不存在的领域,它的边界就是初始数据集的边界。


合成数据需要人为清洗和格式化,此过程成本不明确。合成数据并不可直接使用,研究人员需将生成的数据进行清洗和格式化,去除重复内容、修正格式错误,以确保它们符合训练的需要。Meta开发了一系列数据过滤管道来优化Llama 2生成的合成数据以确保用于训练Llama 3的数据质量。这些管道包括使用启发式过滤器、NSFW过滤器、语义重复数据删除方法和文本分类器来预测数据质量。但是这一过程到底花费了多少人力、多少时间并未公布。因此,尽管合成数据确实会比真实数据更便宜,但剔除不合格的合成数据到底需要花费多少成本还是未知数。


合成数据多次迭代后会使大模型崩溃。根据斯坦福大学和麻省理工发布的一项研究,当大模型在自己生成的输出上进行训练时,这种循环会导致一种被称为模型崩溃的现象,在这种现象下,随着每次模型数据的反馈迭代,大模型的性能逐渐下降,直到拟合的模型变得无用。


2.3.2 解决方案一:诱导幻觉

大模型的幻觉属性可能会对合成数据引入噪声。苏州大学计算机科学与技术学院人工智能研究所与腾讯人工智能实验室在论文《通过诱导幻觉缓解大型语言模型的幻觉》中提出了一种简单的“诱导-对比解码”(Induce-then-Contrast Decoding,ICD)策略可以有效减轻大模型的幻觉。


“诱导-对比解码”策略具体来说,就是通过诱导原始LLM产生幻觉,构建一个带有幻觉的对比模型(恶意LLM)。然后,对比原始LLM和恶意LLM的输出,惩罚恶意模型中出现的幻觉,从而增强原始LLM生成内容的真实性。



文章中提到的“诱导-对比解码”方法可以有效地提高不同模型大小和家族的LLMs(大语言模型)的真实性。例如,当配备ICD时,Llama2-7B-Chat和Mistral-7B-Instruct分别在TruthfulQA(一种基于歧视的幻觉评估基准)上实现与ChatGPT和GPT4相当的性能。



2.3.3 解决方案二:加入数据评估机制


Nvidia发布的模型Nemotron-4 340B是针对NVIDIA NeMo和NVIDIA TensorRT-LLM优化的模型系列,包括尖端的指导和奖励模型,以及用于生成式AI训练的数据集。


开发人员可以使用Nemotron-4 340B奖励模型来筛选高质量的响应,以此提高AI生成数据的质量。Nemotron-4 340B根据五个属性对回答进行评分:有用性、正确性、连贯性、复杂性和详细性。它目前在Hugging Face RewardBench排行榜上排名第一,该排行榜由AI2创建,用于评估奖励模型的能力、安全性和缺陷。


此外研究人员还可以结合他们的专有数据和包含的HelpSteer2数据集来定制Nemotron-4 340B Base模型,创建自己的指令或奖励模型。



2.3.4 解决方案三:在训练过程中积累数据

斯坦福大学和麻省理工的一项研究表明,在原始真实数据旁边积累连续几代的合成数据可以避免模型崩溃,并且此结论适用于各种大小模型、体系结构和超参数(机器学习中事先给定的,用来控制学习过程的参数)。



随着模型拟合迭代次数的增加,如果数据被替换,测试误差会逐渐增大;如果数据累积,测试误差波动较小,并且有一个有限的上界,波动幅度与迭代次数无关,这意味着模型不再发生崩溃。




“合成数据+强化学习”,o1或确认大模型进化新范式

根据OpenAI工程师Jason Wei,o1使用了强化学习(RL)做思维链(Chain of Thought)来训练模型;思维链可以使模型在推理阶段实现能力增强,即Scaling Law(指大模型随着参数的增大而增强能力)可以不止出现在训练阶段。这里我们所说的强化学习(RL),指模型A生成推理结果后,由模型B给推理结果打分,帮助模型A不断调整参数、迭代、进化,分成RLAIF(基于AI反馈的强化学习)和RLHF(基于人类反馈的强化学习)多种,后者曾因被用于ChatGPT而名声大噪。


我们认为,o1系列的惊艳面世,或许不仅是确认了合成数据的重要性,还意味着大模型对强化学习的倚重,而在强化学习中,我们注意到,RLAIF(基于AI反馈的强化学习)逐渐成为当前大模型的热门选择,相较于RLHF(基于人类反馈的强化学习),需要的人类标注较少,适合代码、数学等有客观评价标准的领域。


我们注意到除了上文提到的Claude 3.5 Sonnet,已经有多个领先大模型不仅使用了合成数据,还将其进一步用于RLAIF(基于AI反馈的强化学习),并取得了亮眼表现。我们推测,RLAIF或许也是o1在代码、数学等问题上表现更好的原因。


3.1 Meta Llama 3:使用合成数据和RLAIF训练


7月24日,Meta 发布了其最先进的开源大语言模型——Llama 3.1系列,其中就包括首个“前沿级”开源模型——Llama 3.1 405B。据介绍,Llama 3.1 405B 具有强大的灵活性、控制性和最先进的功能,可与 GPT-4o、Claude 3.5 Sonnet 等最优秀的闭源模型相媲美。Meta认为,最新一代的 Llama 将点燃新的应用和建模范式,包括生成合成数据以改进和训练更小的模型,以及模型提炼——这是开源软件从未达到过的能力。


Llama 3.1完全基于合成数据,使用自我奖励语言模型进行训练。Meta的AI研究员Thomas Scialom博士称,Meta的Llama 3开源大模型在训练中并没有依赖任何人类编写的答案,而是完全基于Llama 2生成的合成数据。Meta将使用合成数据进行训练的大模型称为自我奖励语言模型(Self-Rewarding Language Models),也就是大模型本身生成训练数据,并评估这些数据的质量,然后用这些数据来自己训练自己。


自我奖励语言模型实际上就是所谓的“基于AI反馈的强化学习(RLAIF)”的应用,Meta的具体操作是先基于少量人工标注数据预训练一个初始模型,然后再让初始模型基于问题生成多个候选回复,并使用吴恩达博士提出的LLM-as-a-Judge方式,让大语言模型对自己生成的回复打分,并根据打分形成新的训练数据,从而继续训练模型。该过程是迭代的,在每次迭代中模型的遵循指令能力和打分能力都会提升。



Llama 3.1 405B 具有强大的操作性和先进的功能,可与 GPT-4oClaude 3.5 Sonnet 相媲美。针对 Llama 3.1 系列模型,Meta 评估了 150 多个基准数据集的性能,这些数据集涵盖了多种语言。此外,他们还进行了广泛的人工评估,将 Llama 3.1 与其他竞争模型进行了比较。实验评估结果表明,Llama 3.1 405B 在常识、可操作性、数学、工具使用和多语言翻译等一系列任务中,都能与 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 相媲美。在现实场景中,Llama 3.1 405B进行了与人工评估的比较,其总体表现优于GPT-4o和Claude 3.5 Sonnet。


升级后的Llama 3.1 8B和70B模型,相比于同样参数大小的模型性能表现也更好,这些较小参数的模型支持相同的128K Tokens上下文窗口、多语言、改进的推理和最先进的工具使用。以支持实现更高级应用。此外,Llama 3.1 的小型模型与参数量相近的模型相比也具有竞争力。




3.2 英伟达 Nemotron-4 340B:合成数据神器和RLAIF,表现卓越


6月14日,英伟达宣布推出开源通用模型 Nemotron-4 340B。它包含一系列开放模型,为开发人员提供了一种免费、可扩展的方式来生成合成数据,从而帮助人们构建强大的LLM,可用于医疗健康、金融、制造、零售等所有行业的商业应用。该模型系列包括基础模型、指令模型和奖励模型,支持50多种自然语言和40多种编程语言,训练数据高达9万亿个token。Nemotron-4 340B不仅在常识推理、指令跟随和奖励模型方面表现出色,还通过生成高质量合成数据,降低了大模型训练成本。


Nemotron-4 340B 包括基础模型Base、指令模型Instruct和奖励模型Reward,构建了一个高质量合成数据生成的完整流程,用于生成训练和改进 LLM 的合成数据。其中Instruct 模型创建了多样化的合成数据,模仿了现实世界数据的特征,有助于提高数据质量,从而提高自定义 LLM 在各个领域的性能。


Nemotron-4 340B在各项任务中表现出色,性能超越Llama 3。


具体来说:Nemotron-4 340B Base模型在常识推理任务,如 ARC-Challenge、MMLU 和BigBench Hard 基准测试中,可以和 Llama-3 70B、Mixtral 8x22B 和 Qwen-2 72B 模型媲美。而Nemotron-4 340B Instruct,在指令跟随和聊天能力方面也超越了相应的指令模型。Nemotron-4 340B Reward在RewardBench上实现了最高准确率,甚至超越了GPT-4o-0513和Gemini 1.5 Pro-0514 等专有模型。


此外,Nemotron-4 340B Instruct在 Arena-Hard-Auto 等硬基准测试中超越了Llama-3-70b,具备很强的竞争力。




3.3 微软Orca-3:智能体框架Agent Instruct,生成式教学


为了解决训练数据短缺和质量差的难题,微软研究院发布了一个专门用于生成高质量合成数据的的智能体框架——AgentInstruct,能够自动创建大量、多样化的合成数据。它最大的优势在于,仅只用原始数据源,就能创建完整的提示和回应。


借助智能体框架,对训练模型进行生成式教学。微软团队在<AgentInstruct: Toward Generative Teaching with Agentic Flows>论文中提到“生成式教学”的概念,即使用合成数据进行后训练,特别是通过强大的模型创建数据,来教另一个模型新技能或行为,而AgentInstruct则是生成式教学的一个智能体解决方案。


具体的训练途径为:AgentInstruct首先收集各种原始数据种子,如教科书章节、网络文章、代码片段等,然后通过Content Transformation Agents智能体将原始的种子材料转换成一种中间形式,这种形式简化了后续步骤中针对具体目标创建指令的过程。在种子指令创建流程中,Instruction Creation Agents智能体会进一步处理这些经过初步转换的内容,创造出多样化的指令。该阶段的目标是生成一系列具有挑战性且多样的任务,从而让模型在训练过程中接触到尽可能多的不同类型的任务。


与原始的Mistral-7b-Instruct相比,Orca-3在多个基准测试中都显示出显著的性能提升。研究人员通过Agent Instruct自动生成了2500万个配对的高质量合成数据集,包含文本编辑、创意写作、编程、阅读理解等,再用生成的数据对Mistral-7b模型进行了训练、微调,开发了Orca-3模型。在一系列基准测试中,Orca-3相比原本的Mistral-7b-Instruct的模型性能提升明显,例如在AGIEval上提升了40%,MMLU上提高了19%,GSM8K上进步了54%,BBH上提升了38%,AlpacaEval上提升了45%。同时,Orca-3在多项指标上也超越了LLAMA-8B-instruct和GPT-3.5-turbo等其他模型。



就阅读理解任务来说,通过使用AgentInstruct进行针对性训练,Orca-3的阅读理解能力有了实质性的提升——相比Orca 2.5提高了18%,相对于Mistral-Instruct-7b提高了21%。


而在数学方面, Orca-3在各种流行的数学基准测试上,改进幅度从44%-168%不等。




投资建议OpenAI揭示的推理Scaling Law利好算力板块

根据OpenAI工程师Jason Wei,o1在强化学习(RL)中使用的思维链(Chain of Thought)可以使模型在推理阶段实现能力增强,即Scaling Law(指大模型随着参数的增大而增强能力)可以不止出现在训练阶段,也出现在推理阶段。


进一步,根据OpenAI,o1模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现随着训练和测试计算量的增长而变得更好,这表明o1“推理时,在响应用户前,思考更多”有助于让o1表现更好,这正是推理Scaling Law。


我们认为,o1的发布并不是大模型的终点,而是开拓了新的道路,即:1、大模型的准确率还能继续提高;2、“合成数据+强化学习”是一条值得探索的路径;3、推理能力的增强为垂类应用落地奠定了基础。这一切都表明AGI的创新“叙事”还在继续、天花板仍在提高,这有助于打破投资界过往的担忧,即“推理需要的算力比训练少,当大模型的进化转向推理,算力板块承压”;相反,推理Scaling Law仍然利好算力板块。


前期海外宏观的冲击及英伟达新品推迟的影响下,板块已有所回调,随着半年报业绩落地,市场普遍认可了龙头公司业绩释放节奏,但对行业仍显信心不足,“合成数据+强化学习”将推动AGI的未来叙事,建议关注:

1)光模块产业链:中际旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等;

2)液冷服务商:英维克;

3)PCB服务商:沪电股份等;

4)AIDC:润泽科技等。





风险提示

大模型算法进展不及预期。训练Scaling Law天花板和推理Scaling Law的有效性有待进一步验证;强化学习和思维链(CoT)有效性有待进一步验证。


大模型应用落地不及预期。市场始终期待大模型应用的Killer App,而产业发展可能跟不上市场期待;ChatGPT、Midjourney、Stable Diffusion后可能缺少有力的多模态或具身智能应用。


全球宏观经济下行风险。当前全球经济发展存在衰退的可能性,如果主要经济体衰退发生,则市场对AI的需求存在下行风险。

本文节选自国盛证券研究所已于2024年9月19日发布的报告《国盛通信·深度|“合成数据+强化学习”:大模型进化的新范式》,具体内容请详见相关报告。


宋嘉吉  S0680519010002   songjiaji@gszq.com

孙爽     S0680521050001   sunshuang@gszq.com


吉时通信
连通资本与实业,关注大通信业变迁趋势!及时的行业资讯、投研观点分享
 最新文章