先关注 再观看 不迷路 ↓
OpenAI 连续12天发布会,第二天依旧是短平快
也是短短20分钟结束,但比第一天略长
相比第一天的o1模型和Pro会员引发朋友圈、社交媒体、群聊的吐槽和大讨论
今天发布的东西可以说是无人问津,几乎群聊没人在聊
但其实今天发的东西对普通人来说可能几乎没用处,对开发者、企业、科研领域来说可谓是王炸更新!
OpenAI 首席执行官山姆·奥特曼对此表示:
“效果一级棒,是我2024年最大的惊喜,期待看到人们构建什么!”
那么,这项技术究竟是什么,它带来了哪些变革,又如何改变我们的认知?
接下来,深入说说,昨晚到底更新了什么...
OpenAI昨晚发布了一种叫强化微调(Reinforcement Fine-Tuning, RFT)的技术。
先听听发布会中原话解释它是什么?
“再次强调,这不是传统的微调。
这是强化微调,它真正利用了强化学习算法,将我们的模型从高中学生水平提升到了专家博士水平。”
也就是说通过强化微调你可以轻松的将现有的模型直接训练成特定领域的专家。
什么意思呢?
就是不论是GPT4o模型还是o1模型,它在综合能力上都是很强没问题的,但是一旦你想要处理一些专业领域的问题,比如法律、医疗、金融、科研等专业领域的问题,它的水平可能无法满足这些领域的专业需求。
那么就需要通过专业的训练来让它能适应特定领域的需要。
但是其实呢GPT已经从大量通用数据中学习了广泛的知识,涵盖多个领域如果你再去重新训练其实是浪费。
专业领域问题通常需要深度领域知识、推理能力和对领域规则的精准理解。 通用模型虽然有基础知识,但由于没有明确的任务或领域指导,其回答可能不够准确或深入。
通过强化微调优化模型:
使用少量高质量的专业领域数据,让模型明确“这个领域的任务是什么”。 模型学会在特定领域中如何运用已有的知识,结合强化学习算法优化推理路径。 例如,通过简单的专业任务训练,模型可以从“法律知识库”转化为“法律助手”,从“医学基础知识”转化为“医学诊断专家”。
强化微调的核心概念和优势
具体任务是什么? 领域中的规则和需求是什么? 如何高效调用已掌握的知识解决问题? 重点不是让模型“学习更多新知识”,而是让模型理解: 这种训练类似于“指路”:通过少量示例,指导模型如何在特定情境中使用已有能力。
强化微调技术原理
传统监督微调与强化微调的区别
监督微调: 模型通过大量输入示例学习输入特征。 优化模型的语气、风格和输出格式。 强化微调: 强化微调允许模型学习“推理新领域中的逻辑”,而不仅是模仿输入特征。 通过“奖励”正确答案的逻辑路径、“惩罚”错误答案的逻辑路径,逐步优化模型的表现。 可用极少的数据示例(例如几十个)实现显著提升。
强化学习具体流程
输入问题和相关数据:
例如一组病例报告,包含患者的症状和排除的症状。
输出答案并附带推理逻辑,例如从症状列表中推断可能的基因病因。
比较模型输出与标准答案,对生成的答案评分(范围0-1)。 对正确答案给予高分,对错误答案施以低分或零分。 评分结果用于优化模型推理路径。
对正确的答案给予奖励,鼓励它不断学习,强化模型学习正确逻辑 反反复复通过多次训练,不断强化正确的逻辑,减弱错误逻辑。 最终提高模型的推理能力。
只需几十个高质量的示例即可显著提升模型性能,这在大语言模型训练中是革命性的,传统方法通常需要大规模数据。 强化微调不仅模仿输入特征,还能学习新领域中的推理逻辑。 模型能够分析问题,提出可能的解决方案,并优化回答的准确性和逻辑性。 用户只需提供数据集和评分器,其余的训练和优化工作由OpenAI基础设施完成。 能够在不同领域实现模型的个性化和专业化。
具体案例
案例 1:法律领域 - 与Thomson Reuters的合作
利用强化微调技术,优化O1 Mini模型,使其适应复杂的法律工作流程。 模型在提供法律咨询、分析法律文件和辅助决策等方面表现出色。
案例 2:医学领域 - 罕见遗传病的基因致病分析
研究目标:开发基于O1 Mini模型的AI工具,用于推断患者症状背后的致病基因。缩短患者从症状到确诊的漫长过程,提高诊断效率。在给定症状列表的情况下,模型预测可能导致罕见遗传疾病的基因,并解释为什么选这些基因。 数据集构建:从数百篇科学文献的病例报告中提取信息,内容包括:
在强化微调的实验中,实验人员通过对比 三种模型 的表现来评估强化微调的效果。这三种模型分别是:
o1(基础模型):最新发布的未经过微调的 o1 模型。
o1 Mini(精简版本):未经过微调的 o1 Mini 模型,是一个更小、更快、更廉价的版本。
强化微调后的 o1 Mini:使用强化微调方法在特定任务数据集上优化的 o1 Mini 模型。
实验人员使用以下三项指标评估模型的性能:
Top 1(首位准确率):模型一次性答对的概率;
Top 5(前五准确率):模型前五次预测中有正确答案的概率
Top Max(最大准确率):模型预测中有正确答案的概率(位置不限)。
实验结果:o1 mini的强化微调版,战胜了昨天刚发布的o1(基础版)。
强化微调后的 o1 Mini 模型在特定任务中表现出更强的推理能力。
强化微调后的 o1 Mini 在所有指标上都显著优于未微调版本,甚至在某些指标上接近或超过 o1(基础模型)的表现。 尤其是 Top 1 准确率从 17% 提升到 31%,证明了微调有效增强了模型的任务适应性。 Top@5(正确答案在前五名中的准确率)和Top@Max(正确答案是否在列表中)同样显著提升。分别从 35% 提升到 62%,从 50% 提升到 85%。
强化微调后的 o1 Mini 模型保留了“小型化”的优势(更快、更便宜),同时在性能上实现了显著提升。 它甚至接近或超过未微调的 o1(基础模型),展示了强化微调的潜力。
强化微调RFT不仅适用于科学研究,还可扩展至AI安全、化学、生物信息学等领域。
等等,其实强化微调这个概念最早其实是字节跳动提出来的
在今年的ACL 2024(这是自然语言处理(NLP)和计算语言学领域最重要的国际学术会议)顶会上字节跳动发表了一篇“REFT: Reasoning with REinforced Fine-Tuning”的ReFT论文。
提出了Reinforced Fine-Tuning (ReFT)的 方法,通过引入强化学习来增强模型的推理能力。
字节跳动的研究人员发现只让模型学一种固定的解题路径(如思维链),限制了它的潜力。
比如,一个数学题可能有三种解法,但训练时模型只学了一种。这就好比让你学数学时只看一种答案解析,遇到变化稍大的题目时,你可能就不会解了。
所以,他们提出了一种新方法,叫强化微调(ReFT),它可以让模型在训练时自己去探索多种解题路径,并从中学习哪种更优。这样,模型就像是多看了不同的答案解析,更灵活、更聪明了。
ReFT是怎么做到的?
基础训练(Warm-Up):
先用传统方法(SFT)训练模型,让它初步学会解题,能给出正确答案。 类似于让学生先看基本的解题方法,打个基础。
接下来,让模型自己试着去探索多种解题路径,比如给一个题目,它试着推导出不同的思路。 如果推导出的答案正确,就给它奖励;如果错了,就不给奖励。 奖励机制是自动的,模型只需要看最终答案对不对,不需要人来打分。
有什么特别之处?
多种解法训练:
和传统方法不同,ReFT会引导模型探索多个正确的解题路径,而不是只学一种。 比如,你会“代入法”解方程,ReFT还会让你学“消元法”,甚至自己尝试组合两种方法。
它的奖励是基于答案对不对,而不是对每一步推导都评分。这省去了人工标注的麻烦,同时模型可以专注于得到正确答案。
ReFT在原有训练数据的基础上进行优化,不需要额外生成新的训练题目。
强化微调的意义
与大模型结合:大语言模型的能力可以通过强化微调进一步细化和专精。 智能化升级:在未来,强化微调可能成为构建智能系统的重要组成部分,比如动态适应用户需求、自动优化任务等。 适配性强:无论是法律、金融、医疗还是工程领域,强化微调都可以优化模型,使其成为某一领域的“专家”。 快速学习能力:只需少量高质量的样本(几十到几百个),模型就能快速适应新的领域,这极大降低了定制成本。 泛化能力:模型学到的知识和推理方法可以应用于未见过的验证数据,证明其并非仅仅“记住”训练样本,而是真正学会了推理。
不过目前OpenAI只开放了alpha测试,强化微调功能要等2025年春季才能正式发布。
目前可以提交申请排队...
申请入口:https://openai.com/form/rft-research-program/
发布会完整中文视频(翻译:宝玉老师 X @dotey)
加入XiaoHu.ai 日报社群 每天获取最新的AI信息
____________
点赞,转发,关注关注关注!