轻松打造出各种AI专家 OpenAI 昨晚王炸更新灵感竟来自字节论文

文摘 2024-12-07 16:18 新加坡

先关注再观看不迷路 ↓

OpenAI 连续12天发布会，第二天依旧是短平快

也是短短20分钟结束，但比第一天略长

相比第一天的o1模型和Pro会员引发朋友圈、社交媒体、群聊的吐槽和大讨论

今天发布的东西可以说是无人问津，几乎群聊没人在聊

但其实今天发的东西对普通人来说可能几乎没用处，对开发者、企业、科研领域来说可谓是王炸更新！

OpenAI 首席执行官山姆·奥特曼对此表示：

“效果一级棒，是我2024年最大的惊喜，期待看到人们构建什么！”

那么，这项技术究竟是什么，它带来了哪些变革，又如何改变我们的认知？

接下来，深入说说，昨晚到底更新了什么...

OpenAI昨晚发布了一种叫强化微调（Reinforcement Fine-Tuning, RFT）的技术。

先听听发布会中原话解释它是什么？

“再次强调，这不是传统的微调。

这是强化微调，它真正利用了强化学习算法，将我们的模型从高中学生水平提升到了专家博士水平。”

也就是说通过强化微调你可以轻松的将现有的模型直接训练成特定领域的专家。

什么意思呢？

就是不论是GPT4o模型还是o1模型，它在综合能力上都是很强没问题的，但是一旦你想要处理一些专业领域的问题，比如法律、医疗、金融、科研等专业领域的问题，它的水平可能无法满足这些领域的专业需求。

那么就需要通过专业的训练来让它能适应特定领域的需要。

但是其实呢GPT已经从大量通用数据中学习了广泛的知识，涵盖多个领域如果你再去重新训练其实是浪费。

专业需求与模型的限制：

专业领域问题通常需要深度领域知识、推理能力和对领域规则的精准理解。
通用模型虽然有基础知识，但由于没有明确的任务或领域指导，其回答可能不够准确或深入。

所以其实只我们需要一些简单的训练来让模型知道它具体要干什么？这个领域的要求什么？我应该怎么做？直接调用已经训练好的知识和能力来解决专业问题！

通过强化微调优化模型：

使用少量高质量的专业领域数据，让模型明确“这个领域的任务是什么”。
模型学会在特定领域中如何运用已有的知识，结合强化学习算法优化推理路径。
例如，通过简单的专业任务训练，模型可以从“法律知识库”转化为“法律助手”，从“医学基础知识”转化为“医学诊断专家”。

强化微调的核心概念和优势

核心思路：

具体任务是什么？
领域中的规则和需求是什么？
如何高效调用已掌握的知识解决问题？
重点不是让模型“学习更多新知识”，而是让模型理解：
这种训练类似于“指路”：通过少量示例，指导模型如何在特定情境中使用已有能力。

强化微调技术原理

传统监督微调与强化微调的区别

监督微调：

模型通过大量输入示例学习输入特征。
优化模型的语气、风格和输出格式。

强化微调：

强化微调允许模型学习“推理新领域中的逻辑”，而不仅是模仿输入特征。
通过“奖励”正确答案的逻辑路径、“惩罚”错误答案的逻辑路径，逐步优化模型的表现。
可用极少的数据示例（例如几十个）实现显著提升。

强化学习具体流程

输入问题和相关数据：

例如一组病例报告，包含患者的症状和排除的症状。

模型生成初步回答：

输出答案并附带推理逻辑，例如从症状列表中推断可能的基因病因。

评分机制（Grader）：

比较模型输出与标准答案，对生成的答案评分（范围0-1）。
对正确答案给予高分，对错误答案施以低分或零分。
评分结果用于优化模型推理路径。

优化与迭代：

对正确的答案给予奖励，鼓励它不断学习，强化模型学习正确逻辑
反反复复通过多次训练，不断强化正确的逻辑，减弱错误逻辑。
最终提高模型的推理能力。

强化微调优势：

只需几十个高质量的示例即可显著提升模型性能，这在大语言模型训练中是革命性的，传统方法通常需要大规模数据。
强化微调不仅模仿输入特征，还能学习新领域中的推理逻辑。
模型能够分析问题，提出可能的解决方案，并优化回答的准确性和逻辑性。
用户只需提供数据集和评分器，其余的训练和优化工作由OpenAI基础设施完成。
能够在不同领域实现模型的个性化和专业化。

具体案例

案例 1：法律领域 - 与Thomson Reuters的合作

Thomson Reuters作为法律科技领域的领导者，与OpenAI合作，将强化微调应用于法律助手开发。

利用强化微调技术，优化O1 Mini模型，使其适应复杂的法律工作流程。
模型在提供法律咨询、分析法律文件和辅助决策等方面表现出色。

成果：

通过强化微调，模型能够更精准地识别复杂法律问题的核心要素。

法律助手显著提高了律师处理复杂案件的效率，减少了人工分析的时间成本。

数据集基于大量法律文档，通过强化学习训练模型，使其能在推理复杂法律问题时表现出更高的逻辑性和准确性。

案例 2：医学领域 - 罕见遗传病的基因致病分析

OpenAI与伯克利实验室（Berkeley Lab）、德国Charité医院以及Monarch Initiative合作，研究罕见遗传病的基因致病机理。

全球约有3亿人受到罕见遗传病的影响，单一疾病可能稀有，但总量却相当庞大。

研究目标：开发基于O1 Mini模型的AI工具，用于推断患者症状背后的致病基因。缩短患者从症状到确诊的漫长过程，提高诊断效率。在给定症状列表的情况下，模型预测可能导致罕见遗传疾病的基因，并解释为什么选这些基因。
数据集构建：从数百篇科学文献的病例报告中提取信息，内容包括：

数据集包含1,100个训练示例和独立验证集，确保模型通过推理而非记忆完成任务。

在强化微调的实验中，实验人员通过对比三种模型的表现来评估强化微调的效果。这三种模型分别是：

o1（基础模型）：最新发布的未经过微调的 o1 模型。
o1 Mini（精简版本）：未经过微调的 o1 Mini 模型，是一个更小、更快、更廉价的版本。
强化微调后的 o1 Mini：使用强化微调方法在特定任务数据集上优化的 o1 Mini 模型。

实验人员使用以下三项指标评估模型的性能：

Top 1（首位准确率）：模型一次性答对的概率；
Top 5（前五准确率）：模型前五次预测中有正确答案的概率
Top Max（最大准确率）：模型预测中有正确答案的概率（位置不限）。

实验结果：o1 mini的强化微调版，战胜了昨天刚发布的o1（基础版）。

强化微调的效果显著：

强化微调后的 o1 Mini 模型在特定任务中表现出更强的推理能力。
强化微调后的 o1 Mini 在所有指标上都显著优于未微调版本，甚至在某些指标上接近或超过 o1（基础模型）的表现。
尤其是 Top 1 准确率从 17% 提升到 31%，证明了微调有效增强了模型的任务适应性。
Top@5（正确答案在前五名中的准确率）和Top@Max（正确答案是否在列表中）同样显著提升。分别从 35% 提升到 62%，从 50% 提升到 85%。

成本与性能平衡：

强化微调后的 o1 Mini 模型保留了“小型化”的优势（更快、更便宜），同时在性能上实现了显著提升。
它甚至接近或超过未微调的 o1（基础模型），展示了强化微调的潜力。

这表明，通过少量领域数据和强化学习技术，较小规模的模型也能达到高水平的领域适配性能，适合成本敏感型的实际应用场景。

研究人员评价：模型在验证数据上的表现表明，它学会了推理而非记忆。模型推理能力强大，能够有效补充现有的生物信息学工具。

强化微调的核心价值就在于高效地将模型的广泛能力与具体任务需求对接，通过少量训练“告诉模型该怎么做”，从而提升其在专业场景中的表现。

强化微调RFT不仅适用于科学研究，还可扩展至AI安全、化学、生物信息学等领域。

等等，其实强化微调这个概念最早其实是字节跳动提出来的

在今年的ACL 2024（这是自然语言处理（NLP）和计算语言学领域最重要的国际学术会议）顶会上字节跳动发表了一篇“REFT: Reasoning with REinforced Fine-Tuning”的ReFT论文。

提出了Reinforced Fine-Tuning (ReFT)的 方法，通过引入强化学习来增强模型的推理能力。

字节跳动的研究人员发现只让模型学一种固定的解题路径（如思维链），限制了它的潜力。

比如，一个数学题可能有三种解法，但训练时模型只学了一种。这就好比让你学数学时只看一种答案解析，遇到变化稍大的题目时，你可能就不会解了。

所以，他们提出了一种新方法，叫强化微调（ReFT），它可以让模型在训练时自己去探索多种解题路径，并从中学习哪种更优。这样，模型就像是多看了不同的答案解析，更灵活、更聪明了。

ReFT是怎么做到的？

它分两个阶段：

基础训练（Warm-Up）：

先用传统方法（SFT）训练模型，让它初步学会解题，能给出正确答案。
类似于让学生先看基本的解题方法，打个基础。

强化学习（Reinforcement Learning）：

接下来，让模型自己试着去探索多种解题路径，比如给一个题目，它试着推导出不同的思路。
如果推导出的答案正确，就给它奖励；如果错了，就不给奖励。
奖励机制是自动的，模型只需要看最终答案对不对，不需要人来打分。

这个过程用了一种强化学习算法（PPO），让模型在探索不同路径时不会偏离太远，始终围绕正确解法进行改进。

看看是不是和OpenAI的强化学习描述一毛一样？？？

有什么特别之处？

多种解法训练：

和传统方法不同，ReFT会引导模型探索多个正确的解题路径，而不是只学一种。
比如，你会“代入法”解方程，ReFT还会让你学“消元法”，甚至自己尝试组合两种方法。

奖励机制简单高效：

它的奖励是基于答案对不对，而不是对每一步推导都评分。这省去了人工标注的麻烦，同时模型可以专注于得到正确答案。

无需额外数据：

ReFT在原有训练数据的基础上进行优化，不需要额外生成新的训练题目。

测试结果显示

ReFT的表现显著优于传统方法。在GSM8K数据集上，模型的解题正确率从SFT的约63%提高到了81%。

如果结合一些推理阶段的技巧，比如“多数投票”（让模型多次解题并选出最常见的答案）或者“重排序”（用奖励模型选出最优答案），ReFT的效果会更好。

论文：https://arxiv.org/pdf/2401.08967

强化微调的意义

强化微调开启新一代AI模型的训练方式，不仅是模型性能提升的工具，还可能引领未来 AI 模型的定制化发展方向。

与大模型结合：大语言模型的能力可以通过强化微调进一步细化和专精。
智能化升级：在未来，强化微调可能成为构建智能系统的重要组成部分，比如动态适应用户需求、自动优化任务等。
适配性强：无论是法律、金融、医疗还是工程领域，强化微调都可以优化模型，使其成为某一领域的“专家”。
快速学习能力：只需少量高质量的样本（几十到几百个），模型就能快速适应新的领域，这极大降低了定制成本。
泛化能力：模型学到的知识和推理方法可以应用于未见过的验证数据，证明其并非仅仅“记住”训练样本，而是真正学会了推理。

OpenAI推出的强化微调技术标志着人工智能定制新时代已然来到。它通过简化开发流程以及精准调整，为企业及研究人员营造出一个全新的智能环境。

从法律到生物医学，应对复杂问题时，这种定制能力可以使得专家模型能够低成本的轻松应用到各行各业。

甚至未来可能你自己都能自己定制化一个自己的模型！

不过目前OpenAI只开放了alpha测试，强化微调功能要等2025年春季才能正式发布。

目前可以提交申请排队...

申请入口：https://openai.com/form/rft-research-program/

发布会完整中文视频（翻译：宝玉老师 X @dotey）

加入XiaoHu.ai 日报社群每天获取最新的AI信息

____________

End.

感阅

谢读

点赞，转发，关注关注关注！

小互AI

XiaoHu.AI 学院（http://xiaohu.ai）学习如何让AI为你服务。加入小互AI学院，获取最新AI资讯、案例、项目、教程。学习如何使用AI...

最新文章

小互AI年度总结：2024重大AI技术和超实用AI工具盘点...

中学生都能看懂：10 分钟搞懂ChatGPT的工作原理...

深度评测| 豆包全新视觉理解模型能力强到飞起能跨模态和你一起协作

真正实现说话就能PS图片 Gemini 2.0混合多模态能力展示

OpenAI 新功能 Project 评测及教程

AI 进入智能代理时代：一文深度了解Google 最新 AI 模型 Gemini 2.0模型到底有多强

教程：通过AI生成可爱中文图像海报和手绘菜单路边广告设计作坊要倒闭

Runway 又更新了现在可以将你的表演、声音转移到其他视频角色身上

轻松打造出各种AI专家 OpenAI 昨晚王炸更新灵感竟来自字节论文

微软推出炸裂的Copilot Vision 功能可实时监控你的上网行为随时提供AI帮助

更快、更聪明 OpenAI发布了正式版o1和o1 Pro推理模型（内涵发布会中文视频完整版）

真正的AI搜索引擎能够完全理解你的意思并直接输出你要的结果

深度评测 | 1000亿搞出来的AI搜索到底靠不靠谱？？？

Google开发出能像Photoshop一样将视频智能分解成多个图层的视频编辑技术

评测教程 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

评测 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

只需在图像上画几笔即可轻松编辑图像支付宝推出AI驱动的智能图像编辑系统

GetPickle AI：克隆一个你的替身让他帮你开会而你可以逍遥自在...

你们拿来天天办公交差，人家却用来搞副业入账百万...hhh

OpenAI 官方发布： ChatGPT 学生写作指南指导学生如何正确使用GPT

炸裂：P图软件将全部倒闭字节跳动发布AI图像编辑工具只需一句话即可实现全自动P图

ChatGPT 帮我制定护肤方案 2个月让我的皮肤变成了这样...

Siri 可以实时读取你屏幕信息并执行操作苹果正式推出集成 Siri 和 Apple Intelligence新框架

字节跳动发布只需你的一张照片即可将任意视频角色的表情和动作转移到你身上

一句话手机自动帮你点外卖、订酒店买东西智谱 AI 这次真的是国际领先了

Runway 新工具：人人都可拍动画片可以把视频转换成任意风格虚拟角色动画并且保持表情语音口型同步

Anthropic 发布一项炸裂的新功能 AI 可以模仿人类访问电脑帮你自动干活

让美女转身成为可能 Adobe 推出全新AI 工具可以像旋转3D 对象一样旋转 2D 图像

全球首创桌面双轮足式AI机器人接入了ChatGPT 能跑、能看、能说、倒不了...

让你的蓝牙耳机永不断电通过你的“皮肤来供电” 让可穿戴设备没有电池也能工作

教你如何激活GPTSearch 并将 Chrome 浏览器默认搜索引擎替换成 GPTSearch

学习“神器”来了！把任何书本上的图表、公式变成互动实验，物理知识轻松掌握！

超好玩的创意图像模型：用一张卡通图片总结4张真实人物照片

Anthropic CEO ：5到10年内 AI将助力人类扫除几乎所有疾病人类寿命有望翻倍达到150岁

超完整：特斯拉We Robot 发布会全纪录：完全无人驾驶出租车、Optimus 机器人、Robovan（机器人巴士）

小白也能开发应用：AI 帮你自动写代码自动运行并自动部署而且全部在浏览器中完成

哈佛大学俩学生开发出一种 AI 眼镜看你一眼即可扒光你的所有个人信息

OpenAI 旧金山开发者大会发布五大创新功能实时语音、视觉微调、模型蒸馏...

3.17亿粉丝全球第一网红 MRBEAST 公司内部培训手册曝光教你如何制造爆款内容

通过AI聊天直接一键生成你的专属古诗词卡片（附 Prompt及教程）

使用AI聊天一键生成高颜值社交名片全解析（附 Prompt及教程）

Google发布全球 185 个各大企业的生成式 AI 实际应用落地案例

OpenAI 首席科学家MIT演讲：揭示 o1模型训练核心秘密激励模型学习是培养 AGI 的最佳方式

无需开颅手术将 ChatGPT 整合到脑机系统中控制电脑等各种设备

小互AI 日报：字节跳动开发出端到端语音同步翻译系统、卡内基梅隆大学教授：“人类需要进入高度戒备状态！”

Perplexity 联合创始人兼产品主管揭秘该公司借助AI形成的独特产品开发方法

小互AI日报：复旦大学开发出类似GPT 4o的端到端语音对话模型、Udio V1.5版中文音乐提升、Bing推出生成式搜索...

小互AI日报：Meta AI研究员：网络上的文本都是“狗屎”Llama3全部使用合成数据、Mistral发布123B开源模型…

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

轻松打造出各种AI专家 OpenAI 昨晚王炸更新 灵感竟来自字节论文

强化微调的核心概念和优势

强化微调技术原理

传统监督微调与强化微调的区别

强化学习具体流程

案例 1：法律领域 - 与Thomson Reuters的合作

案例 2：医学领域 - 罕见遗传病的基因致病分析

ReFT是怎么做到的？

有什么特别之处？

轻松打造出各种AI专家 OpenAI 昨晚王炸更新灵感竟来自字节论文