首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI祭出大杀器RFT，强化微调！无须编程+少量优质数据，用户即可轻松打造专属博士级专家AI模型

科技 2024-12-08 12:31 四川

12 月 7 日，全球 AI 头部企业 OpenAI 继续发起 2024 年冬季攻势

第 2 天发布了一种叫强化微调（Reinforcement Fine-Tuning, RFT）的技术

相比第一天的 o1 正式版发布，RFT 一石入水，古井不波，普通网友不太感冒

甚至有大 V 公开表达失望

相反，企业 AI 从业，尤其是微调领域的兄弟们都知道，这是一次核弹级更新，不亚于 gpt4o 的推出

它可以让用户使用 OpenAI 的官方模型定制平台（platform.openai.com/finetune），轻松的打造出各种博士级别的 AI 专家。成本还很低，gpt4o mini 微调后，性能超过 o1，相当于用本科生的工资待遇，雇了一个博士来给你工作

月之暗面杨植麟苦恼中：“在我们讨论这个问题（月之暗面股权纠纷）的时候，大洋彼岸的团队正在发布新的 AI 产品。对我来说，最重要的是，和团队继续全力以赴把 Kimi 的技术和产品做好。”

奥特曼也说："这是我 2024 年最大的惊喜之一"

正如奥特曼所说："今天，我们推出了强化微调，这使得在特定领域中创建专家模型变得非常容易，只需很少的训练数据。"

我先回顾一下直播过程，然后给大家解释下微调、提示词、RAG 的区别，RFT 的意义和应用前景

直播由 OpenAI 新任 CIO Mark 主持，RFT 项目组两位成员 John、Julie ，外部专家，研究基因与遗传病的科学家 Justin 参加

直播以“AI 基于症状预测遗传病基因"为主题，演示了 RFT 如何将用户的专业优质数据转化为用户独有的专家 AI 模型

Justin 表示：他们致力于研究罕见病的成因，并提供更好的医疗手段，全球合计有 3 亿人患有各种罕见病！

但在临床中，训练有素的专家往往花费数个月或者数年才能确定病因，这会导致治疗的延迟

OpenAI 的 John 表示

OpenAI 为用户提供了强化学习算法，而 RFT 的优势在于，可以让AI自己思考，强化了导致正确答案的思维路径、抑制导致错误的思维路径，可以才用用户的少量专业数据中完成推理，从而完成强化学习，迅速达到细分领域的专家水平

OpenAI 演示人员还透露，他们内部训练 gpt4o 和 o1 也采用了相同的技术。

他们先登录了 OpenAI 的平台，启动了一个训练

第一步，选择微调方法为“Reinforcement”强化

第二步，选择 o1-mini 作为强化微调的基础 AI

第三步，演示人员上传了训练数据集，一些病例数据，一个 json 文件，一行就是一个病例，1100 个

一个具体病例如下，这是一个实际的用户体征和症状病例

图片翻译工具：象寄

输入 AI 提出要求：列入你认为可能的导致这些遗传病的基因，并给出解释

演示人员强调：用户的价值就体现在提供优质专业数据上，或者说，优质数据是完成强化微调，得到专家模型的关键

第四步，上传验证数据集

上传常见遗传病的基因序列

演示人员强调，第三步和第四步的数据格式相同，但(个案)没有交集， AI 自己会去找到规律

第五步，选择评估机制

用户可以采用 OpenAI 提供的默认参数或调整参数，得到自己的评估机智

第六步，一切就绪，启动训练

第七步，查看训练结果

OpenAI 还提供了训练中的评分变化

可以看到，随着训练进程，AI 的回答率逐渐上升

最后评分如下图，经过强化微调的 o1-mini 远远超过了未经训练的 o1mini,甚至超过了 o1

可视化比较如下：

笔者评价:经过训练的 o1mini 已经如此强大，如果选用 o1,会更强大。o1 目前成本较高,价格是 Min 的 100 倍！但在不久的将来，o1 的价格也会降到白菜价，正如过去两年已经发生的 gpt4 成本降低一样

OpenAI 演示人员还表示，不但可以看到结果，还可以看到每一个数据集的训练具体数据

外部专家表示，可以使用 RFT 作为研究的日常工具，更好的提供健康服务

以上就是 OpenAI 本次推出的完整的强化微调案例，总结下：

OpenAI 提供了一个在线强化微调平台，平台内置了强化学习算法，o1mini 或者 o1 模型，有强大的推理能力，它可以自己从数据中找到规律，自我训练；用户只需要整理自己专有数据，上传到平台，即可完成强化训练，得到一个专属专家模型！

视频来自宝玉老师

整个过程，完全不需要编程，而且数据是用户独有，OpenAI 不会将其用于公开大模型的训练

应用前景广阔：目前 OpenAI 内部测试中，“强化微调”在生物、化学、安全、法律和医疗保健领域已经取得了成功。

这个 RFT 功能将在 2025 年 1 季度上线，不过你可以通过这个链接申请

https://openai.com/form/rft-research-program/

进去后，会让你提供一些基础信息，比如申请者的基本情况，你想解决什么问题。我已经申请啦

关于 OpenAI 微调平台基础操作，可以看这篇《零编程！ChatGPT 微调功能升级》

GPT 微调是通过 OpenAI 的平台进行的，用户需要将自己的数据上传到 OpenAI 的服务器，并通过 OpenAI 的 API 来创建、训练和使用微调模型。

要申请 OpenAI 微调平台，需要先申请 OpenAI 的账号，再申请 API

《ChatGPT保姆级注册教程》

最后，我再扩展介绍下强化微调的意义和应用场景

如果你是信息化人员或者某行业的专家，想利用 AI 为你组织的业务或专业赋能，请继续往下看

FT 的技术叫“基于通用大模型的强化微调技术”

首先回答,什么是通用大模型?

通用大模型，是指已经过大量的数据训练，从而具有广泛的通用知识和语言能力的 AI

ChatGPT，claude，谷歌 gemini，LLaMA 都是通用大模型

通用 AI 的缺点是，并没有针对某一个细分场景进行训练。

对于一些特定的应用场景或任务，GPT 可能无法满足用户的需求或期望，例如生成特定风格、格式或内容的文本。给用户的回答可能是正确的废话或无法落地的泛泛而谈，不符合用户场景。

你可以把通用大模型看做一个精通理论，通晓 500 强公司实践案例的职业经理人

假设你是一个公司的老板，你请了这样一个职业经理人来为你工作，我们就叫他大壮

但是问题来了，大壮不了解你本地业务，不了解你的企业

怎么办？

你有三种方法可以选，分别是：自己训练一个大模型、提示词工程、RAG（增强检索）、微调

自己训练一个大模型。你给自己的小孩做好规划，从小读名校，然后培养成自己的接班人。但是成本很高，时间也不等人。

提示词工程，你把大壮请到办公室，喝着咖啡，把你企业的情况尽量描述给他听，他基于他已有的管理知识，给出建议。但是你会感觉，还是太泛。

RAG（增强检索）：你把公司内部的治理文件、业务流程、经营数据拿给大壮看，给他三天时间通读。过了几天，你发现大壮对你的回答更符合公司管理架构和业务场景了，而且还结合世界 500 强经验，给你提出了很好的建议。这就叫 RAG，它将提示工程与数据库查询结合，生成基于用户专有数据库中现有知识的输出

微调：大壮入职后，你让总经理给他当入职引导人，遇到不懂的，本地市场、业务现状、明潜规则，总经理就指导大壮。过了几个月，大壮儒表法里，用符合你公司现状的风格，将业内标杆企业的一些思路方法予以落实。过使用特定任务的数据调整模型参数，使其在某一领域内高度垂直专业化

RAG 拓展的是 AI 知识的广度，而微调目的是改变 AI 的行为模式

强化微调：就好像有一个逻辑和学习能力很强的人，他可以很快的掌握新入职业务和管理流程，再结合自己丰富的过往经验，改善管理！

OpenAI 的 RFT，叫强化微调，在微调的基础上更进一步。大壮非常有逻辑，他虽然对业务不太懂，但是凭着逻辑，他掌握了你公司的明规则、潜规则。

OpenAI 的新任 CIO 马克信心满满，直播中他直接说：

“再次强调，这不是传统的微调。这是强化微调，它真正利用了强化学习算法，将我们的模型从高中学生水平提升到了专家博士水平。”

再回顾下 OpenAI 的微调平台发展历史：

2023 年 8 月《OPENAI 推出 GPT3.5 微调模型，允许商业公司开展数据训练》详见《原创｜ GPT 微调，万字保姆级教程+实操案例》
2023 年 10 月，《零编程！ChatGPT 微调功能升级》
2024 年 4 月,《OpenAI 升级微调功能！官方案例：招聘网站、电信客服、律所辅助》
2024 年 12 月 7 日，OpenAI 宣布推出强化微调，将在 2025 年上市

AI变现研习社

AI在手中，成功在脚下

最新文章

《ChatGPT葵花宝典》2024年12月版

免费白嫖 Gemini 2.0 Flash 的三种方式

[AI 网红 DJ】用 100%免费 AI 工具制作美女 DJ 视频，5 分钟搞定，绝对逆天！

拳打Sora，脚踢Flux，谷歌重夺AI江湖头把交椅？

AI做治愈系儿童动画，500万粉丝5000万点赞，0成本0技术0门槛

集美们，这三款 AI 做年度总结PPT 真的太香了

秒杀Sora！谷歌推出 Veo 2 ，附申请方法

通过率99%！谷歌邮箱最新申请方法

当AI开始卷“视觉”，谁能赚到第一桶金？

自媒体人搞钱利器！免费克隆自己的数字分身引流变现，一部手机搞定

效果一流还免费？这个力压Sora的中国AI出语音克隆了

【干货】ChatGPT项目管理功能完全指南, 让你的AI使用效率提升300%

卧槽，ChatGPT 开天眼了！

今天，苹果手机接入ChatGPT啦，然后 OpenAI 全球服务器崩溃

OpenAI向美国军方供应人工智能

美国OpenAI发布Sora，中国AI成最大赢家？

ChatGPT Canvas 焕新升级，取代Cursor？

SORA正式上线！效果炸裂，附操作手册

Sora 发布，就在今夜？中国视频AI 五虎上将已准备好迎敌

躺赚"微信红包封面商城"，手把手保姆教程

OpenAI祭出大杀器RFT，强化微调！无须编程+少量优质数据，用户即可轻松打造专属博士级专家AI模型

震惊！80后最爱，肤白貌美大长腿的城市猎人系列被我用AI玩出新高度，0技术0成本！

OpenAI 双12第一天，O1正式版发布！Pro版每月200美元不限量，土豪啊

躺赚秘籍之“AI魔改甄嬛传”，40条爆款18万粉，附保姆级教程

重磅！教育部发文加强中小学AI教育，附教学要求

每天白嫖100个数字人短视频！平台还不敢限流，抖音这款免费AI神器送给你

抖音即将推出创作者“AI分身”功能！“你的语气，你的灵魂”

Sora即日发布？ChatGPT保姆级注册教程

不服不行！纯AI口罩美女狂涨粉25万150万赞，教你0成本0技术制作爆款短视频

2024 年，向量数据库“凉凉”了？

爱美女生的福音来了！可灵AI上线一键换衣功能，帮你实现衣橱自由

Kimi AI视频即将上线，每天免费生成100秒

这款AI搜索，让周鸿祎公司市值狂飙到千亿

OpenAI 惨遭"背刺"，Sora 被泄露上网免费用！中国AI：不慌，我们马上超越你了

通过率99%！谷歌邮箱最新申请方法

不服不行！这个清华学霸做的AI，轻松搞定“多主体一致性”

别再羡慕大V了!一招教你用AI魔改经典动漫

5分钟搞定！手把手教你将ChatGPT 免费接入到小米音箱，无需代码，小白轻松实现 AI 实时对话！

2025年老百姓用AI看病？清华 AI 团队用 ChatGPT 开医院，即将上线！准确率超过人类专家，海外网友惊呼不可思议

漫威秘一定要看，性感小姐姐秒变毒液，抖音轻松几十万赞

AI界王重阳！时隔1周，ChatGPT重回第一，还偷偷提升了写作能力，国内可用

想想都可怕！爆火游戏沙威玛居然是AI做的

平替ChatGPT？这个来自法国的免费 AI，能读懂幽默，还可以无限画小姐姐

躺赚秘籍之：AI 做海洋萌宠生物视频变现（附保姆级实操教程）

你还在加班改PPT？AI让你按时下班!

存下吧，很难找全的！AI做视频软件集锦

这个清华学霸整的AI，让马斯克穿上了性感婚纱

手把手教你用免费软件做AI版行尸走肉

爱了爱了！这几个顶流免费AI软件让我实现了美女自由，还可做成短视频小红书变现

GPT-5 难产，OpenAI 走下神坛？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉