12 月 7 日,全球 AI 头部企业 OpenAI 继续发起 2024 年冬季攻势
第 2 天发布了一种叫强化微调(Reinforcement Fine-Tuning, RFT)的技术
相比第一天的 o1 正式版发布,RFT 一石入水,古井不波,普通网友不太感冒
甚至有大 V 公开表达失望
它可以让用户使用 OpenAI 的官方模型定制平台(platform.openai.com/finetune),轻松的打造出各种博士级别的 AI 专家。成本还很低,gpt4o mini 微调后,性能超过 o1,相当于用本科生的工资待遇,雇了一个博士来给你工作
月之暗面杨植麟苦恼中:“在我们讨论这个问题(月之暗面股权纠纷)的时候,大洋彼岸的团队正在发布新的 AI 产品。对我来说,最重要的是,和团队继续全力以赴把 Kimi 的技术和产品做好。”
奥特曼也说:"这是我 2024 年最大的惊喜之一"
正如奥特曼所说:"今天,我们推出了强化微调,这使得在特定领域中创建专家模型变得非常容易,只需很少的训练数据。"
我先回顾一下直播过程,然后给大家解释下微调、提示词、RAG 的区别,RFT 的意义和应用前景
直播由 OpenAI 新任 CIO Mark 主持,RFT 项目组两位成员 John、Julie ,外部专家,研究基因与遗传病的科学家 Justin 参加
直播以“AI 基于症状预测遗传病基因"为主题,演示了 RFT 如何将用户的专业优质数据转化为用户独有的专家 AI 模型
Justin 表示:他们致力于研究罕见病的成因,并提供更好的医疗手段,全球合计有 3 亿人患有各种罕见病!
但在临床中,训练有素的专家往往花费数个月或者数年才能确定病因,这会导致治疗的延迟
OpenAI 的 John 表示
OpenAI 为用户提供了强化学习算法,而 RFT 的优势在于,可以让AI自己思考,强化了导致正确答案的思维路径、抑制导致错误的思维路径,可以才用用户的少量专业数据中完成推理,从而完成强化学习,迅速达到细分领域的专家水平
OpenAI 演示人员还透露,他们内部训练 gpt4o 和 o1 也采用了相同的技术。
他们先登录了 OpenAI 的平台,启动了一个训练
第一步,选择微调方法为“Reinforcement”强化
第二步,选择 o1-mini 作为强化微调的基础 AI
第三步,演示人员上传了训练数据集,一些病例数据,一个 json 文件,一行就是一个病例,1100 个
一个具体病例如下,这是一个实际的用户体征和症状病例
图片翻译工具:象寄
输入 AI 提出要求:列入你认为可能的导致这些遗传病的基因,并给出解释
演示人员强调:用户的价值就体现在提供优质专业数据上,或者说,优质数据是完成强化微调,得到专家模型的关键
第四步,上传验证数据集
上传常见遗传病的基因序列
演示人员强调,第三步和第四步的数据格式相同,但(个案)没有交集, AI 自己会去找到规律
第五步,选择评估机制
用户可以采用 OpenAI 提供的默认参数或调整参数,得到自己的评估机智
第六步,一切就绪,启动训练
第七步,查看训练结果
OpenAI 还提供了训练中的评分变化
可以看到,随着训练进程,AI 的回答率逐渐上升
最后评分如下图,经过强化微调的 o1-mini 远远超过了未经训练的 o1mini,甚至超过了 o1
可视化比较如下:
笔者评价:经过训练的 o1mini 已经如此强大,如果选用 o1,会更强大。o1 目前成本较高,价格是 Min 的 100 倍!但在不久的将来,o1 的价格也会降到白菜价,正如过去两年已经发生的 gpt4 成本降低一样
OpenAI 演示人员还表示,不但可以看到结果,还可以看到每一个数据集的训练具体数据
外部专家表示,可以使用 RFT 作为研究的日常工具,更好的提供健康服务
以上就是 OpenAI 本次推出的完整的强化微调案例,总结下:
OpenAI 提供了一个在线强化微调平台,平台内置了强化学习算法,o1mini 或者 o1 模型,有强大的推理能力,它可以自己从数据中找到规律,自我训练;用户只需要整理自己专有数据,上传到平台,即可完成强化训练,得到一个专属专家模型!
视频来自宝玉老师
整个过程,完全不需要编程,而且数据是用户独有,OpenAI 不会将其用于公开大模型的训练
应用前景广阔:目前 OpenAI 内部测试中,“强化微调”在生物、化学、安全、法律和医疗保健领域已经取得了成功。
这个 RFT 功能将在 2025 年 1 季度上线,不过你可以通过这个链接申请
https://openai.com/form/rft-research-program/
进去后,会让你提供一些基础信息,比如申请者的基本情况,你想解决什么问题。我已经申请啦
关于 OpenAI 微调平台基础操作,可以看这篇《零编程!ChatGPT 微调功能升级》
GPT 微调是通过 OpenAI 的平台进行的,用户需要将自己的数据上传到 OpenAI 的服务器,并通过 OpenAI 的 API 来创建、训练和使用微调模型。
要申请 OpenAI 微调平台,需要先申请 OpenAI 的账号,再申请 API
最后,我再扩展介绍下强化微调的意义和应用场景
如果你是信息化人员或者某行业的专家,想利用 AI 为你组织的业务或专业赋能,请继续往下看
FT 的技术叫“基于通用大模型的强化微调技术”
首先回答,什么是通用大模型?
通用大模型,是指已经过大量的数据训练,从而具有广泛的通用知识和语言能力的 AI
ChatGPT,claude,谷歌 gemini,LLaMA 都是通用大模型
通用 AI 的缺点是,并没有针对某一个细分场景进行训练。
对于一些特定的应用场景或任务,GPT 可能无法满足用户的需求或期望,例如生成特定风格、格式或内容的文本。给用户的回答可能是正确的废话或无法落地的泛泛而谈,不符合用户场景。
你可以把通用大模型看做一个 精通理论,通晓 500 强公司实践案例的职业经理人
假设你是一个公司的老板,你请了这样一个职业经理人来为你工作,我们就叫他大壮
但是问题来了,大壮不了解你本地业务,不了解你的企业
怎么办?
你有三种方法可以选,分别是:自己训练一个大模型、提示词工程、RAG(增强检索)、微调
自己训练一个大模型。你给自己的小孩做好规划,从小读名校,然后培养成自己的接班人。但是成本很高,时间也不等人。
提示词工程,你把大壮请到办公室,喝着咖啡,把你企业的情况尽量描述给他听,他基于他已有的管理知识,给出建议。但是你会感觉,还是太泛。
RAG(增强检索):你把公司内部的治理文件、业务流程、经营数据拿给大壮看,给他三天时间通读。过了几天,你发现大壮对你的回答更符合公司管理架构和业务场景了,而且还结合世界 500 强经验,给你提出了很好的建议。这就叫 RAG,它将提示工程与数据库查询结合,生成基于用户专有数据库中现有知识的输出
微调:大壮入职后,你让总经理给他当入职引导人,遇到不懂的,本地市场、业务现状、明潜规则,总经理就指导大壮。过了几个月,大壮儒表法里,用符合你公司现状的风格,将业内标杆企业的一些思路方法予以落实。过使用特定任务的数据调整模型参数,使其在某一领域内高度垂直专业化
RAG 拓展的是 AI 知识的广度,而微调目的是改变 AI 的行为模式
强化微调:就好像有一个逻辑和学习能力很强的人,他可以很快的掌握新入职业务和管理流程,再结合自己丰富的过往经验,改善管理!
OpenAI 的 RFT,叫强化微调,在微调的基础上更进一步。大壮非常有逻辑,他虽然对业务不太懂,但是凭着逻辑,他掌握了你公司的明规则、潜规则。
OpenAI 的新任 CIO 马克信心满满,直播中他直接说:
“再次强调,这不是传统的微调。这是强化微调,它真正利用了强化学习算法,将我们的模型从高中学生水平提升到了专家博士水平。”
再回顾下 OpenAI 的微调平台发展历史:
2023 年 8 月《OPENAI 推出 GPT3.5 微调模型,允许商业公司开展数据训练》详见《原创| GPT 微调,万字保姆级教程+实操案例》
2023 年 10 月,《零编程!ChatGPT 微调功能升级》
2024 年 4 月,《OpenAI 升级微调功能!官方案例:招聘网站、电信客服、律所辅助》
2024 年 12 月 7 日,OpenAI 宣布推出强化微调,将在 2025 年上市