作者| AI工作坊 管理智慧
来源 | AI深度研究员 管理智慧
咨询合作| 13699120588
文章仅代表作者本人观点
OpenAI 12 天 的 第 2 天,强化微调(RFT),通过少量数据,让模型在专业领域到达专家水平。
OpenAI 今天宣布了一项创新的强化微调研究计划。这项革新性的AI 训练方法可能目前和普通人关系没那么很大,但是为专业领域的研究人员带来了丰富的应用前景。
在与 OpenAI Research 高级副总裁 Mark Chen、伯克利实验室环境基因组学和系统生物学计算研究员 Justin Reese 等专家的研讨中,这项技术的独特价值得到了充分展示。该计划允许开发人员在包含数十到数千个高质量任务的数据集上进行训练,通过参考答案评估模型响应,从而实现 AI 模型在特定领域的定制化能力提升。
与传统微调方法不同,这种新型强化微调并非简单地记忆数据答案,而是着重培养模型在特定领域的推理能力。这个过程可以类比为向 AI 提供一本棋谱,让它通过自主学习掌握下棋技巧。具体来说,该方法采用了双数据集训练策略:一个用于微调训练,另一个用于效果验证,通过反复的自我推理训练和验证过程,最终达到较高的专业水准。
这项技术在法律、保险、医疗保健、金融和工程等专业领域展现出巨大的应用潜力,特别是在那些需要明确定义且专家共识的任务中。OpenAI 计划在 2025 年初正式发布这一技术,在此之前,参与者将可以优先访问 alpha API,并有机会通过共享数据集和提供反馈来协助完善这一技术。
示例说明它在开发平台上的样子。展示了如何在 o1-mini 上选择 RFT
1.使用 RFT 时数据是什么样子的。使用评分器对模型的答案进行评分。将提供不同的评分器,并能够使用自定义评分。
2.仪表板显示了 RFT 模型(ft:01-mini....)与其他模型相比的评估。
3.非常酷的仪表板,用于分析 RFT 模型的结果。
展望未来,OpenAI 计划在 2025 年初将强化微调技术(RFT)作为一款正式产品推向市场,让更多用户能够受益于这项创新技术。虽然 RFT 可能并非适用于所有应用场景,但其在科学研究领域的潜力尤为显著。
这项技术有望为科学发现带来突破性进展,推动人工智能在科研领域的模型创新,为人类知识的开拓提供新的可能。
为了帮助更多企业家深入了解AI及其在降本增效中的应用,实现卓越绩效,欢迎扫码添加助教老师加入我们的社群!与更多企业家朋友共同把握AI新时代,在线和线下进行更多交流,共同探索未来机遇!
扫码请备注“AI进群”谢谢
喜欢这篇文章
请为我点赞和在看