OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

科技 2024-12-08 00:01 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。
转载自 | 新智元
编辑 | Aeneas 好困

OpenAI 12天连播的第二弹，用短短三个单词体现了什么叫「字少事大」——强化微调（Reinforcement Fine-Tuning）。

首先，这是OpenAI第一次将之前仅限自家模型（如GPT-4o和o1系列）使用的强化学习技术，开放给外部开发者。

其次，开发者只需提供最低「几十个」高质量任务，就能通过强化微调实现领域专家模型的定制！并且，还能根据提供的参考答案对模型的回应进行评分。

最后，强化微调加强了模型在处理领域问题时的推理能力，并提升了在特定任务上的准确性。对于那些要求高精确性和专业知识的领域，强化微调将会发挥至关重要的作用。

从OpenAI的官方演示中不难看出，强化微调的效果可谓是相当显著——经过强化微调的o1 mini，竟然全面超越了当今最强的基础模型o1。

其中，强化微调版的o1 mini，在Top-1准确率上直接跃升180%达到了31%，远超o1的25%。

对此，奥特曼激动地表示：「这项工作效果出奇得好，是我2024年最大的惊喜之一！非常期待大家会用它去构建什么。」

目前，强化微调研究计划已进入Alpha阶段，并将于2025年第一季度公开发布。

为了搞清楚「强化微调」到底是个啥，我们便去问了问OpenAI自家的AI搜索。

没想到，结果却出人意料——这个技术思路，在一篇被ACL 2024录用为Oral的论文中，就已经提出了。

而更喜人的是，团队的成员全部来自字节跳动！

在这项工作中，研究人员提出了一种简单而有效的方法，来自增强LLM推理时的泛化能力——强化微调（Reinforced Fine-Tuning，ReFT）。

论文地址：https://arxiv.org/abs/2401.08967

简单来说，ReFT首先会使用SFT对模型进行预热，然后采用在线强化学习（PPO算法）进行优化。

也就是，对给定的问题自动采样大量的推理路径，并根据真实答案来获取奖励，从而进一步对模型进行微调。

在GSM8K、MathQA和SVAMP数据集上的大量实验表明，ReFT显著优于SFT，并且通过结合多数投票和重新排序等策略，可以进一步提升模型性能。

不仅如此，ReFT还有着卓越的泛化能力——在训练中仅需使用与SFT相同的问题集，而无需依赖额外或增强的训练数据。

强化微调，不是传统微调

这次上阵直播的四人，是OpenAI的研究员Mark Chen、John Allard、Julie Wang，以及伯克利实验室计算生物学家Justin Reese。

他们介绍说，这项功能已允许用户在自己的数据集上微调o1。

不过要强调的是，并不是传统的微调，而是强化微调。它真正利用了强化学习算法，把模型从高级中学水平提升到专家博士级别。

这个功能，能够帮助把自己的优质数据集转化为独一无二的用品，带来「魔力」。

强化微调（RFT），能让开发者、研究人员和机器学习工程师首次有机会使用强化学习来创建专家级模型，在特定领域的任务中有卓越表现。

对于法律、金融、工程、保险等领域，这项技术简直是量身打造的。

举例来说，OpenAI最近和汤森路透合作，利用强化微调对o1 Mini进行了微调，使其成为了一名法律助手，帮法律专业人士完成了一些复杂、需要深入分析的工作流程。

史上首次，OpenAI微调支持强化学习

去年年初，OpenAI就推出了监督微调API。这项技术非常强大，核心目标是让模型复制在输入文本或图像中发现的特征。

在强化微调中，它不仅是教模型模仿输入，而是去学习在自定义域上以全新的方式进行推理。

当模型看到一个问题，研究者会给它空间来思考问题，然后给它的最终答案进行评分。

然后，利用强化学习的强大能力，他们会强化那些导致正确答案的思维路径，同时抑制那些导致错误答案的思维路径。

只需要数十到数千个高质量示例，模型就能学会以新的、有效的方式在定制领域中进行推理了！

用OpenAI研究者的话说，这实在太疯狂了，令人难以置信——仅用12个例子就能做到，这是传统微调难以实现的。

这也是史上首次，OpenAI的模型定制平台可以支持强化学习。

研究者强调说，OpenAI内部用来训练GPT-4o和o1系列等顶尖模型，就是用的同样技术。

强化微调的o1，诊断罕见病

伯克利实验室的Justin，就介绍了强化微调给他的研究带来的巨大帮助。

他研究的是，使用计算方法来理解罕见疾病背后的遗传原因。

然而，现在评估罕见疾病并不容易，首先要对医学有专业领域知识，还要对生物医学数据进行系统化推理。

而这，o1模型可以凭借其高级推理能力提供帮助。

在这个项目中，Justin和同事们从数百篇关于罕见疾病的科学病例报告中提取了疾病信息，包括患者的体征和症状。

他们希望能根据患者的症状，找出可能发生突变、导致这些症状的基因。

为此，他们和OpenAI团队一起训练了o1模型，让它更高效地推理疾病的成因。

而在「根据一系列症状预测可能引发遗传疾病的基因」这一任务上，o1-mini的表现超越了o1!

这非常重要，因为o1-mini比o1更小、更快、成本更低。

在OpenAI的开发平台上，他们已经对一个模型进行监督微调一年多了。

他们上传了一个训练数据集，包含1100个示例。

以下是一个单独的数据点，包括病例报告、指令、正确答案三个部分。

病例报告显示，这是一名51岁的女性，有眼距增宽、甲状旁腺功能亢进等症状。在指令部分，研究者会提示模型，希望它做什么。最后就是正确答案。

注意，训练过程中，并不会向模型展示这个答案，否则就是作弊了。

但是，研究者以这训练过程中用这个答案来评估模型。

可以看出，这个任务的难度，已经远远超越了「Strawberry中有几个r」的级别。

接下来，他们上传了一些验证数据，它的格式与训练数据完全相同，但验证数据集和训练数据集之间的正确基因没有重叠。

这就意味着，模型不能作弊，不能只是简单地记住症状列表并将其与基因匹配。

它必须真正从训练数据集泛化到验证数据集。

强化学习的部分，是这样体现的——

他们引入评分器的概念，将模型输出与正确答案比较，返回0到1之间的一个分数。0表示模型完全错误，1表示模型完全正确。

在这个例子中，模型得到了0.7的分数，因为FOXE 3是正确答案，在基因列表中排第二位。

它在列表中越往后，分数会越接近0。

最终，研究者提供了一套评分器合集，能有效覆盖在强化微调时可能会有的各种意图空间。

接下来，可以快速地复制一下评分器，然后就启动了一个训练任务。

厉害的地方在于，只需要提供数据集和评分器（体现领域专业知识），就可以利用OpenAI强化学习算法的全部能力，以及完整的分布式模型训练技术栈，来为自己的使用场景定制一个前沿模型了。

一句话就是：拿上你的数据集和评分器，OpenAI就会给你一个微调模型。

强化学习微调任务可能需要几个小时到几天的时间来运行

可以看到，验证集的奖励分数呈上升趋势。

由于训练数据集和验证数据集之间的基因没有重叠，这意味着：模型确实学会了这项任务中进行泛化！

模型学会通用推理能力

为了更深入地了解模型中微调过程中发生了什么变化，可以查看评估仪表板。

其中，研究者设置了三个不同运行，分别是运行在o1、o1 mini和强化微调后的o1 mini上的任务。

可以看到，奖励分数呈现右上角上升的趋势，但这对任务来说意味着什么呢？

为此，他们设置了三个不同的评估指标，分别是Top-1（第一项正确率）、Top-5（前五项正确率）和Top-max（是否包含正确答案）。

在Top-1指标中，o1 mini在约200条数据上的得分是17%。o1得到了25%，而微调后的o1 mini，得到了31%。

ChatGPT就此生成了一张更直观的图表。

这显示出，模型确实学会了如何在这类数据上进行推理的通用能力！

在Justin看来，强化学习将极大地振奋生物学研究社区，近期内的最佳方案，可能就是结合现有生物信息学工具和类o1模型的混合解决方案。

而以上，仅仅是强化微调在科学研究中的一个应用而已。

除了已经验证的生物化学、AI安全、法律以及医疗保健数据集，模型还会在数百种其他应用场景上发挥作用。

OpenAI的Alpha计划，会让更多人在最重要的任务上，推动o1模型能力的边界。

直播最后，依然是OpenAI式的圣诞冷笑话一则——

最近，圣诞老人在尝试制造一辆无人驾驶雪橇，但不知为何，他的模型总是无法识别树木，导致雪橇不停地撞上道路两旁的树。你们猜这是为什么？

答案是：因为他忘了给模型进行「pine-tune」（松树微调）！

参考资料：

https://openai.com/form/rft-research-program/

https://x.com/OpenAI/status/1865091561912164499

https://arxiv.org/pdf/2401.08967

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

人大教授张鸣：退休之际，讲点废话（这也太敢言了）

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

近期必看的多模态大模型进展：从Qwen2-VL到Pixtral

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

《一书解决几乎所有机器学习问题》.PDF下载

16种新型RAG最新进展

李飞飞：World Labs这样实现「空间智能」

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

OpenAI发布49页长文，讲述o1的安全机制

谷歌Willow量子芯片逆天出世！5分钟颠覆10亿亿亿计算极限，马斯克奥特曼惊叹

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩

今日最佳 AI 论文：简单蒸馏训练，就能超越 o1-preview？

5分钟完成最强超算10^25年工作，谷歌量子芯片重大突破，马斯克、奥特曼齐祝贺

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

LLM不会CoT隐性推理，只会显性推理！

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

LeCun团队新作：在世界模型中导航

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

复旦大学，上海创智院等多家单位联合发布大模型社交智能体综述

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

o1满血版最鲜测！这¥1500花得值吗？

从答案到问题：一种新的学习目标让LLM更擅长推理

满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

GAN作者追忆往事：论文是DDL前一周开始写的，最初在NeurIPS大会无人问津

刚刚，谷歌ViT核心骨干集体投奔OpenAI：他们为Sora打下基础

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

ICLR'25 惊现[10,10,10,10]满分论文，ControlNet 一作张吕敏新作，Github 5.8k 颗星

Text-to-SQL新SOTA！华科团队提出双向模式链接新方法RSL-SQL

纽约大学十四年精华《机器学习基础》第二版免费下载

北京理工AI教育服务上线！DirectionAI：大模型驱动的个性化教学方式

图结构转文本序列，大模型直接读懂！图推理性能大涨

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

DeepMind用语言游戏让大模型学AlphaGo自我博弈，数据限制不存在了

图结构转文本序列，大模型直接读懂！图推理性能大涨

马斯克全力阻止OpenAI转盈利！已向法院申请禁令，奥特曼：我和爱人休假盖树屋

Token化一切！北大、谷歌等提出TokenFormer，Transformer从未这么灵活过

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

陶哲轩新论文“太反直觉”：再战Erdős问题，证明44年数学猜想是错的

自我反思助力VLM推理！南大清华提出VLM自训练框架，支持Inference Scaling

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉