OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

科技 2024-12-07 08:47 上海

梦晨西风发自凹非寺
量子位 | 公众号 QbitAI

OpenAI“双12”直播第二天，依旧简短精悍，主题：

新功能强化微调（Reinforcement Fine-Tuning），使用极少训练数据即在特定领域轻松地创建专家模型。

少到什么程度呢？最低几十个例子就可以。

CEO奥特曼表示“效果一级棒，是我2024年最大的惊喜，期待看到人们构建什么！”

那么效果有多棒呢？

微调后的o1-mini模型得分提高80%，直接反超o1正式版。

目前OpenAI已开启强化微调研究计划，开发者可以申请强化微调API的alpha版本访问权限。

进行测试时，可使用几十到几千个高质量数据，模型能够通过强化学习自行探索和学习如何推理复杂任务。

蹲守直播间的网友们听得也是one愣one愣的，完全没有料想到今晚“圣诞盲盒“是酱婶儿的。

OpenAI员工Jerry Tworek则表示“AGI不是授人以鱼，而是授人以渔”。

OpenAI微调首次支持强化学习

直播嘉宾除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究员，还有伯克利实验室计算生物学家Justin Reese，他们共同演示了强化微调功能的全过程。

具体来说，这是一个生物医学任务，AI需要根据病例描述的症状，找出相关基因。

训练数据长这样：

病人信息：51岁女性，疾病发病时间未具体说明。
症状：眼距过宽、睑裂狭小、小颌畸形、软腭咽闭合不全、甲状旁腺功能减退、全身发育迟缓和感觉神经性听力障碍
未表现出以下症状：腭裂、法洛四联症、肺动脉瓣闭锁、心房隔缺损、主动脉肺动脉侧支血管
请列出所有可能导致这些症状的基因，从可能性最大到可能性最小，并解释为什么你认为这些特定的基因可能是原因。

评分模型（Grader）会对模型的答案进行评分，OpenAI会提供不同的评分模型，并支持自定义。

强化微调步骤很简单，在网页界面可选择训练集和验证集。

再根据情况配置超参数即可。

微调过程中，可以观察模型性能指标的变化趋势。

测试完成后，也可以查看模型对每条验证数据的输出，这里TSC2基因是正确答案，模型把它排在第一位，所以通过。

目前OpenAI内部测试中，强化微调在生物化学、安全、法律和医疗保健领域取得成功。

强化微调将在2025年初作为产品发布，对企业、大学和研究院已开放申请测试通道。

看完这场直播后，有人总结：强化微调可能并不适合所有任务，但会在科学领域带来突破性的成果。

奥特曼默认会发Sora

OpenAI直播第二天，对比第一天o1正式发布、立等可用，似乎平淡了一些。

有不满足的网友表示：where is GPT-4.5？

评论区猜测可能大货会放在最后一天。

他们是真的懂如何吊所有人的胃口

不过，有网友钓鱼钓出了奥特曼，且奥特曼没有否认会发布Sora的消息。

参考链接：
[1]https://openai.com/form/rft-research-program/

玩转VS Code

编程开发，业界资讯，以及 VS Code 的热门文章、使用技巧、插件推荐、插件开发攻略等，全部都可以在这里找到。带你玩转 VS Code！

最新文章

在 VS Code 中可以免费使用 GitHub Copilot了！

ChatGPT「睁眼」了！OpenAI版「Her」满血上线，还有圣诞限定彩蛋

Sora火爆上线系统秒瘫，奥特曼直播第三更网友震翻！20秒1080p拍大片再近AGI

Semantic Kernel 开发者日中国站即将召开

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

GitHub Universe 2024 Recap in SH，GitHub Copilot中的Java升级助手，东半球首秀！

GenAI 转型的下一篇章 - AI Agent ｜Post Microsoft Ignite 2024 in Beijing

微软Visual C++编译器团队架构师力挺C++26，称其是C++11以来最具影响力的版本

Google Devfest 2024 | 议程公开，看看有没有你想见的人！

大会日程公布｜PyCon China 2024 周末上海见！

TypeScript 5.7：一大波新特性来袭！

30岁的CSS卸下“盾牌”——更换成紫色Logo

免费课程来袭: 懂TS就能开发Web3应用，赢取丰厚奖学金🧧

.NET 9 正式发布！

Linux版微信正式官宣——基于Qt开发、启动秒开、体验丝滑流畅，吊打隔壁QQ？

Java on Azure Tooling 10月更新｜Azure 函数托管身份支持，Java on Azure 工具指南推出

Arc浏览器被“练废”了，开发商宣布停止开发——即将推出“Web浏览器的iPhone”

“最锈”开源代码编辑器Zed重量级更新——支持远程开发、提供120FPS丝滑流畅体验

4种革新性AI Agent工作流设计模式全解析

刚刚，ChatGPT变身AI搜索免费用！OpenAI颠覆谷歌，搜索变天了

系统思维才是架构师的真内核

Copilot一夜杀死编程助手，GitHub官宣接入Claude+Gemini！OpenAI沦为备胎

重磅！GitHub Copilot upgrade assistant for Java 技术预览发布

今年最火开源前端框架——Svelte 5正式发布稳定版、彻底重写、新增$语法、star数近8万

放弃 React，微软 Edge 团队改用 Web 组件减少对 JavaScript 的依赖

共聚十周年｜GitHub Universe 2024 直播日程公布

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

“开源疯王”Matt Mullenweg正在摧毁WordPress

Rust编写的跨平台UI框架——Tauri正式发布2.0稳定版

Ubuntu 24.10 正式发布，这款最受欢迎的发行版已经20岁了！

人称“Node杀手”的Deno正式发布2.0，这集又是Rust赢了！

GitHub Universe Learn Live｜共聚 2024 GitHub Universe 十周年

刚刚，诺贝尔物理学奖破天荒颁给「AI教父」！Hinton成首位图灵奖诺贝尔物理学奖双料得主

Vue.js 作者宣布成立 VoidZero - 下一代 JavaScript 工具链

OpenAI重磅发布Canvas：跟ChatGPT一起写作编程

OpenAI官宣464亿新融资，成为万亿独角兽！还针对马斯克xAI搞二选一

Python in Visual Studio Code 2024年9月发布

苹果“最强编程语言”10周年重磅更新——Swift 6正式发布：全面支持Linux和Windows、增强与C++的互操作性

微软Office全家桶再爆办公革命，o1模型加持重塑十亿人工作流！1句话生成PPT+自定义智能体

拯救OpenAI 1500亿估值，就靠o1了？全新Scaling Law终结奥特曼「非营利游戏」

Java on Azure Tooling 8月更新 - Java 体验在 Azure 容器应用程序正式发布

VS Code Java 8月更新 - 重要 Gradle 更新！用户体验与入门向导增强

OpenAI o1惊现自我意识？陶哲轩实测大受震撼，门萨智商100夺模型榜首

突发！OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

全球最流行开源Web服务器项目迁移到GitHub

FreeBSD社区正在为是否“锈化”而激辩

【亚马逊4.5分】这本精髓之书C++之父也爱不释手

“宇宙最强”开源代码编辑器——VS Code优化Linux版本UI、改进Copilot功能……

Claude认出自画像，惊现自我意识！工程师多轮测试，实锤AI已过图灵测试？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI

OpenAI微调首次支持强化学习

奥特曼默认会发Sora

梦晨西风发自凹非寺
量子位 | 公众号 QbitAI