首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

字节再送神助攻，大模型继续狂飙。

科技 2024-12-07 23:40 美国

你好，我是郭震

今日AI技术再迎来突破，OpenAI发现一种微调技术，能让大模型o1-mini超越地表最强大模型o1

如下图所示，微调后的o1-mini竟然超越了o1:

他们称这项微调技术为：强化微调（Reinforcement Fine-Tuning)，下文统一简称为RFT.

更令人意想不到的是，强化微调RFT的技术思路，竟然全部来自字节。

下面这篇Reasoing with REinforced Fine-Tuning：

就这样字节再送神助攻。

OpenAI拿它来训练自家模型，再让大模型继续狂飙，o1-mini涨超o1.

因此要想了解强化微调RTF，通过字节的这篇论文就能知道大概。先看看下面这幅图：

此图来自字节的这篇论文

此图讲解了RFT的主要步骤，首先经过监督微调（Supervised Fine-Tuning )，简称SFT，目的就是为了预热RFT，通过Chain of Thought (COT) ，也就是上图中的标记 e，得到很多推理路径样本。

RFT预热后，进入第二阶段，使用在线强化学习算法训练，训练完成得到最终Policy. 使用的强化学习算法是OpenAI提出的PPO.

总结来说RFT步骤：先SFT，后PPO.

下面说下RFT使用的一个核心算法：PPO

PPO现在强化学习中使用很多，主要原因就是它让策略更新稳定，并且训练速度还挺快。

如下是PPO的三个核心要点，PPO通过引入采样比，使用剪枝损失函数，确保了策略的更新幅度不会过大，使用epochs 和 mini-batch重复利用样本从而提升样本利用率：

可这是为什么，如何做到策略的更新幅度不会过大的？这个问题曾经一直很困扰研究者。

采样比的公式给出了新旧策略的变化率。

然后关键来了。

引入了牛逼的剪枝目标函数，通过这个损失函数加大惩罚那些变化率大的策略更新。

具体来说，如下图所示，超过阈值1或低于某阈值2，都认为变动过大，然后剪枝发挥威力，返回一个较小的相对于At的权重：

那么At是什么？

At是优势函数（Advantage Function)

衡量了动作相对于状态的平均好坏程度，如果大于0，表明当前策略下推理出的动作a优于平均水平，具体看下面截图：

这里面又引出了强化学习最为核心的、最为基础的两个函数，动作价值函数，状态价值函数。它们直接用于评估当前决策（s,a)后，在未来的回报变现。

简单理解，这是两个"算命"函数，一旦训练后，模型便具备了预测未来的能力。

深度强化学习，是AI领域很有意思的一个分支，感兴趣的可以进一步深入理解里面的细节，限于篇幅，不再继续展开。

总结一下子

强化微调RFT有望成为大模型微调的新范式，个人理解尤其是在复杂推理方面有望有较大或大幅性能提升。

它使用了SFT做热身得到大量样本，然后PPO强化学习，得到最终的决策Policy，一旦有了很好的Policy，复杂推理任务给到它后，它就能决策出最佳的推理路径step1, step2,step3,...stepn，从而更有可能得到正确答案。

最后一句，OpenAI得感谢字节做出的技术贡献。

如果这篇文章觉得对你有用，可否点个关注，给我个三连击：点赞、转发和在看。若可以再给我加个⭐️，这样以后就不会错过我的AI教程。谢谢你看我的文章，我们下篇再见！

郭震，工作8年后到美读AI博士，努力分享一些最新且有料的AI。

最新文章

自己电脑搭建AI大模型详细教程，支持通义千问、Llama3、接口调用等。

彻底爆了！阿里再次拿下第一！

腾讯版Sora开源，大模型继续狂飙。

天工AI彩页编辑器，让我体验了一把0帧起手

2024年中国AI初创公司，前30强榜单发布。

字节再送神助攻，大模型继续狂飙。

2024年国产大模型最强前10榜单发布。

团队准备解散了。

被字节起诉的田某，拿下今年AI最佳论文奖，戏剧拉满！附论文分析。。。

2024年值得去的50家互联网公司名单。。。

双非计算机硕士，投了109份简历，目前2个offer。。。

字节要求攻击大模型的实习生赔偿800万。。。

最强代码生成大模型前10榜单，国产占据2席。。。

大模型算法岗工资都是4开头了吗！。。。

国内12家主流大模型，谁是地表最强？亲测后发现是它！。。。

985计算机硕士，拿了10个offer。。。

字节2024年不同岗位的薪资表，差别蛮大。。。

终于可以这样在线刷题、在线编程了，好用到爆！。。。

文字转图表，这个AI工具秒杀PPT。。。

字节不同职级薪资待遇一览表。。。

他偷瞄的AI神器，竟是百度网盘的隐藏功能。。。

AI“底裤“被扒，百度文库上榜。。。

值得去的16家IT公司及待遇（西安篇）。。。

现在大专生年薪都35万了吗！。。。

飞行员薪资曝光，程序员看完后傻眼了。。。

值得去的20家国企名单（北京篇）。。。

值得去的15家IT公司及待遇（苏州篇）。。。

爆了！这个AI 应用开发。。。

值得去的25家IT公司及薪资（成都篇）。。。

值得去的20家央国企名单。。。

清华硕士8面字节，最后被拒。。。

爆了！阿里再次第一。。。

快手不同职级薪资待遇一览表。。。

程序员炒股亏了48万。。。

比亚迪在越南员工的薪资曝光。。。

值得去的20家IT公司及薪资（杭州篇）。。。

他19天副业收入过千。。。

拼多多不同职级薪资待遇一览表。。。

80w起！零成本快速入门大模型指南

来了！GPT4.0接入个人微信！！

全球顶尖AI人工智能大集合：ChatGPT、Midjourney、Suno、Luma等等

2024年民企前35强榜单一览表。。。

美团不同职级薪资待遇一览表。。。

纽约街头偶遇马云。。。

值得去的20家IT公司及薪资待遇（广州篇）

一条短视频赚了2154元（附教程）。。。

华为不同职级薪资待遇一览表。。。

值得去的30家IT公司（深圳篇）。。。

哇，OpenAI又一重磅功能来袭。。。

百度不同职级薪资一览表

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉