首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
字节再送神助攻,大模型继续狂飙。
科技
2024-12-07 23:40
美国
你好,我是郭震
今日AI技术再迎来突破,OpenAI发现一种微调技术,能让大模型o1-mini超越地表最强大模型o1
如下图所示,微调后的o1-mini竟然超越了o1:
他们称这项微调技术为:
强化微调
(Reinforcement Fine-Tuning),下文统一简称为RFT.
更令人意想不到的是,强化微调RFT的技术思路,
竟然全部来自字节
。
下面这篇Reasoing with REinforced Fine-Tuning:
就这样字节再送神助攻。
OpenAI拿它来训练自家模型,再让大模型继续狂飙,o1-mini涨超o1.
因此要想了解强化微调RTF,通过字节的这篇论文就能知道大概。
先看看下面这幅图:
此图来自字节的这篇论文
此图讲解了RFT的主要步骤,首先经过监督微调(Supervised Fine-Tuning ),简称SFT,目的就是为了预热RFT,通过Chain of Thought (COT) ,也就是上图中的标记 e,得到很多推理路径样本。
RFT预热后,进入第二阶段,使用在线强化学习算法训练,训练完成得到最终Policy. 使用的强化学习算法是OpenAI提出的PPO.
总结来说RFT步骤:先SFT,后PPO.
下面说下RFT使用的一个核心算法:PPO
PPO现在强化学习中使用很多,主要原因就是它让策略更新稳定,并且训练速度还挺快。
如下是PPO的三个核心要点,PPO通过引入采样比,使用剪枝损失函数,确保了策略的更新幅度不会过大,使用epochs 和 mini-batch重复利用样本从而提升样本利用率:
可这是为什么,如何做到
策略的更新幅度不会过大的
?这个问题曾经一直很困扰研究者。
采样比的公式给出了新旧策略的变化率。
然后关键来了。
引入了牛逼的剪枝目标函数,通过这个损失函数加大惩罚那些变化率大的策略更新。
具体来说,如下图所示,超过阈值1或低于某阈值2,都认为变动过大,然后剪枝发挥威力,返回一个较小的相对于At的权重:
那么At是什么?
At是优势函数(Advantage Function)
衡量了动作相对于状态的平均好坏程度,如果大于0,表明当前策略下推理出的动作a优于平均水平,具体看下面截图:
这里面又引出了强化学习最为核心的、最为基础的两个函数,动作价值函数,状态价值函数。它们直接用于评估当前决策(s,a)后,在未来的回报变现。
简单理解,这是两个
"算命"函数
,一旦训练后,模型便具备了预测未来的能力。
深度强化学习,是AI领域很有意思的一个分支,感兴趣的可以进一步深入理解里面的细节,限于篇幅,不再继续展开。
总结一下子
强化微调RFT有望成为大模型微调的新范式,个人理解尤其是在复杂推理方面有望有较大或大幅性能提升。
它使用了SFT做热身得到大量样本,然后PPO强化学习,得到最终的决策Policy,一旦有了很好的Policy,复杂推理任务给到它后,它就能决策出最佳的推理路径step1, step2,step3,...stepn,从而更有可能得到正确答案。
最后一句,OpenAI得感谢字节做出的技术贡献。
如果这篇文章觉得对你有用,可否点个关注,给我个三连击:点赞、转发和在看。若可以再给我加个⭐️,这样以后就不会错过我的AI教程。谢谢你看我的文章,我们下篇再见!
郭震AI
郭震,工作8年后到美读AI博士,努力分享一些最新且有料的AI。
最新文章
自己电脑搭建AI大模型详细教程,支持通义千问、Llama3、接口调用等。
彻底爆了!阿里再次拿下第一!
腾讯版Sora开源,大模型继续狂飙。
天工AI彩页编辑器,让我体验了一把0帧起手
2024年中国AI初创公司,前30强榜单发布。
字节再送神助攻,大模型继续狂飙。
2024年国产大模型最强前10榜单发布。
团队准备解散了。
被字节起诉的田某,拿下今年AI最佳论文奖,戏剧拉满!附论文分析。。。
2024年 值得去的50家互联网公司名单。。。
双非计算机硕士,投了109份简历,目前2个offer。。。
字节要求攻击大模型的实习生赔偿800万。。。
最强代码生成大模型前10榜单,国产占据2席。。。
大模型算法岗工资都是4开头了吗!。。。
国内12家主流大模型,谁是地表最强?亲测后发现是它!。。。
985计算机硕士,拿了10个offer。。。
字节2024年不同岗位的薪资表,差别蛮大。。。
终于可以这样在线刷题、在线编程了,好用到爆!。。。
文字转图表,这个AI工具秒杀PPT。。。
字节不同职级 薪资待遇一览表。。。
他偷瞄的AI神器,竟是百度网盘的隐藏功能。。。
AI“底裤“被扒,百度文库上榜。。。
值得去的16家IT公司及待遇(西安篇)。。。
现在大专生年薪都35万了吗!。。。
飞行员薪资曝光,程序员看完后傻眼了。。。
值得去的20家国企名单(北京篇)。。。
值得去的15家IT公司及待遇(苏州篇)。。。
爆了!这个AI 应用开发。。。
值得去的25家IT公司及薪资(成都篇)。。。
值得去的20家央国企名单。。。
清华硕士8面字节,最后被拒。。。
爆了!阿里再次第一。。。
快手不同职级 薪资待遇一览表。。。
程序员炒股亏了48万。。。
比亚迪在越南员工的薪资曝光。。。
值得去的20家IT公司及薪资(杭州篇)。。。
他19天副业收入过千。。。
拼多多不同职级 薪资待遇一览表。。。
80w起!零成本快速入门大模型指南
来了!GPT4.0接入个人微信!!
全球顶尖AI人工智能大集合:ChatGPT、Midjourney、Suno、Luma等等
2024年民企前35强榜单一览表。。。
美团不同职级 薪资待遇一览表。。。
纽约街头偶遇马云。。。
值得去的20家IT公司及薪资待遇(广州篇)
一条短视频 赚了2154元(附教程)。。。
华为不同职级 薪资待遇一览表。。。
值得去的30家IT公司(深圳篇)。。。
哇,OpenAI又一重磅功能来袭。。。
百度不同职级 薪资一览表
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉