OpenAI 直播第二天,这些内容值得关注!

科技   2024-12-08 13:38   江苏  
在刚刚结束的OpenAI第二场直播中,OpenAI计划明年初发布强化学习微调API,把强化学习的门槛给打下来了,只需输入极少的数据,就能微调出一个专业领域的专家。
其实昨天在OpenAI在发布o1正式版之后,奥特曼还加了一个评论说:o1非常强大,但还没强大到宇宙需要用海啸来提醒我们
这说明o1并非可以解决一切问题,而OpenAI在Day2发布的强化学习微调能力可以弥补o1的短板。
用户只需要使用数十到数千个高质量的任务来定制模型,这种模型定制技术可以让开发人员以低成本方式微调出专门针对特定复杂、特定领域任务的专家模型,比如编程以及一些科学研究任务。
我觉得现阶段AGI风向,已经明显转了,我们从“Smart or Not”转向了"Useful or Not”
我们按顺序梳理下面的概念:
AGI--以“类人”的方式实现自动化
以Transformer语言模型为推理基础,模拟人的思考模式,行动模式,道德框架,来达成“自动化”这种范式是自然语言模型的底层结构决定,不是最高效的,但最符合现阶段的数据条件。
o1-- 一个推理智能体。
01是第一个"基于LLM”的真Agent,通过强化学习形成,它们形成了一种可以“自主行动”的主体。换句话说,到了o1这一步,才有了真正的思考,而不是单纯的"上下文相关性直觉机”。
01知道如何趋利避害--什么样的思考方式可以得到奖励,什么样的思考方式会受到惩罚。--就如我们之前讨论过的,这个世界千变万化,但有些模式性的东西,却有着很强的单调性,--比如发散”“反思”“逻辑纠错”“直觉纠错”"TD期望。
RFT--强化学习微调。
这是一个福利,也就是OpenA!把自己开发好的Agent o1开放给用户。让o1在更接近世界的真实数据中学习训练,最终可以在真实数据中推理。OpenA!强调了"学”这个概念。像外挂RAG远远谈不上学,01不仅要利用数据,还要学"行业套路”
想想看,如果Perplexity把o1引入搜索框架中,那么我们获榨干互联网的能力还能进一步提升。

强化微调是什么,与传统微调的区别在哪

下面是豆包给的答案
  • 原理:在强化微调中,会定义一个基于模型在特定任务中的表现的奖励信号来指导模型参数的更新过程,而不是像传统微调那样主要基于损失函数。策略优化则是利用强化学习中的算法,如策略梯度算法,根据奖励信号来更新模型参数,让模型像智能体一样,通过不断尝试和学习找到最优策略1.
  • 运作方式:当模型遇到问题时,研究者给予其思考空间,然后评估模型给出的最终解答。通过强化学习,强化产生正确答案的思路,抑制产生错误答案的思路。只需 “几十个例子” 甚至 12 个例子,模型就能以有效的新方式学习特定领域的推。

Anthropic嘟嚷了许久的LLM助力科学研究的愿景,被OpenA!一个反手实现了,还是开箱即用的那种。。
知道以前模型微调+是多么困难,效果是多么不明显的人(很多时候还不如In-Context Learming)才会感受到此次强化微调所带来的显著提升是个什么突破:如奥特曼所说的,“这是今年最大的惊喜”
那么,这个强化学习微调API到底是怎么工作的呢?
简单来说,它就是利用强化学习的力量,让模型在面对问题时,能够自己思考、自己探索,最终找到正确的答案。
这简直就像是在培养一个聪明的小孩一样,只不过这个小孩是个AI!
而且,这个API的操作也非常简单,就像玩游戏一样。
你只需要在网页界面选择训练集和验证集,然后配置一下超参数,就可以开始训练了。训练过程中,你还可以观察模型性能指标的变化趋势,简直就像是在看一部科幻大片一样!
当然,这个API目前还处于alpha阶段,也就是说,它还有很多需要改进和完善的地方。
但OpenAI已经开放了申请测试通道,如果你要想试试的话,可以填一下OpenAI的RFT申请表单
但是网上也有不同的声音,有专业人士认为“代理”和“微调”与“人工智能”这个概念背道而驰,约等于:我的准度也就这样了, 你去修正一下靶子。
总的来说,OpenAI这次发布的强化学习微调API,无疑是一个震撼人心的创新!它让我们看到了AI在特定领域的无限可能,也让我们对未来的AI世界充满了期待!
所以,各位亲爱的AI爱好者们,让我们一起期待这个“魔法宝瓶”在未来的表现吧!也许在不久的将来,我们就能看到更多令人惊叹的AI应用诞生!



AI光子社
专注于AIGC的技术发展和商业应用,在人工智能时代,致力于让新技术为更多的普通人赋能增效。
 最新文章