别教授它,去激励它

文摘   科技   2024-09-22 13:26   新加坡  

Don't teach. Incentivize

别教授它,去激励它

‍‍‍‍‍





一点题外话:OpenAI o1发布引起了广泛的对所谓RL + Self-paly、Inference-time Scaling Up新范式的讨论,模型甫一发布,就有很多人在朋友圈说“早就知道xxxx了”,确实学术界已经做了蛮多类似的工作,甚至在小圈子里早已是共识,但是“知道”并没有什么用,重要的是我们如何真正“做到”,知道而做不到还是因为知道得太浅显。


回到本期主题,也是关于“范式”或者一些看待模型学习的新视角(按照最近常见的说法就是“可能是o1的核心秘诀!”(误),分享的视频来自OpenAI的Research Scientist Hyung Won Chung,短小精悍易理解,标题意思是说在训练模型时,我们应当避免灌输给模型知识,而是激发模型去自主学习,除核心要点外还有更多有趣的细节。

放一下笔者对视频的摘要,只摘录了有启发性的句子,读者可依总结决定是否看视频:
  • AI研究应该建立scale-first的视角,硬件指数级发展,我们需要更scalable的方法利用这些算力,scaling意味着:识别限制着进一步scale up的建模假设然后用一个更加scalable的假设代替它
  • 研究者在教机器思考时喜欢教授“人类怎么思考”来让模型模仿这种思考,但我们其实在底层(神经元层面)并不知道自己如何思考,导致人类强加的关于如何学习的结构可能正是限制scale up的瓶颈
  • 人类引入结构,短期可能看起来很好,但长期看可能是一件坏事。机器变便宜的速度比我们变成更好的研究者的速度更快,我们应该给机器更大的自由让它们自己决定如何学习;
  • 以next-token prediction目标训练语言模型,其他能力自然就掌握了,这是因为我们弱势(相对于强加)地激发模型;
  • 涌现的能力通常是更通用的技能(让模型自发找到这些能用于更多具体任务的技能,如语言学习能力,理解能力与推理能力);
  • 三个激发而非教授的例子:
    • 对于网页规模数据的预测下一个词的学习:显性信号是预测下一个词,诱导动机是让模型理解语言与推理;
    • 对于奖励结果为{0,1}的棋类游戏:显性信号是赢下一局游戏,诱导动机是学习怎么走一步棋是好的;
    • 对于模型幻觉:显性信号是正确回答问题,诱导动机是让模型知道它不知道什么
  • 一个比喻:
    • 授人以鱼,一天饿不死
    • 授人以渔,一辈子饿不死
    • 授人以“鱼的味道并让他感觉饿”(能干嘛,作者没写,可能是发现创造新的捕鱼方法,新的烹饪方法,探索不同的水域,推动鱼科技发展=。=

  • 上述比喻的不同方式需要不同的时间消耗,对于人而言是time required,对于机器而言是compute required,因此有个点是“大模型通才-小模型专家”间的tradeoff,这种tradeoff只是因为人时间有限,但机器不受限于time budget,所以这种tradeoff对机器不适用(言外之意可能是说应该避免分配精力到发展小模型上,我瞎猜的哈哈哈;
  • 上述“启发结构的重要性”并非新思想,为什么是现在?因为某种水平的智力对于这种启发结构是必要的,正如同无论给猴子多少香蕉可能也无法激发猴子做数学推理,我们的模型已经跨过了某个阈值,激发模型变得可行了
  • “yet”的视角:This idea doesn't work ——> This idea doesn't work yet,我们太习惯于底层公理永远不变的环境,但语言模型的基础能力作为很多研究的底层公理是会变化的,因此很多当下不work的idea或许换个时间会work,或者说以前不work的idea当下work;
  • 需要持续遗忘(unlearning):一体两面的,很多idea已经过时并在规模扩大后验证为无效,我们需要持续忘掉建立在无效idea上的直觉。而初学者的优势也在此,没有很多过时思想入脑;
  • 涌现的发生需要对的(或者说新的?)视角,比如“遗忘掉错误的直觉”。

另外,slides请点击原文链接,google doc上的。

最后彩蛋,Jason Wei纯搞子。“在OpenAI的健身房里看到Hyung Won和Jason围着幻灯片讨论AI领域的范式转变,真是一点都不意外呢。”


撰文:戴剑波;编辑:戴剑波

未经本公众号授权不得转载,欢迎转发。

SparksofAGI
人工智能前沿论文分享(注意!未关注的朋友我是回复不了您的私信的)