Don't teach. Incentivize
别教授它,去激励它
一点题外话:OpenAI o1发布引起了广泛的对所谓RL + Self-paly、Inference-time Scaling Up新范式的讨论,模型甫一发布,就有很多人在朋友圈说“早就知道xxxx了”,确实学术界已经做了蛮多类似的工作,甚至在小圈子里早已是共识,但是“知道”并没有什么用,重要的是我们如何真正“做到”,知道而做不到还是因为知道得太浅显。
AI研究应该建立scale-first的视角,硬件指数级发展,我们需要更scalable的方法利用这些算力,scaling意味着:识别限制着进一步scale up的建模假设然后用一个更加scalable的假设代替它; 研究者在教机器思考时喜欢教授“人类怎么思考”来让模型模仿这种思考,但我们其实在底层(神经元层面)并不知道自己如何思考,导致人类强加的关于如何学习的结构可能正是限制scale up的瓶颈; 人类引入结构,短期可能看起来很好,但长期看可能是一件坏事。机器变便宜的速度比我们变成更好的研究者的速度更快,我们应该给机器更大的自由让它们自己决定如何学习; 以next-token prediction目标训练语言模型,其他能力自然就掌握了,这是因为我们弱势(相对于强加)地激发模型; 涌现的能力通常是更通用的技能(让模型自发找到这些能用于更多具体任务的技能,如语言学习能力,理解能力与推理能力); 三个激发而非教授的例子: 对于网页规模数据的预测下一个词的学习:显性信号是预测下一个词,诱导动机是让模型理解语言与推理; 对于奖励结果为{0,1}的棋类游戏:显性信号是赢下一局游戏,诱导动机是学习怎么走一步棋是好的; 对于模型幻觉:显性信号是正确回答问题,诱导动机是让模型知道它不知道什么; 一个比喻: 授人以鱼,一天饿不死 授人以渔,一辈子饿不死 授人以“鱼的味道并让他感觉饿”(能干嘛,作者没写,可能是发现创造新的捕鱼方法,新的烹饪方法,探索不同的水域,推动鱼科技发展=。= 上述比喻的不同方式需要不同的时间消耗,对于人而言是time required,对于机器而言是compute required,因此有个点是“大模型通才-小模型专家”间的tradeoff,这种tradeoff只是因为人时间有限,但机器不受限于time budget,所以这种tradeoff对机器不适用(言外之意可能是说应该避免分配精力到发展小模型上,我瞎猜的哈哈哈; 上述“启发结构的重要性”并非新思想,为什么是现在?因为某种水平的智力对于这种启发结构是必要的,正如同无论给猴子多少香蕉可能也无法激发猴子做数学推理,我们的模型已经跨过了某个阈值,激发模型变得可行了; “yet”的视角:This idea doesn't work ——> This idea doesn't work yet,我们太习惯于底层公理永远不变的环境,但语言模型的基础能力作为很多研究的底层公理是会变化的,因此很多当下不work的idea或许换个时间会work,或者说以前不work的idea当下work; 需要持续遗忘(unlearning):一体两面的,很多idea已经过时并在规模扩大后验证为无效,我们需要持续忘掉建立在无效idea上的直觉。而初学者的优势也在此,没有很多过时思想入脑; 涌现的发生需要对的(或者说新的?)视角,比如“遗忘掉错误的直觉”。
撰文:戴剑波;编辑:戴剑波
未经本公众号授权不得转载,欢迎转发。