别教授它，去激励它

文摘科技 2024-09-22 13:26 新加坡

Don't teach. Incentivize

别教授它，去激励它

‍‍‍‍‍

一点题外话：OpenAI o1发布引起了广泛的对所谓RL + Self-paly、Inference-time Scaling Up新范式的讨论，模型甫一发布，就有很多人在朋友圈说“早就知道xxxx了”，确实学术界已经做了蛮多类似的工作，甚至在小圈子里早已是共识，但是“知道”并没有什么用，重要的是我们如何真正“做到”，知道而做不到还是因为知道得太浅显。

回到本期主题，也是关于“范式”或者一些看待模型学习的新视角（按照最近常见的说法就是“可能是o1的核心秘诀！”（误），分享的视频来自OpenAI的Research Scientist Hyung Won Chung，短小精悍易理解，标题意思是说在训练模型时，我们应当避免灌输给模型知识，而是激发模型去自主学习，除核心要点外还有更多有趣的细节。

放一下笔者对视频的摘要，只摘录了有启发性的句子，读者可依总结决定是否看视频：

AI研究应该建立scale-first的视角，硬件指数级发展，我们需要更scalable的方法利用这些算力，scaling意味着：识别限制着进一步scale up的建模假设然后用一个更加scalable的假设代替它；
研究者在教机器思考时喜欢教授“人类怎么思考”来让模型模仿这种思考，但我们其实在底层（神经元层面）并不知道自己如何思考，导致人类强加的关于如何学习的结构可能正是限制scale up的瓶颈；
人类引入结构，短期可能看起来很好，但长期看可能是一件坏事。机器变便宜的速度比我们变成更好的研究者的速度更快，我们应该给机器更大的自由让它们自己决定如何学习；
以next-token prediction目标训练语言模型，其他能力自然就掌握了，这是因为我们弱势（相对于强加）地激发模型；
涌现的能力通常是更通用的技能（让模型自发找到这些能用于更多具体任务的技能，如语言学习能力，理解能力与推理能力）；
三个激发而非教授的例子：

对于网页规模数据的预测下一个词的学习：显性信号是预测下一个词，诱导动机是让模型理解语言与推理；
对于奖励结果为{0,1}的棋类游戏：显性信号是赢下一局游戏，诱导动机是学习怎么走一步棋是好的；
对于模型幻觉：显性信号是正确回答问题，诱导动机是让模型知道它不知道什么；

一个比喻：

授人以鱼，一天饿不死
授人以渔，一辈子饿不死
授人以“鱼的味道并让他感觉饿”（能干嘛，作者没写，可能是发现创造新的捕鱼方法，新的烹饪方法，探索不同的水域，推动鱼科技发展=。=

上述比喻的不同方式需要不同的时间消耗，对于人而言是time required，对于机器而言是compute required，因此有个点是“大模型通才-小模型专家”间的tradeoff，这种tradeoff只是因为人时间有限，但机器不受限于time budget，所以这种tradeoff对机器不适用（言外之意可能是说应该避免分配精力到发展小模型上，我瞎猜的哈哈哈；
上述“启发结构的重要性”并非新思想，为什么是现在？因为某种水平的智力对于这种启发结构是必要的，正如同无论给猴子多少香蕉可能也无法激发猴子做数学推理，我们的模型已经跨过了某个阈值，激发模型变得可行了；
“yet”的视角：This idea doesn't work ——> This idea doesn't work yet，我们太习惯于底层公理永远不变的环境，但语言模型的基础能力作为很多研究的底层公理是会变化的，因此很多当下不work的idea或许换个时间会work，或者说以前不work的idea当下work；
需要持续遗忘（unlearning）：一体两面的，很多idea已经过时并在规模扩大后验证为无效，我们需要持续忘掉建立在无效idea上的直觉。而初学者的优势也在此，没有很多过时思想入脑；
涌现的发生需要对的（或者说新的？）视角，比如“遗忘掉错误的直觉”。

另外，slides请点击原文链接，google doc上的。

最后彩蛋，Jason Wei纯搞子。“在OpenAI的健身房里看到Hyung Won和Jason围着幻灯片讨论AI领域的范式转变，真是一点都不意外呢。”

撰文：戴剑波；编辑：戴剑波

未经本公众号授权不得转载，欢迎转发。

SparksofAGI

人工智能前沿论文分享（注意！未关注的朋友我是回复不了您的私信的）

香港科技大学（广州）郭志江老师招收25 Fall全奖PhD/实习生，博士生奖学金每月1.5万！

COCONUT：将推理放在连续潜在空间进行

一种能提升Transformer复杂规划任务表现的训练目标：MLM-U

别教授它，去激励它

现有数据集普遍存在偏差？DART-Math：使用难度感知拒绝调优增强数学问题求解

代码数据在预训练时要训吗？训多少？退火时要放吗？

SELF-GUIDE：让模型自主生产任务特定微调数据

分词器暴露了模型训练数据分布，比如Claude系列模型用了57%的代码数据

可“自主进化”的Agent？首个端到端的智能体符号化训练框架开源了

演进指令方法增强版：自动演进指令

OpenAI危？！Claude已经超越GPT系列了？尤其在代码上...

MIT、清华、剑桥等发布元推理能力评测集：从答题到阅卷，还以MMLU评测大模型你就out了

缩放与评估稀疏自编码器

关注者推荐：当模型在胡说的时候知道自己在胡说吗？

微调真的导致了模型幻象吗？

AGI 的最终挑战（一）：AI for Math

LayerSkip——新的训练与推理范式：层Dropout，早期退出机制与自投机解码结合

仿照计算机系统的权限概念，指令层级帮助大模型防范多种攻击

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉