Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

科技 2024-12-01 12:25 北京

机器之心报道

机器之心编辑部

也许是时候寻找新的方法了？

大模型回答人类的对话内容，究竟有多少「智能」成分在里面？

本周五，知名 AI 领域学者，OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 发表观点：「人们对『向人工智能询问某件事』的解释过于夸张」，引发网友热议。

Karpathy 称：人工智能基本上是通过模仿人工标注数据来进行训练的语言模型。所以不要将对话视为「询问人工智能」的神秘主义，而应将其更多地视为「询问互联网上的平均数据标注者」。

例如，当你问「阿姆斯特丹十大景点」之类的问题时，一些受雇的数据标签员可能在某个时候看到了类似的问题，使用谷歌等软件研究了 20 分钟，列出了 10 个景点的列表，然后字面意思就变成了正确答案，训练人工智能给出该问题的答案。如果有问题的确切位置不在微调训练集中，神经网络会根据从预训练阶段（互联网文档的语言建模）获得的知识来进行估计。

当有网友评论称：「RLHF 可以创造超越人类的结果」，Karpathy 表示：「RLHF 仍然是来自人类反馈的 RL，所以我不会这么说」。

Karpathy 认为：RLHF 将模型性能从 SFT 的「人工生成」级别提升到「人工判别」级别。但这与其说是「原则上」，不如说是「实践上」，因为「判别」对于普通人来说比「生成」更容易（例如，判断这 5 首关于 X 的诗中哪一首最好，而不是写一首关于 X 的诗）。

另外，还可以从群体智慧效应中获得单独的提升，即 LLM 的性能不是达到人类水平，而是达到人类整体水平。因此，原则上，对于 RLHF，所能期望的最好结果就是达到专家水平。

所以从某种意义上来说，这算是「超人」，但 Karpathy 认为：要按照人们默认的方式成为真正的「超人」，要去 RL 而不是 RLHF。

其实，这已不是 Andrej Karpathy 第一次批判 RLHF 了。作为前 OpenAI 重要成员，他在今年 8 月就和 Yann LeCun 等人一起质疑过由 GPT 系列模型发扬光大的 RLHF 强化学习的意义。

「RLHF 只是勉强算强化学习。」

他当时使用 DeepMind 的 AlphaGo 作为例子。如果我们当时用 RLHF 的方法训练 AlphaGo 会是什么样子？可能会既无法构成有效的奖励，又会形成偏离正常轨道的优化，那就势必无法创造出「打败人类世界冠军」的历史了。

出于同样的原因，Karpathy 对 RLHF 竟然适用于 LLM 感到「有点惊讶」。因为我们为 LLM 训练的 RM（Reward Model）只是以完全相同的方式进行直觉检查。它会对人类标注者可能喜欢的判断给出高分，它不是正确解决问题的「实际」目标，而是人类认为好的替代目标。

其次，你甚至不能运行 RLHF 太长时间，因为你的模型很快就会学会适应游戏奖励模型，再推理出一些不正常的 Token。这在人类看来很荒谬，但出于某种原因 RM 会认为看起来很棒。

无独有偶，今年 9 月，一篇来自 VRAIN、剑桥大学研究人员的 Nature 论文对 o1-preview 等模型进行了评测，发现很多对于人类来说简单的任务，大模型却根本无法解决。而在一些复杂的任务上，LLM 也根本不知道「回避」，而是会装模作样的思考一通之后，给出一个错误的答案。

虽然随着时间的推移，大模型的参数体量越来越大，训练的数据也越来越多，性能也不断提升，但从基础机制的角度来说，它们似乎并不靠谱。

如果 RLHF 不管用，还能有什么样的奖励机制能帮助大模型「准确遵循指令」呢？

今年 7 月，OpenAI 就公布了一种教导 AI 模型遵守安全政策的新方法，称为基于规则的奖励（Rule-Based Rewards，RBR）。RBR 不仅限于安全训练，它们可以适应各种任务，其中明确的规则可以定义所需的行为，例如为特定应用程序定制模型响应的个性或格式。这或许为大模型下一步性能突破提供了新的思路。

参考内容：

https://x.com/karpathy/status/1821277264996352246

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650945050&idx=2&sn=fc6f4eaae865df842cc2eda1f5ef3dd1

机器之心

专业的人工智能媒体和产业服务平台

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

Ilya 「Scaling What」的答案会是程序性知识吗？

关于计算机视觉中的自回归模型，这篇综述一网打尽了

ChatGPT 发布后这两年，该关注什么？机器之心打包了24个主题350多篇高质量文章

三名高中生，为近百年的分形定理带来了新证明

陶哲轩：通义千问QwQ奥数真厉害，开源大模型顶流

GPT-5涌现能力可预测？UC伯克利仅使用当前模型检查点预测未来模型

多模态慢思考：分解原子步骤以解决复杂数学推理

「瞄准」o1：国内大模型厂商的技术思路有何不同？过度推理成通病？

AI现场发了2万红包，打开了大模型Act时代

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

斯坦福吴佳俊扩散自蒸馏来了！突破文生图身份保留挑战

算法系统协同优化，vivo与港中文推出BlueLM-V-3B，手机秒变多模态AI专家

上百万智能体在OASIS模拟平台上玩推特，AI玩社交媒体和真人有多像？

向量数据库的中场战事：长期主义者Zilliz如何全球突围

世界首次！智源研究院实现数字孪生心脏电功能超实时仿真

rebuttal真的有用！这篇ICLR论文，所有审稿人都加了2分，直接跃升排名第9

12%计算量就能媲美原模型，Adobe、罗切斯特大学等提出YOPO剪枝技术

LLM破局泛化诊断难题，MSSP刊登北航PHM实验室健康管理大模型交叉研究

刚刚，Ilya的Seq2Seq、Ian的GAN获NeurIPS时间检验奖

Scaling Law 撞墙？复旦团队大模型推理新思路：Two-Player架构打破自我反思瓶颈

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度

HuggingFace工程师亲授：如何在Transformer中实现最好的位置编码

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文本

Sora就这么泄露了三小时，网友调侃Altman急拔网线，艺术家们也在抗议被「白嫖」

创业一年半，胖了30斤，AI大佬感叹：还是回谷歌好

吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型

陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、近零开销

「毕昇一号」DNA活字存储喷墨打印机来了，低成本、高效率、全自动的DNA存储

撞墙还是新起点？自回归模型在图像领域展现出Scaling潜力

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

更新了！带Agent的Cursor太疯狂了

小学二年级数学水平，跟着这篇博客也能理解LLM运行原理

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

智能体竟能自行组建通信网络，还能自创协议提升通信效率

AI版周扒皮！打字速度慢、鼠标超30秒未动，就被AI「警告」，Karpathy下场评论

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉