首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
AI大神Andrej Karpathy的通俗解释:预训练、监督式微调、强化学习!
学术
2025-02-04 20:26
浙江
Datawhale分享
作
者:Andrej Karpathy,编译:AI寒武纪
AI 大神 Andrej Karpathy 前几天发了一篇推文,他将训练大型语言模型 (LLM) 的过程巧妙地比作教育学生,并以教科书的结构为框架,阐述了当前 LLM 训练的现状和未来方向。
这是一篇
关于预训练,监督式微调,强化学习很
通俗易懂的解释,分享给大家。
Karpathy指出,当我们打开任何一本教科书,都会看到三种主要类型的信息:
1. 背景信息 / 阐述 (Background information / exposition):
这是教科书的核心内容,用于解释各种概念和知识。学生通过阅读和学习这些内容来构建知识体系,这就像是
LLM 的预训练 (pretraining)
阶段。在预训练阶段,模型通过阅读海量的互联网文本,学习语言的规律、世界的知识,积累广泛的背景知识,为后续的学习打下基础。
2. 例题及解答 (Worked problems with solutions):
教科书会提供具体的例题,并详细展示专家如何解决这些问题。这些例题是示范,引导学生模仿学习。这与
LLM 的 监督式微调 (supervised finetuning)
阶段相对应。在微调阶段,模型学习人类专家提供的“理想答案”,学习如何生成高质量、符合人类期望的回复,例如助手类应用的“理想回答”。
3. 练习题 (Practice problems):
教科书每章节末尾通常会设置大量的练习题,这些题目往往只提供最终答案,而不给出详细的解题步骤。练习题旨在引导学生通过 试错 (trial & error) 的方式进行学习。学生需要尝试各种方法,才能找到正确的答案。卡帕西认为,这与
强化学习 (reinforcement learning)
的概念高度相似。
Karpathy强调,目前我们已经让 LLM 经历了大量的“阅读”和“示例学习”,也就是预训练和监督式微调,但对于“练习题”这一环节,也就是强化学习,我们还处于一个新兴的、尚待开发的阶段。
他认为,当我们为 LLM 创建数据集时,本质上与为它们编写教科书并无二致。为了让 LLM 真正“学会”,我们需要像编写教科书一样,提供这三种类型的数据:
大量的背景知识 (Background information):
对应预训练,让模型积累广泛的知识。
示范性的例题 (Worked problems):
对应监督式微调,让模型学习高质量的输出。
大量的练习题 (Practice problems):
对应强化学习,让模型在实践中学习,通过试错和反馈不断改进。
卡帕西总结道,我们已经让 LLM 经历了大量的“阅读”和“学习例题”,但更重要的是,我们需要引导它们进行大量的“实践练习”。
LLM 需要阅读,更需要实践。
只有通过大量的实践练习,才能真正提升 LLM 的能力,让它们更好地理解世界、解决问题。
参考:
https://x.com/karpathy/status/1885026028428681698
一起“
点
赞
”
三连
↓
Datawhale
一个专注于AI领域的开源组织,汇聚了众多优秀学习者,使命-for the learner,和学习者一起成长。
最新文章
PyCharm接入DeepSeek实现AI编程
AI大神Andrej Karpathy的通俗解释:预训练、监督式微调、强化学习!
SB OpenAI Japan正式成立!孙正义:每年投入30亿美元!
完整的671B R1塞进本地,详尽教程来了!
CCF的研讨会实录:解构DeepSeek-R1!
OpenAI突发直播:上线新智能体,刷榜人类终极考试!
手把手带你用DeepSeek-R1和Ollama搭建本地应用,一文搞定!
o3-mini 编程实测,一条python程序引发近400万围观!
一文详尽之Scaling Law!
DeepSeek R1本地部署,小白教程来了!
Stable Diffusion创始人:DeepSeek没有抄袭!
o3-mini发布!奥特曼:在开源上OpenAI一直站在历史错误的一边
原来,这些顶级大模型都是蒸馏的!
吴恩达评DeepSeek:中国AI正在崛起!
Zotero整合DeepSeek自动帮你读文献,教程来了!
为什么说DeepSeek的R1-Zero比R1更值得关注?
完整解读:从DeepSeek Janus到Janus-Pro!
DeepSeek V3论文细节:如何绕开CUDA的垄断!
快来领取你的Datawhale年度总结!
英伟达市值蒸发近6000亿,而DeepSeek刚刚又开源新模型!
完整攻略:如何用好DeepSeek,一文汇总!
获奖名单公布!动手学AI辅助编程方向!
DeepSeek-R1解读:纯强化学习,模型推理能力提升的新范式?
《黑神话:悟空》制作人冯骥推荐DeepSeek!
全球掀起DeepSeek复现狂潮,一文汇总!
获奖名单公布!动手学AI Agent方向!
第五轮学科评估结果汇总!
曝DeepSeek让Llama4未发布已落后!扎克伯格坐不住了:2025预算600亿!
2025泰晤士世界学科排名公布!
一文详尽之SFT(监督微调)!
OpenAI深夜正式发布首个智能体Operator!
一文详尽之LLM-Based Agent
2024 ACM Fellow公布:九位华人入选!
突发!特朗普联手奥特曼启动AI「星际之门」,狂砸5000亿美元!
496GB显存!最壕DeepSeek玩家8台Mac跑R1
特朗普就职典礼现场,硅谷科技大佬齐聚!
Infra视角下的DeepSeek-V3,到底有多强?
AI教父辛顿开年访谈:中国AI追近美国靠人才教育和自研
DeepSeek-V3带火大模型infra,入门看这篇就够了!
2025年Next Token Prediction范式会统一多模态吗?
TikTok昨天关服,美国又想禁小红书了?
黄仁勋和马斯克传来关键讯息,CES 2025 趋势总结!
李飞飞最新访谈:AI Agent的根本定位应该是工具而非主导者,是赋能者而非替代者!
一文详尽之Embedding(向量表示)!
周受资:将尽全力确保TikTok平台继续繁荣!
股票购买计划让员工赚翻了!曝英伟达:78%员工是百万富翁,每两人就有一个资产过亿!黄仁勋:不裁员,自愿上班
2025 AAAI Fellow公布:四位华人入选!
书生·浦语大模型升级,突破思维密度,4T数据训出高性能模型
智谱AI回应:被美国列入实体清单!
马斯克Boss直聘:不看学历,只看代码
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉