首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Ilya 小题大作？「预训练终结」≠ Scaling Law 撞墙？

科技 2024-12-23 00:01 北京

来源 | 机器之心

前 OpenAI 首席科学家 Ilya Sutskever 在 NeurIPS 2024 会议上作主题演讲，分享了他关于人工智能的未来发展方向，特别是围绕数据峰值的问题、预训练模型的局限性、以及下一代 AI 模型的自主性和推理能力等方面的看法。

他讨论了现有数据资源的限制对 AI 训练方式的影响，并预测了 AI 系统将如何发展出更类似于人类思考方式的推理能力。然而，Ilya Sutskever 在演讲中有关「预训练结束」的判断引发了许多争议。

目录

01. 数据即将枯竭，是「老生常谈」还是「小题大作」？

Ilya哪些观点引起了争议？业内都有哪些论调在反驳Ilya？

02.数据可能是石化燃料，但远远没有告罄

互联网数据真的会告罄吗？有哪些数据尚未得益利用？非互联网数据能用吗？

03. 预训练的终结本质上是 Scaling Law 的范式转移？

预训练终结和 Scaling Law 有何联系？Ilya 和 Sam Altman 的观点有冲突吗？

Ilya Sutskever 在演讲中表示，行业里称得上可用的新数据上已经接近枯竭。他将这一状况比作化石燃料的消耗：正如石油是有限资源一样，互联网中由人类生成的内容也是有限的。然而，在演讲发布后，许多声音都在强调可用于预训练的数据还非常充裕。

「预训练即将终结」在演讲后引来了 AI 社区中许多争议和反驳，认为 Sutskever 判断错误或是「小题大作」。

AI 社区的反驳和讨论大多来自两个层面，其一在于否认「数据即将枯竭」的判断，其二则围绕 Sutskever 口中即将结束「预训练」高度关联的 Scaling Law 撞墙争议展开。

有关「数据即将枯竭」的反驳中，许多知名研究者均在在社交平台中强调或将枯竭的是文本预料，但视频、图像等高维数据十分充裕；也有网友将关注点放在「互联网」之外因收费、访问限制能原因而未能用作预训练的书籍、文献等未开发资源。

另一方面，「预训练即将结束」的判断引发冲突来自业内对近年来指导 LLM 突破的 Scaling Law 可能失效的焦虑。

2024 年中，Gary Marcus 在 6 月就 Scaling Law 收益递减的话题引发了大量讨论，而后外媒 The information 在 11 月有关 Scaling Law 撞墙的报道则进一步引发了业内热议，乐观派和悲观派持续展开激烈的思辨。

此前，Ilya Sutskever 一直是 Scaling Law 的倡导者，他相信「压缩即智能」，用大型神经网络准确预测互联网上许多不同文本中的下一个词时，表面上看只是在学习文本中的统计相关性，但其实在学习一个世界模型；而在预训练环节投入更多数据和算力则提高了模型对复杂过程的理解。

然而，当坚持Scaling Law的Ilya Sutskever作出「预训练即将结束」的判断，可能代表着这种质朴的「大力出奇迹」的方式将真的不再生效，也再次点爆了近期业内有关 Scaling Law 是否撞墙的争议话题。

在媒体于11月爆料后，Sam Altman 曾在社交平台发布过「there is no wall」的推文，与此次Ilya Sutskever 的判断看似冲突。但有分析梳理了两者言论前提的差异，指出 预训练的终结的说法本质上是 Scaling Law 的范式转移......

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

爆推！中科院博士小册子助你啃透了机器学习！

2025上海交大最新《动手学大模型》实战教程及ppt分享！

OpenAI o3达到了 AGI 的门槛，甚至摸到了 ASI（超级人工智能）？

[vLLM vs TensorRT-LLM] ：系统调度schedule比较

Ilya 小题大作？「预训练终结」≠ Scaling Law 撞墙？

40岁副教授跳槽去大厂，试用期没过被辞退, 原单位回不去, 哭得稀里哗啦……

[送5本]《机器学习漫画小抄》万人追读，未出版就爆火，这本机器学习漫画小抄终于出版了！

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

今天Qwen2.5技术报告发布啦！

大厂跳槽到Start up！分享我的心路历程

震撼高层，中国工程院院士孙凝晖给正国级、副国级讲课-《人工智能与智能计算的发展》

炸裂发布！《大语言模型：导论》重磅发布！（附PDF）

Anthropic：Agents 2024年度总结！

解析大模型常用微调方法：P-Tuning、Prefix Tuning、Adapter、LoRA

[vLLM vs TensorRT-LLM]：采样方法对两者性能的影响

10W+下载，2025最新中文版《大模型基础》教程pdf免费分享

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

DPO vs PPO：深度解读谁是LLM Alignment的未来

零容忍！一博士被撤销学位，证书作废

必看！大模型训练圣经《从头训练大模型》免费PDF分享

YYDS！哈工大博士的PyTorch笔记火了！！

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

谷歌首席科学家 Jeff Dean演讲：人类设计芯片需要18个月，AI只用了1秒钟

微软开源MarkitDown，RAG文档解析就这么解决了~

吴恩达最新演讲：企业都在技术栈底层较劲，应用层才是价值洼地

最值得读的LLM书！下载量10w+！《基于Transformer和扩散模型的生成式AI》pdf免费分享

所有大模型领域学习者必读论文，没有之一！由深度学习三巨头联合撰写！

校招字节终于开奖，大模型50K*16 ！！

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

一文看懂：四种多Agent范式哪种最好

OCR多模态大模型：视觉模型与LLM的结合之路

DL4大名著，谷歌科学家Kaggle大神编写《Python深度学习》最新中文版分享

AAAI 2025论文中了：没算法没实验，全靠idea思路好...

2024年大模型后训练(post-training)总结

大模型Infra王朝2024

Qwen预训练并未终结~

终于弄懂了《Transformer入门到精通》高清pdf分享

我国退步最快的985大学？曾位列全国前十，如今排名连年下降...

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

知乎大佬解析Ilya最新言论：pre-train丸啦，搞agentic和reasoning吧

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

复旦大学：RAG最佳实践

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

年轻举报者命丧黄泉，生前曝光OpenAI ChatGPT训练惊人黑幕！！

[送5本]《智能崛起：AI文明演化史》智人之上，智能崛起，人类智能是怎么进化出来的？

哈工大博士耗时一年整理《PyTorch常用函数手册》分享，轻松掌握PyTorch的各种操作！

专访李飞飞：从2D到3D，AI将为我们带来哪些改变？

DeepSeek-VL2开源，VLM迈入MoE时代~

每个instance应该有自己的prompt！阿里提出新方法，突破零样本思维链局限

必看！大模型训练圣经《从头训练大模型》免费PDF分享

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉