Ilya向全世界宣布：预训练的黄金时代已经结束了！

文摘 2024-12-16 23:58 新加坡

这几天，AI圈迎来了一个重磅炸弹! Ilya Sutskever 在全球顶级会议 NeurlPS 2024上的演讲，明确表示了 “预训练的黄金时代已经结束了！”。

但细想之下，这个结论其实并不令人意外。就在几个月前，OpenAI发布的o1模型就已经为我们展示了一个新的 Scaling Law 的可能性。（只是是否像 Pre-training 的 Scaling Law 一样可以让模型训练有一个质的飞跃，目前还存疑）

Scaling Law的概念

回顾过去6年，从GPT-1到现在的飞跃式发展，最大的推动力就是 Scaling Law。

Scaling Law是 OpenAI 在2020年提出的一篇论文 Scaling Laws for Neural Language Models。它是深度学习领域的一个重要概念，它描述了随着模型规模、数据量或计算量的增加，模型性能如何变化的规律。这一规律由 OpenAI和其他研究团队在大量实验中总结出来，对构建高效的深度学习系统有重要意义。

Scaling Law 主要的要点就是下面几个方面：

模型规模

增大模型的参数数量通常能显著提升性能。
但是这种提升有一个递减效应, 随着模型规模的进一步增加，性能增益会逐渐减小

数据量

提高训练数据的数量通常也会提升模型的性能
但模型的规模需要与数据量匹配：一个小模型无法有效利用大量数据，而一个大模型如果缺乏足够的数据，也会导致欠拟合或过拟合。

计算量

计算量包括训练的时间和 GPU 等硬件资源的使用量
对于固定的数据集和模型规模，训练时间的增加可以提升性能，但收益也会逐渐降低

从上面我们可以看出，你有足够多的数据，足够大的网络，足够长的训练时间，你就会有一个GPT。

现在的o1模型虽然在使用更精巧的思维链（CoT）技术，但这项技术其实在两年前就已经存在了。当 Scaling Law 不再是一个现实的选择时，我们不得不认真思考：下一个突破口在哪里？因为在公开文献中，我们还没有看到任何一条通往 AGI（通用人工智能）的明确路径。

预训练遇到天花板

在演讲开始，Ilya 直接点明了当前AI发展的困境：虽然计算能力还在持续提升，但可用的优质训练数据却已经见顶。他用了一个生动的比喻："高质量的训练数据就像化石燃料，是不可再生的资源。"这句话道出了目前大语言模型发展的痛点。

众所周知，GPT系列模型主要依赖互联网上的文本数据进行训练。但现在，可用的优质网络文本已经被各大模型"消耗"殆尽。更糟糕的是，网络上的新增内容中，相当一部分已经是AI生成的内容，这些"污染数据"并不适合用来训练新模型。

这里面我的理解是互联网只有一个，而目前互联网上已经充斥着大量AI生成的数据，而前一阵有论文已经表明大模型训练假如掺杂AI生成的数据，会导致模型性能下降甚至崩溃。估计这里指的数据就是这些“污染数据”。

Scaling Law失效了？

Ilya 在演讲中说，"如果你有一个巨大的数据集，训练一个超大的神经网络，那么成功是必然的。" 但现在，这个公式似乎失效了。因为数据这个关键变量已经触顶，即便你有再强大的计算资源，也无法突破这个瓶颈。

这也解释了为什么最近很多模型都在走"小而精"的路线。比如OpenAI的o1模型，就是在精简数据和缩减参数的基础上，追求更高的效率。

未来路在何方？

Ilya 在演讲结尾提出了三个可能的突破方向：智能体、合成数据和推理时计算。这标志着AI发展即将进入一个新阶段，虽然充满不确定性，但也蕴含着无限可能。

对整个AI圈而言，这个冬天注定不会平静。我们或许正站在一个新时代的门槛上，关键是要在这场范式转换中抓住机遇。正如 Ilya 所说："预训练时代的结束，标志着超级智能时代的开始。"

如果你觉得今天的分享有帮助，记得点赞、收藏并转发，下次找起来更方便哦！

蔡荔谈AI

AI科普 AI培训超级个体创业

最新文章

以色列秘密行动曝光：摩萨德如何用“古董设备”摧毁真主党

AI竞速2024：张小珺与李广密深度对谈，揭示下一个产业爆点

OpenAI o3模型突破：AGI真的来了？

Anthropic 7个核心创始人讨论他们的过去、现在和未来

OpenAI 12场发布会第12天：o3 和 o3 mini

OpenAI 12场发布会第11天：桌面应用（吐槽版）

OpenAI 12场发布会第10天：两个新功能（电话接入和WhatsApp集成）是技术普惠还是鸡肋？

OpenAI 12场发布会第9天：Dev Day

OpenAI 12场发布会第8天： Search

Ilya向全世界宣布：预训练的黄金时代已经结束了！

生数科技发布 Vidu 1.5版本，搞定了AI视频一致性

OpenAI 12场发布会第7天：Projects

OpenAI 12场发布会第6天：高级语音视觉功能

OpenAI 12场发布会第5天： Apple Intelligence

OpenAI 12场发布会第四天： OpenAI Canvas

OpenAI 12场发布会第3天：Sora正式上线，引领AI视频创作新时代

一份8小时实测报告，告诉你该怎么选择AI模型

2025科技展望：a16z合伙人50人集体预测

OpenAI 12场发布会第2天：强化微调技术重磅亮相

OpenAI 12场发布会第一天：o1正式版与ChatGPT Pro闪亮登场

在AI时代如何找到理想工作？

从小工具站到月入十万：GreenCardPhotoCheck.com如何抓住细分市场？

2024 AI Agent 最新发展报告

20岁的小姑娘如何用OnlyFans一年赚4347万美元？

有人用大模型创建了一个AI对冲基金团队

马上双12啦，给粉丝发140个大红包！

字节起诉前实习生索赔800万

360新产品【纳米搜索】：一键把搜索结果生成短视频，让你秒变视频达人？

字节起诉前实习生索赔800万

AI+教育赛道的开源软件：LlamaTutor

OpenAI都在用的AI会计软件-Numeric

最新可口可乐AI圣诞广告争议：当经典遇上AI

解析 AI Agent 全景技术地图

5种常见坏习惯，正在偷偷摧毁你的大脑健康！

门罗风投：2024年企业生成式AI支出增长超5倍

Magentic-One：用于解决复杂任务的多智能系统

如何让AI写作少一些"AI味"

AI大模型的局限与挑战

刻意练习的秘密：5大要素，快速提升技能

让 Claude 写出更好代码的秘诀：KISS/YAGNI/SOLID 原则详解

从涂津豪的“Thinking Claude”看提示词工程最佳实践

Lex Fridman和Anthropic创始人Dario Amodei的访谈简述：AI未来的发展和观点

揭秘日本餐饮加盟：为什么小型餐饮加盟几乎都是陷阱？

AI行业转折点：从Scaling Law之争看行业新方向

压力管理的七个实用小技巧：来自心理健康专家的建议

OpenAI又一个华人副总裁、北大校友翁荔宣布离职

费曼学习法：将复杂变简单的四步学习法则

解释性AI（Explainable AI）- 如何让 AI 更可信？

AI 产品开发新路径：大模型如何重构与认知提升

姜萍事件背后：关于诚信、教育与组织能力的思考

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉