这几天,AI圈迎来了一个重磅炸弹! Ilya Sutskever 在全球顶级会议 NeurlPS 2024上的演讲,明确表示了 “预训练的黄金时代已经结束了!”。
但细想之下,这个结论其实并不令人意外。就在几个月前,OpenAI发布的o1模型就已经为我们展示了一个新的 Scaling Law 的可能性。(只是是否像 Pre-training 的 Scaling Law 一样可以让模型训练有一个质的飞跃,目前还存疑)
Scaling Law的概念
回顾过去6年,从GPT-1到现在的飞跃式发展,最大的推动力就是 Scaling Law。
Scaling Law是 OpenAI 在2020年提出的一篇论文 Scaling Laws for Neural Language Models。它是深度学习领域的一个重要概念,它描述了随着模型规模、数据量或计算量的增加,模型性能如何变化的规律。这一规律由 OpenAI和其他研究团队在大量实验中总结出来,对构建高效的深度学习系统有重要意义。
Scaling Law 主要的要点就是下面几个方面:
模型规模
增大模型的参数数量通常能显著提升性能。 但是这种提升有一个递减效应, 随着模型规模的进一步增加,性能增益会逐渐减小
提高训练数据的数量通常也会提升模型的性能 但模型的规模需要与数据量匹配:一个小模型无法有效利用大量数据,而一个大模型如果缺乏足够的数据,也会导致欠拟合或过拟合。
计算量包括训练的时间和 GPU 等硬件资源的使用量 对于固定的数据集和模型规模,训练时间的增加可以提升性能,但收益也会逐渐降低
从上面我们可以看出,你有足够多的数据,足够大的网络,足够长的训练时间,你就会有一个GPT。
现在的o1模型虽然在使用更精巧的思维链(CoT)技术,但这项技术其实在两年前就已经存在了。当 Scaling Law 不再是一个现实的选择时,我们不得不认真思考:下一个突破口在哪里?因为在公开文献中,我们还没有看到任何一条通往 AGI(通用人工智能)的明确路径。
预训练遇到天花板
在演讲开始,Ilya 直接点明了当前AI发展的困境: 虽然计算能力还在持续提升,但可用的优质训练数据却已经见顶。 他用了一个生动的比喻:"高质量的训练数据就像化石燃料,是不可再生的资源。"这句话道出了目前大语言模型发展的痛点。
众所周知,GPT系列模型主要依赖互联网上的文本数据进行训练。但现在,可用的优质网络文本已经被各大模型"消耗"殆尽。更糟糕的是,网络上的新增内容中,相当一部分已经是AI生成的内容,这些"污染数据"并不适合用来训练新模型。
这里面我的理解是互联网只有一个,而目前互联网上已经充斥着大量AI生成的数据,而前一阵有论文已经表明大模型训练假如掺杂AI生成的数据,会导致模型性能下降甚至崩溃。估计这里指的数据就是这些“污染数据”。
Scaling Law失效了?
Ilya 在演讲中说,"如果你有一个巨大的数据集,训练一个超大的神经网络,那么成功是必然的。" 但现在,这个公式似乎失效了。因为数据这个关键变量已经触顶,即便你有再强大的计算资源,也无法突破这个瓶颈。
这也解释了为什么最近很多模型都在走"小而精"的路线。比如OpenAI的o1模型,就是在精简数据和缩减参数的基础上,追求更高的效率。
未来路在何方?
Ilya 在演讲结尾提出了三个可能的突破方向:智能体、合成数据和推理时计算。这标志着AI发展即将进入一个新阶段,虽然充满不确定性,但也蕴含着无限可能。
对整个AI圈而言,这个冬天注定不会平静。我们或许正站在一个新时代的门槛上,关键是要在这场范式转换中抓住机遇。正如 Ilya 所说:"预训练时代的结束,标志着超级智能时代的开始。"
如果你觉得今天的分享有帮助,记得点赞、收藏并转发,下次找起来更方便哦!