今天给大家带来的是好友@Binyuan的一篇想法,主要是对Ilya的“pre-training as we know it will end” 观点的看法。
正文如下:
最近,Ilya 在 NeurIPS 的演讲中提到了一个观点:“pre-training as we know it will end” 引发了热烈的讨论。我非常认同 agent、synthetic data 和 inference-time computing 是未来超级智能的突破点,但我认为开放社区仍然需要在 pre-training 坚持一段时间。
数据扩展:训练数据要真正做到 “覆盖整个互联网” 并不容易。比如,Qwen2.5 在预训练的时候使用了 18T tokens,但这些数据仍然不足以覆盖所有领域的知识,尤其是一些长尾领域的内容,也无法覆盖持续不断更新的数据。可以预见,开源模型预训练必须依赖更多的数据。此外,数据清洗仍然是一个重要环节。目前社区尚未完全掌握所有数据清洗的最佳技巧,也无法以低成本获取高质量数据。因此,可扩展的数据工程还是最高优先级的任务。
模型扩展:在扩大模型规模时,也面临着训练技术上的限制。例如,Llama 405B 的性能其实不及预期,这说明只有少数机构掌握了超大模型训练的方法,而这些技术尚未完全公开。需要更加注重创新的训练方法和更稳定的模型设计,以降低超大规模模型的训练风险,让更多研究者能够参与其中。另外,暂时还没办法确定足以实现预期结果的最佳模型大小。
还有一个必须承认的事实,无论是合成数据还是 posttraining 的研究都会受限于 base model 的质量。我猜测 o1 的成功是预训练和后训练两个阶段共同努力的结果。在社区能够拥有像 OpenAI 一样强大的预训练模型之前,我们不能轻易放弃对 pretraining 的投入。
由于我们无法获得 Ilya 所看到的最强预训练模型的 token 数量、参数规模以及实际性能,这种信息的不透明性让我们很难准确判断预训练是否已经达到极限。
而开放社区需要高质量的 Base 模型来推动后续的研究。如果预训练停止,社区可能会在 posttraining 的研究上快速遇到瓶颈。
所以,我们和 ilya 玩的是两个游戏:
Pretraining as Ilya knows it will end, but not for us.