前天,OpenAI 的联合创始人兼前首席科学家 Ilya Sutskever 在全球 AI 顶会上NeurIPS发表演讲并宣判:数据不再增长,预训练将终结。然而,Qwen团队成员对此表达自己的观点:我完全同意智能体、合成数据和推理时计算是超级智能的关键突破,但我认为开放的 LLM 社区仍然需要坚持预训练一段时间。
实现真正的“覆盖整个互联网”仍然是一个挑战。例如,Qwen2.5使用了18万亿个token进行预训练,但这个数据集仍然无法涵盖所有知识领域——尤其是小众和长尾领域。它也无法充分覆盖不断演变的信息。展望未来,Qwen3在预训练期间将需要更多的token来实现实质性的改进。此外,数据清洗仍然是一个关键瓶颈。目前,社区尚未掌握数据清洗的最佳实践,也未能实现对高质量数据集的成本效益访问。因此,开发可扩展的数据工程解决方案仍然是首要任务。
模型规模的扩大也带来了训练挑战。例如,Llama 405B的表现未达到预期,这表明只有少数组织真正掌握了训练超大型模型的技术。而且,这些技术还远未完全公开。为了使更多人参与这个领域,我们需要创新的训练方法和更健壮的模型设计,以减轻将模型扩展到更大尺寸时的风险。或者,确定实现预期结果的最佳模型尺寸至关重要。
我们必须承认的事实是,合成数据和后训练都基本上受限于预训练(基础)模型的质量。我假设o1的成功来自于预训练和后训练阶段的共同努力。在开放社区能够生产出与OpenAI开发的模型一样强大的预训练模型之前,我们不能放弃预训练努力。
总的来说,我们缺乏关于Ilya提到的最先进的预训练模型的关键细节——比如它们的token数量、参数大小和实际性能——这造成了不透明性,使得我们难以评估预训练是否真的达到了极限。开放社区依赖高质量的预训练模型来推动下游研究。如果预训练停止,社区可能会在后训练进步中遇到瓶颈。https://x.com/huybery/status/1868204833515401676