LLM 预训练到头了吗?

学术   2025-01-03 18:22   江苏  

今天给大家带来的是好友@Binyuan的一篇想法,主要是对Ilya的“pre-training as we know it will end” 观点的看法。

正文如下:

最近,Ilya 在 NeurIPS 的演讲中提到了一个观点:“pre-training as we know it will end” 引发了热烈的讨论。我非常认同 agent、synthetic data 和 inference-time computing 是未来超级智能的突破点,但我认为开放社区仍然需要在 pre-training 坚持一段时间。

  • 数据扩展:训练数据要真正做到 “覆盖整个互联网” 并不容易。比如,Qwen2.5 在预训练的时候使用了 18T tokens,但这些数据仍然不足以覆盖所有领域的知识,尤其是一些长尾领域的内容,也无法覆盖持续不断更新的数据。可以预见,开源模型预训练必须依赖更多的数据。此外,数据清洗仍然是一个重要环节。目前社区尚未完全掌握所有数据清洗的最佳技巧,也无法以低成本获取高质量数据。因此,可扩展的数据工程还是最高优先级的任务。

  • 模型扩展:在扩大模型规模时,也面临着训练技术上的限制。例如,Llama 405B 的性能其实不及预期,这说明只有少数机构掌握了超大模型训练的方法,而这些技术尚未完全公开。需要更加注重创新的训练方法和更稳定的模型设计,以降低超大规模模型的训练风险,让更多研究者能够参与其中。另外,暂时还没办法确定足以实现预期结果的最佳模型大小。

  • 还有一个必须承认的事实,无论是合成数据还是 posttraining 的研究都会受限于 base model 的质量。我猜测 o1 的成功是预训练和后训练两个阶段共同努力的结果。在社区能够拥有像 OpenAI 一样强大的预训练模型之前,我们不能轻易放弃对 pretraining 的投入。

由于我们无法获得 Ilya 所看到的最强预训练模型的 token 数量、参数规模以及实际性能,这种信息的不透明性让我们很难准确判断预训练是否已经达到极限。

而开放社区需要高质量的 Base 模型来推动后续的研究。如果预训练停止,社区可能会在 posttraining 的研究上快速遇到瓶颈。

所以,我们和 ilya 玩的是两个游戏:

Pretraining as Ilya knows it will end, but not for us.

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。

AINLP
一个有趣有AI的自然语言处理公众号:关注AI、NLP、大模型LLM、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试对对联、作诗机、藏头诗生成器、自动写作等,查询相似词,测试NLP相关工具包。
 最新文章