大型语言模型的发展遵循着Scaling Law,即规模更大性能更好。然而,这条路径似乎正在遭遇瓶颈,据路透社报道,包括OpenAI、Google等主要AI公司在最新一代大模型的开发中遇到了意外的延迟和挑战。
彭博社的报道进一步证实,OpenAI的新模型Orion虽然比前代产品有所进步,但提升幅度远不及从GPT-3到GPT-4时的巨大飞跃,特别是在编程等特定任务上,Orion甚至可能无法稳定超越其上代模型的表现。Google的Gemini项目同样未能达到内部预期,Claude模型 3.5 Opus 的发布时间表也被推迟。单纯依靠扩大模型规模、增加训练数据和计算资源的方法,似乎已经难以获得理想的性能提升。
人工智能实验室 Safe Superintelligence (SSI) 和 OpenAI 的联合创始人 Ilya Sutskever还向路透社表示,这是扩大预训练规模的结果,即训练人工智能模型的阶段,使用大量未标记的数据来理解语言模式和结构,已趋于稳定。
对于这一现象,业内专家提出了几种解释。其一是高质量训练数据的匮乏,AI公司在抓取了网络上的低质量和中等质量数据后,现在面临瓶颈。OpenAI、Meta等公司开始付费从出版商和其他来源获得高质量的数据,用来增强其模型,AI实验室也在尝试使用自己创建的合成数据,但合成数据的使用尚未带来突破性进展,合成数据缺乏现实世界数据的丰富性和多样性,这些特性对提高模型的准确性和泛化能力至关重要。
其二可能在于大语言模型本身的局限性。尽管大模型在各类基准测试中表现出色,但它们在因果推理、多步骤推理等任务上的表现仍然不尽人意,并且经常出现事实性错误,缺乏对真实世界知识的理解。也有人认为超级智能仅凭大语言模型(LLMs)是无法构建的。
然而,对于Scaling Law是否真的触及天花板,业内存在不同观点。OpenAI CEO Sam Altman在X上简单回应“there is no wall”没有墙。
Anthropic CEO Dario Amodei在周一接受播客采访时也持乐观态度,他认为“扩展”模型是通往更强大AI的可行路径,他解释说,这里的扩展不仅指训练模型所用计算资源的增加,还包括模型规模以及模型训练集规模的扩大。Amodei表示,模型规模的扩大可能会继续下去,其中存在一些我们尚未从理论基础上完全解释清楚的奇妙之处。与一些专家不同,Amodei也不认为数据短缺会对AI发展构成挑战。他表示,AI开发者将通过生成合成数据或从现有数据推断的方式来“绕过”数据限制。
OpenAI 市场营销(GTM)团队的创始成员 Adam Goldberg表示,“对于像 o1 系列这样的模型来说,现在有两个关键的扩展维度——训练时间和推理时间”,虽然传统的对更大模型进行更长时间预训练的扩展法则仍然重要,但现在出现了第二个扩展维度, OpenAI 研究员 Noam Brown 称,“我们不再受预训练的瓶颈限制。我们现在也可以扩展推理计算能力”。此前,OpenAI 发布 o1-mini 和 o1-preview 时提到,o1 的性能会随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算)而持续提升。
英伟达CEO黄仁勋上周在接受播客《No Priors》采访时也提到了“第二个扩展维度”,他表示英伟达目前在计算领域面临的主要挑战之一是推理时间扩展,这涉及以极低延迟生成tokens。他解释道,在未来,AI将需要执行树搜索、思维链和心智模拟等任务,对自己的答案进行反思。模型将对自己进行提示并在内部生成文本,同时实时响应,理想情况下要在一秒内完成。
哈佛大学、斯坦福大学等机构的研究人员的最新研究也带来了新的视角。研究发现,精度(用于表示模型中数字的比特数)在Scaling Law中所起的作用比此前认为的更为重要。
研究团队进行了超过465次训练实验来验证他们的假设,他们使用3至16位不同精度训练语言模型,并在训练后将模型量化到不同的精度水平。这些模型包含多达17亿个参数,训练数据量达到260亿个标记。一个关键发现显示,过度训练的语言模型在训练后对量化更加敏感。实验表明,训练后量化导致的性能下降随着训练数据量的增加而增加。当模型在训练后进行量化时,增加更多的训练数据实际上可能会产生负面影响,因为这会放大量化误差。这一发现为优化模型训练提供了新的思路。
从目前的发展态势来看,Scaling Law遇到的瓶颈可能是新起点,彭博社的报道指出,虽然传统的Scaling Law可能遇到瓶颈,但这并不意味着AI发展的减缓。相反,这种挑战正推动着行业探索更多元化的技术路径,这可能最终指向更具突破的进展。
| 文章来源:数字开物
【专栏】精品再读