人工智能争议之二:深度学习或Scaling Law“撞墙”了吗?
——从多重技术路线视角理解AI生产的瓶颈与发展
贾开
上海交通大学国际与公共事务学院长聘副教授
编者按
关于人工智能发展路线及其未来的讨论正伴随着Scaling Law是否仍然成立的争论而日趋热烈,“泡沫是否在破裂”、“瓶颈将以何种方式被突破”、“AGI是否正加速到来”等系列讨论正在不同层面被展开,但往往收获的却是众多似是而非的差异化结论。
本篇评论将指出,上述问题的关键或许并不在于Scaling Law是否真的体现了AI科学规律,而是在海量资源投入背景下Scaling Law作为一种AI技术路线而与其他技术路线的艰难平衡问题。在此背景下,本文梳理出的三种技术路线(调适性路线、混合性路线、变革性路线)或许值得更深入的比较分析与探索。
本篇是笔者近期针对人工智能争论现象的第二篇观察评论文章,第一篇文章关注大模型开源治理问题(第551期:贾开|人工智能争议之一:开源是发展AI的合适路径吗?)
本公号曾刊发的相关主题文章请参见:
第529期b|贾开:ChatGPT作为“浅层革命”的进步与局限——兼论通用智能与“人-机关系”
本篇文章写作的思路启发感谢崔之元老师、石靖老师分别在Hinton关于FF算法、Alphageometry议题上的资料引荐。
“深度学习”或“Scaling Law”“撞墙”的担忧
2024年10月,OpenAI在新闻发布会上表示其将不会在年内发布下一代旗舰模型(内部名为Orion)。布隆伯格在11月的一篇报道中,援引OpenAI内部人士的观点指出,Orion模型的表现并没有达到公司预期,因此不能被视为类似于GPT4相比于GPT3或者GPT3.5相比于GPT的跨越式发展。1在同一篇报道中,布隆伯格指出类似的情况不是OpenAI所独有,Google和Anthropic都面临着持续大量投入下模型表现不及预期的困境,Gemini和Opus3.5皆是如此。
导致这一困境的原因有很多,算力和数据的不足是最被经常提及的。互联网上可被自由爬取的数据已所剩无几,AI企业不得不以谈判或人为标注的方式获得高质量语料;同时,即使GPU性能依然在增长,但算力基础设施仍然需要更多时间去搭建和运营。这两方面都被认为拖累了大模型按照预期时间表(例如OpenAI每3年的一次跃升)实现阶跃式变迁的进程。
但这些解释或许还未触达AI当前“困境”的核心。围绕模型表现不及预期的现实,人们关注的远不止数据或算力瓶颈这些表层问题,以大数据、大算力投入来推动模型性能变迁的“Scaling Law”是否应继续成为AI主流技术路线的争议,才是掩盖在海面之下的巨大冰山。以ChatGPT的推出为代表,在过去3年里人们已经习惯于更多的数据、更多的算力投入能够带来模型性能指数级增长的技术发展预期,而这也在事实上孕育了“通用人工智能将在未来几年(2026或2027年)里到来”的“乌托邦”想象——但当前的技术发展瓶颈无疑是对这一预期的怀疑,并因此与人工智能的未来发展路线紧密关联。
一方面,以Gary Marcus为代表,在看到模型进展未达预期的情况下,再次提出了“深度学习是否撞墙(deep learning is hitting a wall)”的批判性反思。22022年Marcus即认为彼时已经出现了模型边际绩效降低的趋势,特别是在模型输出的真实性、推理能力、常识能力等指标方面更是如此。类似的观点近期同样频繁出现在不同领域的代表性人物观点中,3例如OpenAI共同创始人Ilya Sutskever认为预训练阶段的规模效应已经趋于饱和(2024.11),而硅谷重要投资人Marc Andreessen和Ben Horowitz也同样认为模型能力正在接近“天花板”(2024.11)。
但另一方面,当前仍然不乏Scaling Law的坚持者。微软CTO Kevin Scott在反击质疑的同时也表达了对当前路径的坚定态度。4值得指出的是,Scott正是促成微软130亿美元投资OpenAI的关键人物。类似的,Anthropic CEO Dario Amodei深入浅出地用物理学“1/f噪声”和“1/x分布”现象解释了他所理解的Scaling Law机制,即与物理学中很多自然现象叠加会呈现出高斯分布的规律类似,Scaling的增加使得模型能够捕捉到更多的语言模式与规律,并因此可能仍将持续下去。5
仅从以上来看,似乎围绕Scaling Law是否有效的讨论仍然还只反映了不同人观点的分歧。但建设性的讨论往往需要再向前一步,去理解“观点”背后的“行动”或“现象”:人工智能的技术路线当前是否正在发生变化?如果有,这种变化究竟是对Scaling Law的调适还是变革?如果是变革,当前的我们又应如何(通过市场或政策的手段)适应人工智能未来演化的开放性和不确定性?
真的“撞墙”了吗?
——AI技术演化的三条路径
自1956年“Artificial Intelligence”概念被提出以来,人工智能始终都处于不同技术路线(主要是符号主义与联结主义)同步演化并相互竞争进程中,而在不同阶段,特定技术路线往往会获得更多资源并成为彼时主流。在过往历史中,符号主义或联结主义的相对优势地位便相互切换。6于是,摆在当前的重要问题便是:我们是否又一次进入了人工智能技术路线的切换期?
按照Dario Amodei的简单定义,Scaling Law可被理解为“模型能力随Network、Training time、Data线性扩展而增长”的规律,而在此扩展过程中自然伴随着算力的增加需求。如果以此作为基准,按照与Scaling Law的关系,当前人工智能领域的技术演化或许大致可被分为三类:调适性路线、混合性路线、变革性路线。也正是围绕这些不同技术路线的讨论,关于“Scaling Law是否撞墙”的争议才能够体现出更丰富的内涵。
第一,“调适性路线”仍然坚持“Scaling Law”的有效性,但在Scaling的对象和方式上则做出重要调整,典型代表即是OpenAI于2024年9月发布的o1 model雏形。如OpenAI所指出,o1 model是其探索不同于GPT技术路线的其中一种可能性,而最重要的差别之一便是所谓的“test-time compute”,即在推理时计算而非预训练时计算。简言之,o1 model将一个大问题拆分为一系列小问题(即推理链条,chain-of-thought),并允许模型在不重新训练的情况下,通过推理时的额外计算来提高性能。Yoshua Bengio指出,人类有两类认知系统,直觉型认知(不假思索地马上回答问题,例如人脸识别)和推理性认知(需要沉思和一系列推理),当前既有AI都属于前者,而o1 model是对于后者的模拟与突破,其能够解决既有AI不能维持答案的一致性以及不能实现长期目标规划的能力。7考虑到o1 model不仅仅依赖预训练的数据、网络、时间和算力,其同样依赖于“推理”的数据、时间和算力,因而Bengio认为其可能需要更多的算力,并意味着另一条Scaling Law的到来。微软CEO Satya Nadella同样持类似观点,其认为Scaling Law并没有“撞墙”,而是可能以不同的面貌和形式出现。8
第二,“混合型路线”部分接受Scaling Law可能趋于结束的论断,转而寻求与其他技术路线(例如符号主义路径)的混合以在兼顾各条路线优势的同时,对冲Scaling Law边际效用减弱的不足,典型案例是谷歌Deepmind的AlphaGeometry。AlphaGeometry提升了欧式几何题目(平面几何)机器证明的效果(IMO30道题目中做对25道),且通过计算实现了添加辅助线的推理能力(并因此可解释)。抛开诸多溢美之词,AlphaGeometry的创新性在于符号模型与大语言模型的结合,前者体现为该领域知识积累的推理数据库(包含欧式几何基本要素的推理规则以及用于处理边角关系的线性代数规则),后者的功能则是在给定前提和基础图的情况下找到概率最高的辅助线方案。二者结合的关键是基于推理数据库创造出大量合成数据,并基于合成数据的预训练来找到辅助线构建的模式与规律。也正因为此,正如北京国际数学研究中心的评论所指出,AlphaGeometry的瓶颈仍然在于推理数据库的表达能力,并认为应该加强Lean Community等形式化社群在进行更全面、广泛的形式化数学数据积累、整理工作的重要性9。10在人工智能被长久区分为符号主义、联结主义两条对立路径的历史背景下,当前再次寻找二者的结合点事实上构成了一条针对Scaling Law的主要修正思路。Marcus 2022年文章的结论同样如此,且其同时批评了辛顿起初也主张但在当前却完全放弃混合路径的态度11——尽管其他评论者认为并没有明显证据表明辛顿在打压、限制符号主义的发展。不过即使如此,在AI发展史上我们的确看到过这种技术路线之争的案例,Minsky等人(符号主义)压制联结主义也可能影响现代研究者的对待不同技术路线的态度。
第三,“变革性路线”完全放弃了对于Scaling Law的继续追求,转而对深度学习等当前AI主流技术路线的根本原则做出改变,以探索新的技术可能性。该方面的代表性案例是Stuart Russel提出的“可变目标”理念(以改变当前旨在优化固定目标的基本思路)以及Geoffrey Hinton提出的“非永生计算机”理念(以改变当前软硬件分离的“永生计算机”设计)。就Russel而言,《Human Compatible》一书的主要观点即是认为以优化固定目标(无论是拟合训练数据还是优化点击率)为主要逻辑的现代人工智能存在根本性的偏差,这不仅是导致“关机悖论”的根源,也使得人工智能技术偏离了“以人为本”的价值遵循。取而代之的,Russel认为应该以理解人类真实偏好并以动态目标界定过程作为AI新框架的改革策略。12与Russel类似但是从不同视角出发,Hinton在近年来的讨论中同样开始反思传统后向传播算法的不足,并提出了“前向-前向”算法的新理念。而更为重要的,是为了匹配这种算法改变,Hinton进一步提出了模拟硬件以及“非永生计算机”的未来设想。13一方面,“前向-前向”算法不需要向后传递梯度变化的信息,因此更适合用能够更好节省能源的模拟硬件来实现。14另一方面,传统的“永生计算机”是指我们习惯于硬件与软件的分离,一般性计算机硬件与执行特定任务的程序相结合,因此程序(权重和网络)才包含了所有的知识而这与硬件无关(因此硬件是稳定、可预期且“永生”的)。但Hinton认为,深度学习的发展应该让我们反思这种传统计算机结构的改革可能性:权重或网络的调整不仅仅在程序层面,其也应该延伸至硬件层面以使得计算机结构也会伴随学习的过程而被改变,并伴随学习的变化或结束而失效(因此“非永生”)。Hinton甚至提出,非永生计算机可能是解决深度学习当前能源消耗问题的“唯一可能性”(而且会改变我们当前成本高企的芯片产业15),而这也再次回到了我们对于Scaling Law的讨论——即未来的多重可能性。
真正的问题是什么?
——AI的又一个“十字路口”
以上围绕Scaling Law的观点争论与现实中AI的不同演化路径,呈现出了当前AI领域的复杂局面。表面上,这似乎涉及AI发展的科学问题,即究竟哪一条道路才是对AI原理及其技术实现方式的客观解释。例如Dario Amodei即认为可从“1/f噪声”角度理解AI Scaling Law的基本原理,而Andre Ye提出的通用近似定理也表达了类似观点(Yann LeCun、Steven Pinker等人支持),即认为有限、封闭集合上的任何连续函数都可以通过神经元的线性组合来逼近(即神经网络能够近似任何连续函数)。16
尽管Amodei和Ye的观点具有启发性,而事实上这也是AI领域的重要研究方向,但或许它们都还未触及问题的实质。当前围绕Scaling Law的争论关键或许并不在于其背后是否具有某种科学原理的支持,而是海量投资背后的路径依赖与探索其他多重路线可能性的决策冲突。本文第一节引用的诸多反思,都没有否定规模增长会带来性能提升的预期,但其核心关切却是:Scaling Law能否支撑起已经或正在投入的海量资源?
以AlphaGeometry为例。北京国际数学研究中心的评论指出,在AlphaGeometry之前的启发式策略已经能够做对IMO 30道题目中的18道,语言模型之于启发式策略的替代将结果提升到了25道,但考虑到训练语言模型所耗费的庞大算力资源和1亿的合成数据训练量之后,从18到25道的提升增益并不显著。17需要指出的是,AlphaGeometry中的语言模型还仅仅只有151M,而与之相比,在Orion、Gemini、Opus3.5等模型训练上的投入可能是难以想象的海量资源,由此带来的性能实际表现与高预期的差距,可能才是问题的关键。这可能也能解释为什么OpenAI(Google和Anthropic都类似)在进一步加大模型规模投入的同时开始探索其他AI技术路线的原因。18
不过另一方面,这种齐头并进的策略兼顾与转移并不容易实现。一方面,其他技术路线的探索具有高度不确定性,在资源有限的边界约束下如何为探索多重技术路线争取资源空间,将被演化为具有极强主观性的技术政治问题而非客观的技术科学问题。另一方面,技术演化的路径依赖本身具有自我强化效应,诸多资源的投入在放大既有者优势的同时也可能不利于潜在的变革者。例如在算力芯片领域,前述“test-time compute”模式要求高速推理芯片的配合(相关创业企业例如Groq或Cerebras),但它们能否在并行计算芯片大行其道的当前找到突破口仍然是个未知数。更不用说Hinton提出的“非永生计算机”设想,这实质上会要求变革冯·诺伊曼计算机体系结构,而这也依然是一个艰巨的“范式”变迁任务。值得指出的一段历史是,冯·诺伊曼在计算机体系体系结构方面的创新也与彼时的AI讨论有着密切关联,因而Hinton对AI的当前反思事实上是有可能孕育出新的计算机体系架构。
由此我们不难发现,当前围绕深度学习或Scaling Law是否“撞墙”的争论关键,在于我们进入了新的一个“十字路口”。在此背景下,我们很难对原来的技术路线抱有绝对信心,而技术研发的绩效表现更加剧了这种怀疑。当然,从市场机制来讲,这种“十字路口”并不可怕,因为它本身也代表了“新生”的机遇。不过从公共政策的角度讲,我们或许正在积累技术范式变迁的巨大风险,因从全球来看,公共资金的投入都严重偏向联结主义(或更具体的,大语言模型)19,其他AI技术路线事实上受到了歧视性待遇乃至忽视——这对于中、美而言或许更为严重。在此背景下,我们或许更加迫切需要包容性的公共政策,以在全面把握当前AI发展不同路径及其挑战、前景的基础上,为可能出现的“非常规、例外”现象做好准备——因为正如布莱恩·阿瑟在《技术的本质》中所指出,技术的突破往往都来自于某种尝试的“副产品”。20
全文引用及注释:
1.https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai
2.https://garymarcus.substack.com/p/confirmed-llms-have-indeed-reached?r=8tdk6&utm_campaign=post&utm_medium=web&triedRedirect=true
3.https://www.reuters.com/technology/artificial-intelligence/openai-rivals-seek-new-path-smarter-ai-current-methods-hit-limitations-2024-11-11/
4.https://arstechnica.com/information-technology/2024/07/microsoft-cto-defies-critics-ai-progress-not-slowing-down-its-just-warming-up/
5.https://lexfridman.com/dario-amodei-transcript/
6.Cardon, D. (2019, April). Neurons spike back. The invention of inductive machine and the Artificial intelligence controversy. In KCL Digital Humanities Critical inquiry with and about the digital.
7.https://www.ft.com/content/894669d6-d69d-4515-a18f-569afbf710e8
8.https://x.com/tsarnick/status/1858974328790151268
9.https://leanprover-community.github.io/
10.https://mp.weixin.qq.com/s/k7esrn3knpGWMbcKAhba-Q
11.https://nautil.us/deep-learning-is-hitting-a-wall-238440/
12.罗素提出了新的AI三原则:第一定律(First Law):机器的唯一目标是最大限度地实现人类的偏好;第二定律(Second Law):机器最初不确定这些偏好是什么;第三定律(Third Law):关于人类偏好的最终信息来源是人类行为。其论述逻辑的关键是认为优化固定目标不仅会误解人类的真实偏好,同时也会影响、改变人类偏好。社交媒体点击率优化案例即是被罗素批评的典型案例,其事实上“改变”了人们的内容偏好而非“迎合”,而这也带来了深远的社会影响。
13.Hinton, G. (2022). The forward-forward algorithm: Some preliminary investigations. arXiv preprint arXiv:2212.13345.
14.数字硬件需要0-1翻转,而模拟硬件可以利用中间态电压来传递信号。
15.https://www.youtube.com/watch?v=sghvwkXV3VU
16.https://mp.weixin.qq.com/s/GNi7hXLuKI0l2DTT9T23xQ
17.https://mp.weixin.qq.com/s/k7esrn3knpGWMbcKAhba-Q
18.https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai
19.在笔者的调研过程中,中国、欧洲(西班牙)都普遍存在着非大语言模型的技术研发项目难以获得公共资金或算力投入的情况。
20.P.61.