本文旨在通过数据分析的视角,简明扼要地阐述人工智能领域的多元化方法,尤其聚焦于小数据与大数据方法在处理复杂任务及应对组合爆炸与维数灾难方面的根本性差异。进而,本文亦将浅尝辄止地探讨契合中国国情的人工智能发展路径。
回溯至2024年6月,中国科学院院士大会的盛会上,本人有幸受邀以“数学与人工智能”为主题,发表了专题报告。会后,众多院士表达了将报告精髓付梓成文的期许,本文便应运而生。文中,笔者力求以既通俗易懂又不失深刻性的笔触,剖析人工智能的核心方法论及其各自特性。
人工智能的浩瀚疆域中,依据数据处理规模的不同,可大致划分为零数据、小数据、大数据及全数据四大阵营。诚然,数据虽非人工智能发展的唯一标尺,却犹如一把钥匙,为我们解锁人工智能演进历程中的多样思维提供了便捷途径。
零数据方法
此类方法以逻辑推理、符号计算及专家系统为代表,它们独立于数据之外,侧重于算法与软件对人类推理过程的模拟。逻辑理论系统,作为人工智能领域的先驱,便是在此理念下诞生的经典之作,其不仅能证明诸多数学定理,还涉足棋类博弈。专家系统领域,则以IBM的深蓝为杰出代表,其凭借卓越的棋艺,于1997年问鼎国际象棋之巅。此外,LISP语言与“吴方法”等,亦在零数据方法的探索中留下了深刻印记。
小数据方法
此类方法涵盖了线性回归、逻辑回归、支持向量机等统计学习手段,以及早期的神经网络模型如感知机。它们在小规模数据集上展现出较强的适应性,曾长期支撑起人工智能的诸多应用领域,如模式识别、自然语言处理及机器人技术等。然而,面对复杂问题,小数据方法往往因难以逾越“组合爆炸”与“维数灾难”的鸿沟而显得力不从心。组合爆炸,即系统规模扩大时,潜在组合数量呈爆炸性增长;维数灾难,则是指问题维度增加时,计算复杂度急剧攀升。
人工智能的发展历程中,不乏因低估上述难题而遭遇挫折的先例。当前,国内仍有研究团队致力于探索以小数据方法实现通用人工智能的可能性,但其核心挑战在于能否有效克服组合爆炸与维数灾难。若此路不通,则基于此类思路构建的通用人工智能系统,其能力或将受到严重制约。
大数据
尽管在深度学习备受瞩目之前,大数据的处理与分析已初露锋芒,但真正赋予大数据生命与活力的,莫过于深度学习的崛起。这一转折性的里程碑,便是辛顿(Hinton)团队在2012年ImageNet图像识别大赛中勇夺桂冠的壮举。他们匠心独运,设计并训练了一个名为AlexNet的神经网络,其架构之宏伟,拥有五层卷积网络与三层全连接网络,参数之繁多,超过六千万之巨。与之形成鲜明对比的是,此前杨立昆(Yann LeCun)所训练的Le-Net,其可训练参数不过寥寥数万。
值得注意的是,辛顿团队在驾驭AlexNet的征途中,所依赖的算法如随机梯度下降、反向传播等,皆非其独创,而是业已成熟的智慧结晶。他们的卓越之处,在于对这样一个多层神经网络的深度挖掘与精心训练。这一壮举的实现,离不开高质量数据资源的滋养与强大算力资源的支撑,而ImageNet与GPU的崛起,恰如春风化雨,为之提供了不可或缺的舞台。因此,辛顿等人的成就,既是技术创新的辉煌篇章,更是信念坚守的胜利果实。
AlexNet的问世,不仅颠覆了图像识别的传统格局,更如一颗石子投入平静的湖面,激起了人工智能领域的层层涟漪。因为基于神经网络的深度学习方法,已证明其为一柄无坚不摧的利器,能够广泛应用于各种领域。神经网络,本质上是一类函数的化身,它以其独特的魅力,超越了多项式等传统函数,成为逼近多变量函数的有效工具。这一特性,使我们得以在维数灾难与组合爆炸的迷雾中,找到前行的方向。
事实上,深度强化学习的力量已展现得淋漓尽致,AlphaGo在围棋领域的卓越表现,便是最好的证明。而神经网络在科学领域的探索,亦是不遗余力。从蛋白结构的解析到分子动力学势能函数的模拟,它都以其独特的视角与方法,为我们打开了一扇通往新知的大门。AI for Science这一崭新科研范式的诞生,正是深度学习在多个自由度问题中展现出的无限潜力的直接体现。
然而,尽管深度学习在解决高维问题上的卓越表现已毋庸置疑,但其背后的奥秘,我们仍知之甚少。从数学的角度来看,这是一个既优雅又清晰的数学问题,它正引领着高维分析领域的新一轮革命。关于此方面的深入探讨,可参见我在2022年国际数学家大会上的报告。
回望历史长河,神经网络的概念早在20世纪40年代便由麦卡洛克(McCulloch)与皮茨(Pitts)提出,而罗森布拉特(Rosenblatt)则在50年代进一步提出了感知机的构想。然而,为何直至2010年左右,人们才真正意识到神经网络的巨大潜力?我认为,这主要归因于两个方面的限制:一是高质量数据与算力资源的匮乏,成为了制约其发展的瓶颈;二是对神经网络认知的偏差与误解,尤其是明斯基(Minsky)与佩珀特(Papert)所著的《感知机》一书,其对感知机能力的质疑与否定,曾一度让神经网络领域陷入低谷。然而,历史的车轮滚滚向前,随着我们对神经网络认识的不断深入与拓展,我们已逐渐认识到其作为函数逼近工具的独特价值。
当然,在探索神经网络的道路上,我们仍面临着诸多挑战与未知。例如,在处理文本等时间序列数据时,如何有效处理长期记忆便是一个亟待解决的问题。幸运的是,随着循环神经网络(RNN)与transformer网络等新型架构的涌现,我们已看到了克服这一难题的希望之光。尤其是transformer网络,其强大的长程记忆依赖关系表达能力,正为大语言模型的崛起提供了坚实的支撑。
全数据
大数据方法着重于单个数据集,而全数据方法则倡导将所有数据充分利用起来,特别是互联网上所有高质量的文本数据。在此过程中,两大核心问题浮现:一是如何有效利用绝大多数的无标注数据?预训练方法的诞生正是为了攻克这一难题。二是既然已全面纳入数据,就必须应对所有潜在的下游问题,这意味着我们的目标应指向构建某种通用人工智能系统。这一目标催生了有监督的微调(SFT)技术。
迄今为止,这一思路在文本领域的实践尤为成功。在文本领域,两大标志性预训练框架脱颖而出:谷歌的BERT,其核心理念在于填空;而OpenAI的GPT,则通过预测下一个词来引领技术潮流。从当前的发展态势看,GPT显然占据了压倒性优势。究其缘由,BERT侧重于依赖上下文进行语义理解(双向预测),而GPT则仅基于过去预测未来(单向预测),这赋予GPT双重身份——既是生成模型的佼佼者,也是文本任务的通用利器。通过预测下一个词,GPT得以解决翻译、对话、写作等文本领域的各类问题。从智能层面审视,若一台机器能在不同情境下精准预测下一个词,其文本能力便足以媲美人类,彰显出智能的本质特性。相较之下,BERT所承担的任务更为单纯,它借助后续文本辅助完成填空,因此对智能的依赖程度较低。
从理论层面探讨,大模型最为引人注目的现象莫过于缩放定律(scaling law)及其伴随的涌现现象(emergent behavior)。缩放定律源于复杂系统理论,揭示了系统规模扩大时,相关指标将遵循特定规律变化。在大模型领域,这一定律具有双重意义:一是为我们从小规模模型出发,估算大规模模型训练所需的计算量和数据资源提供了可能;二是为提升模型性能指明了方向,其作用在某些方面类似于摩尔定律。
值得注意的是,缩放定律与涌现现象在复杂系统中屡见不鲜。不同技术框架遵循各自的缩放定律,而优化这些定律自然成为我们追求的重要目标之一。同时,我们也应思考:正如摩尔定律终将遭遇瓶颈,缩放定律是否也存在停滞的临界点?未来的发展方向又将如何?
为了构建更加高效的方法,我们可以尝试将不同方法巧妙融合。DeepMind推出的AlphaGeometry便是一个典型案例,它在解决国际奥林匹克数学竞赛中平面几何题目方面展现了接近人类顶尖水平的实力(见图2)。AlphaGeometry的核心思路在于融合逻辑推理与经验方法:借助定理库和树搜索提供具体证明路径,同时利用机器学习模型启发解题思路,如辅助线的添加策略。这一创新思路无疑拥有广阔的发展前景。
图 AlphaGeometry将模型的几何定理证明能力从低于人类水平提升至接近金牌水平
展望未来,以GPT为代表的技术路径在我国国情下或面临挑战。一方面,我国算力与美国相比仍有较大差距,尤其是在大模型训练所需的万卡乃至十万卡规模上。这可能导致国内许多基座模型开发团队在追赶过程中遭遇瓶颈。另一方面,GPT存在能耗与成本高昂的问题,促使我们探索更加节能环保的替代方案。近期推出的“忆立方”(Memory3)模型便是一次有益的尝试,它通过内置数据库处理显性知识,减少了模型参数中的知识存储需求,从而降低了对模型规模的依赖。此外,GPT并非万能,特别是在图像处理等领域,我们仍需寻求更为有效的技术方案。
那么,何为适合我国国情的人工智能发展路径?如何确保我国人工智能的持续稳定发展?对此,我们需从两方面着手布局:一是构建完善的人工智能底层创新体系,包括模型架构、AI系统、数据处理工具及高效训练芯片等方面的突破;二是深入探索人工智能的基本原理,尽管当前我们与掌握这些原理尚有距离,但已具备探索的条件。而长期稳定发展的技术路线,正将在这一探索过程中逐步显现。
鄂维南
CCF会士。中国科学院院士。北京大学教授。主要研究方向为机器学习、计算数学、应用数学及其在化学、材料科学和流体力学中的应用。weinan@math.pku.edu.cn