寻找机器学习的“热力学”：临界相变如何启发机器学习研究？

学术 2024-10-16 20:54 北京

导语

2024年诺贝尔物理学奖授予人工神经网络和机器学习的基础性研究，可以说是统计物理引发的机器学习革命。（古老的）统计物理与（年轻的）计算机科学有怎样的相似性？如何用统计物理来帮助理解大语言模型？在 Quanta Magazine 的这篇采访中，瑞士洛桑联邦理工学院（EPFL）计算统计物理实验室的科学家认为，18世纪人们为了理解蒸汽机发展了热力学，如今我们也需要寻找机器学习的“热力学”。

研究领域：统计物理，理论计算机科学，大语言模型，临界相变

John Pavlus | 作者

彭晨 | 译者

梁金 | 编辑

捷克科学家 Lenka Zdeborová 青少年时曾在艾萨克·阿西莫夫的小说中瞥见了自己的未来。阿西莫夫《基地》系列小说中的人物发明了一种被称为“心理史学”的数学方法，通过平均数十亿人的随机行为来预测银河帝国的命运和人类的未来。Zdeborová 回忆说，这个理念当初给她一种“迷人的感觉”，当后来遇到可以用于理解大量不可预测元素的方法时，她感到似曾相识。

”我意识到，‘哦天哪，阿西莫夫是在描述统计物理学，’”她说。统计物理学通过应用于单个分子的规则来描述物质的总体特性。在布拉格的查尔斯大学（Charles University）就读物理学硕士时，她陶醉于统计物理学的强大预测力。而后在博士期间，导师给她看了一篇文章，这篇文章将统计物理学技术应用于理论计算机科学——计算和算法行为的数学研究，那种熟悉的感觉又回来了。

Mézard, Marc, Giorgio Parisi, and Riccardo Zecchina. Analytic and algorithmic solution of random satisfiability problems. Science 297.5582 (2002): 812-815.
https://www.science.org/doi/abs/10.1126/science.1073287

Zdeborová说：“我完全被那篇论文迷住了。我之前一直认为，要做计算机科学，你必须是一名黑客，了解Linux系统的一切。但现在我意识到，理论计算机科学和理论物理一样迷人，于是我说，‘好吧，这就是我想做的。’”

Zdeborová 现在领导着瑞士洛桑联邦理工学院（EPFL）的计算统计物理实验室，主要关注物质相变的物理规则——比如水凝结成冰——如何启发算法行为的建模，尤其是用于机器学习的算法。

Lenka Zdeborová

瑞士洛桑联邦理工计算统计物理实验室（Statistical Physics of Computation Laboratory）
https://www.epfl.ch/labs/spoc/

Quanta 杂志就水和算法之间的相似性，如何用物理学来理解大语言模型，以及追求不合理的科学目标三部分内容，与 Zdeborová 展开了讨论。下文是精简后的采访内容。

统计物理与计算机科学的相似性

Q：你的工作横跨很多学科，你认为自己是物理学家、计算机科学家还是数学家？

我认为以上都是。我感兴趣的问题主要在计算机科学和机器学习领域。在理论计算机科学中，一切都需要形式化证明，深入所有细节。但这个要求在今天的机器学习中不复存在了，因为它太复杂了。

所以从方法学的角度来看，我认为自己是理论物理学家，因为就像在物理学中一样，你可以试图用数学上严谨的理论来解释一些现象，即使这些理论可能还没有得到正式的数学证明。

Lenka Zdeborová 认为自己同时是物理学家、计算机科学家和数学家

Q：统计物理如何帮助你理解计算机科学？

理论计算机科学通常教导学生要关注最坏情况，也就是一些难以计算的问题。这个领域是这样开始的，并从中收获了丰硕的成果。但最坏情况和典型情况是有区别的，一个很明显的例子就是机器学习。在用机器学习处理即使非常高维的数据，例如我们想要从数百万像素的医学成像中检测疾病标记物，类似问题的计算难度通常不会到最坏情况的程度。

这就是统计物理发挥作用的地方，因为这个领域一直以来都在处理高维问题。当人们想描述许多分子同时相互作用的行为时，统计物理提出了概率分布。计算机科学中有类似的数学工具，用于描述在执行算法时数据位之间如何相互作用。然而，统计物理学在一个世纪前就开始了有关研究，那时计算机科学尚不存在。幸运的是，当我在2000年攻读博士学位时，这些学科的研究者们已经开始意识到它们之间的共同点。

Q：统计物理和计算机科学有哪些共同点？

这两种情况下，从微观描述中提炼出系统的宏观行为都十分困难。牛顿定律和量子力学给出了水分子如何相互作用的详细描述，可是如何据此推导出水的冰点是0摄氏度呢？这并非显而易见！即使到了20世纪40年代，科学家们依然没有弄清楚。并且，还有很多关于水相变的问题没有解决，特别是在高压条件下。

类似地，在计算机科学中，可以用简单的算法来清晰定义一些问题，但我们不知道算法发挥作用的具体条件。在我的博士论文中，我们研究了5岁小孩都能理解的图着色问题。图由一些点组成，部分点之间有边相连。现在需要在三种颜色中选取一种给每个点上色，要求是如果两个点相连，它们的颜色不能相同。你能给图着色吗？

解决这个问题的任何算法，你都可以理解它，编写它，并且可以运行。但如果问：“你能告诉我这个算法什么时候发挥作用，什么时候不起作用吗？”对于大多数算法，我们不知道答案。这就是理论计算机科学的现状：即使解决这么简单的问题，当开始问关于算法行为本质的问题时，我们通常无法回答。

Lenka Zdeborová 的研究在探索统计物理与计算机科学之间的相似性

物理学如何帮助理解大语言模型？

Q：如果完全理解算法如此困难，相变可以提供什么帮助呢？

我们研究的相变不是物理上的相变，比如水变成冰。和物理相变类似，我们研究的是在某些条件下，系统行为会发生急剧、突然变化的现象。以神经网络为例，首先要提到的一种相变是训练样本量对学习效率的影响。

取一个从高维数据中学习的神经网络，例如有数百万像素的图像，然后分析在某些简化设定下，需要多少训练样本可以学习达到一定的精度。分析过程中会得到一个如上所述的相变，即系统最优性能的突然变化。这些结果可以告诉我们神经网络学习的难易程度，以及是否需要寻找更好的算法。

Q：这种方法是否帮助学习有关复杂系统的新知识？

近期的工作中，我们在一个简化版本的大语言模型的性能中发现了相变现象，同样有趣的是相变点附近两相的性质。

Cui, Hugo, et al. A phase transition between positional and semantic learning in a solvable model of dot-product attention. arXiv preprint arXiv:2402.03902 (2024). https://arxiv.org/abs/2402.03902

物理学中相变的数学描述会使用序参量（order parameter）。这帮助我们理解相变的本质，例如磁性是用来描述原子磁矩方向的一致性：在磁性相中，整体磁矩方向一致，而在非磁性相中，磁矩方向不一致。

这也是语言模型的数学描述中出现的美妙现象。模型中有两个序参量，每个都有明确含义：其中一个是判断学习过程是否在很大程度上依赖于单词在句子中的位置，另一个序参量则是明确关于每个单词的含义，即语义。

当观察相变现象时，我们发现当训练样本量在某个阈值以下，只有位置发挥作用，语义并没有。当样本量超过该阈值，只有语义发挥作用。所以，从某种意义上说，这是一种位置学习和语义学习之间的新相变，可以用一个简化的语言模型来描述。这是理解大语言模型中涌现性质的一小步，比如它突然能够做算术，用希腊语回答问题等等。

寻找机器学习的“热力学”

Q：你认为积累足够多的小进步最终会将你引导向何方？

我很喜欢用热力学来类比。我们在18世纪有了蒸汽机，它随后引发了工业革命：铁路、公司和许多东西都在蒸汽机上运行，而这些都不需要理解热力学。理解热力学是几十年后的事情，但这一切都来源于人们想要理解蒸汽机，许多其他物理学发现由此产生。

这可能是一个完全不合理的目标，但必须有人提出“机器学习的热力学”。我很想成为那样的人。如果不是我，而是别人，那也很好。但我一定会朝着这个目标努力。

本文翻译自Quanta Magazine。
原文链接：https://www.quantamagazine.org/the-computer-scientist-who-builds-big-pictures-from-small-details-20241007/

非平衡统计物理读书会启动！

统计物理学不仅能解释热学现象，还能帮助我们理解从微观粒子到宏观宇宙的各个层级如何联系起来，复杂现象如何涌现。它通过研究大量粒子的集体行为，成功地将微观世界的随机性与宏观世界的确定性联系起来，为我们理解自然界提供了强大的工具，也为机器学习和人工智能领域的发展提供了重要推动力。

集智俱乐部联合纽约州立大学石溪分校教授汪劲、德累斯顿系统生物学中心博士后研究员梁师翎、香港浸会大学助理教授唐乾元，共同发起「非平衡统计物理」读书会，关注非平衡统计物理的前沿理论进展、生命和热力学、统计物理与机器学习交叉三个大的主题方向，涵盖热机优化问题、涨落相关的热力学、反常热力学现象、信息视角下的热力学、生命系统的景观和流理论、活性物质、生命系统、种群动力学、机器学习和人工智能等前沿话题。读书会计划从11月19日开始，每周二晚19:00-21:00进行。我们诚挚邀请相关领域的研究者分享的工作，也欢迎大家一起参与讨论交流！

AI+Science 读书会

AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science，机器学习和其他 AI 技术可以用来解决科学研究中的问题，从预测天气和蛋白质结构，到模拟星系碰撞、设计优化核聚变反应堆，甚至像科学家一样进行科学发现，被称为科学发现的“第五范式”。另一方面是 Science for AI，科学尤其是物理学中的规律和思想启发机器学习理论，为人工智能的发展提供全新的视角和方法。

集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣（Max Tegmark 教授指导），共同发起以“AI+Science”为主题的读书会，探讨该领域的重要问题，共学共研相关文献。读书会从2023年3月26日开始，每周日早上 10:00-12:00 线上举行，持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。

详情请见：

人工智能和科学发现相互赋能的新范式：AI+Science 读书会启动

推荐阅读

1. 2024年物理诺奖授予人工神经网络：统计物理引发的机器学习革命

2. 2024年诺贝尔物理学奖为何授予机器学习领域？

3. 探索“AI 大统一理论”：科学启发的机器学习理论

4. 张江：第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

5. 龙年大运起，学习正当时！解锁集智全站内容，开启新年学习计划

6. 加入集智，一起复杂！

点击“阅读原文”，报名读书会

http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247700350&idx=1&sn=40f5ed1fc999df3f215b42fa49e4f295

集智俱乐部

关注复杂科学与人工智能的前沿进展、书籍资料、工具文献、交叉前沿等，同时也发布集智俱乐部、集智学园举办的各类讲座、课程等活动相关信息。

最新文章

Nat. Commun. 速递：深度学习预测复杂网络系统韧性

双十一限时特惠！加入集智学园VIP，一次性解锁集智平台所有内容资源

AlphaFold3开源了，诺奖AI工具人人可用，开启生物分子设计新时代

上智院与集智科学研究中心等联合发布“科学智能十大前沿观察”：探索“AI爱因斯坦”的无限可能

生物启发的神经形态AI——从昆虫到微型自主无人机丨周三直播·昆虫智能与AI读书会

基于多尺度建模的机器学习正反问题求解｜周四分享·复杂系统自动建模读书会第二季

混沌、吸引子、分形：复杂非线性系统的多稳定性与不可预测性

PRX Life 进展：细胞状态转化中基因调控网络的动力学研究

大模型2.0读书会：融合学习与推理的大模型新范式！

“双11”共议AI Science“双螺旋引擎”！2024科学智能创新论坛议程和嘉宾阵容公布

科普讲座：涌现、因果与人工智能｜集智进校园·香港浸会大学

科学学视角下 AI 对 Science 的影响丨面向未来的科学学读书会

11.11一年一次限时特惠！加入集智学园VIP，一次性解锁集智平台所有内容资源

阻塞相变：无序体系的一阶相变

圆桌讨论：当 AI 遇见细胞复杂系统｜周二直播·生命复杂性读书会

3D视觉运动计算与应用——从昆虫到机器人丨周三直播·昆虫智能与AI读书会

当复杂科学遇见地球系统：气候网络、复杂性与人工智能

长序列预测 & 时空预测万字长文：一文带你探索多元时间序列预测的研究进展！

冯·诺依曼的遗产：寻找人工生命的理论根源

海量时空数据如何改进 POI 推荐系统？对模型、架构与安全的全面综述

如何创造出超越人工智能的生命系统？从自复制自动机到人工生命丨周日直播·《一种新科学》读书会

如何利用数据提高论文影响力？三万篇论文揭示数据中的重组理论

前沿进展：通过层次结构信息和分子动力学模拟发现高活性肽

整合信息指标 Φ 的近似计算｜周六直播·整合信息论读书会

一作解读：数据中的重组理论如何促进科学影响力丨面向未来的科学学读书会

复杂系统的可解释性动力学推断和临界点预测｜周四直播·复杂系统自动建模读书会第二季

社会性昆虫的行为与群体智能丨周三直播·昆虫智能与AI读书会

时空数据的复杂疾病算法研究和临床应用｜周二直播·生命复杂性读书会

诺奖之后，物理学不存在了？——集智科学家解读2024年诺贝尔奖｜周六直播

整合信息论基础理论：IIT4.0 深入研读｜周日直播·整合信息论读书会

爱因斯坦和固体量子论：还原与演生的两条道路

你和ChatGPT理解语言的方式一样吗？从表征对齐角度比较人工神经网络与生物大脑

诺贝尔物理学奖为何颁给机器学习？Physics for AI 综述介绍

科学计算中的符号回归方法｜周四直播·复杂系统自动建模读书会第二季

简单生物如何形成复杂认知？昆虫智能启发群体智能与集群机器人

学术会议预告｜北京邮电大学第五届“系统论、信息论、博弈论”三论融合学术会议