|作者:王磊1,† 张潘2
(1 中国科学院物理研究所)
(2 中国科学院理论物理研究所)
本文选自《物理》2024年第6期
摘要 科学研究的本质在于创造。生成式人工智能为更有创意的科学探索打开了无尽的想象空间。作为生成式人工智能的核心,生成模型学习数据样本背后的概率分布,并据此随机采样生成新的样本。生成模型和统计物理在本质上是同一枚硬币的两面。文章从物理的视角介绍扩散模型、自回归模型、流模型、变分自编码器等现代生成模型。生成模型在原子尺度物质结构的生成与设计中展现出巨大的潜力。不仅如此,基于和统计物理的内在联系,生成模型对于优化“大自然的损失函数”——变分自由能具有独特的优势,这为求解困难的统计物理和量子多体问题提供了新的可能。同时,物理学的洞察也在推动生成模型的发展和创新。通过借鉴物理学原理和方法,还可以设计出更加高效、更加统一的生成模型,以应对人工智能领域中的挑战。
关键词 生成模型,统计物理,相对熵,最大似然估计,变分自由能
费曼在他的黑板上留下一句话:“what I can not create,I do not understand”[1]。三十年后,这句话被如今大红大紫的OpenAI当作信条挂在网站上[2]。确实,无论是在物理学还是人工智能的研究中,有能力创造往往才意味着最高层次的理解。
图1 (a)生成模型学习数据背后的概率分布,并据此采样生成新的样本;(b)在像素空间,不同类别的图片处于概率分布的不同模式。类似地,金属与绝缘体中的原子排布也处于晶体生成模型概率分布的不同模式
自玻尔兹曼以来,物理学对于自然界的描述就告别了决定论。微观世界充满了随机性,理解它自然需要掌握微观变量的联合概率分布。例如,水和冰由同样的水分子所组成,在基本组成单元上没有区别。但由于在不同温度下水分子构象x的联合概率分布p(x)是不同的,因此在宏观上展现出不同的物理性质。另一个例子是统计物理中的经典伊辛模型,其中的自旋构型服从玻尔兹曼分布,其中E(x)是伊辛构型x的能量,配分函数Z是概率分布的归一化因子。不同的温度1/β会导致不同的玻尔兹曼分布,甚至给出截然不同的磁化强度、比热等宏观物理量。
BOX 1
相对熵是信息论的一个基本量,也被称为Kullback—Leibler散度。它度量了概率分布之间的相似度。对于两个归一化的概率分布q和p,相对熵总是非负的[3]:
其中等号仅在两个概率分布相等时取到。因此,相对熵常常被用作训练生成模型的目标函数。通过最小化生成模型所表达的概率分布和目标概率分布之间的相对熵,可以让生成模型学会目标概率分布。
为什么要选择相对熵这个看起来奇怪的度量,而不直接使用类似于这样的均方差度量?主要有两个原因:第一,概率分布p(x)和q(x)在数量级上可能差别巨大,均方差距离不能充分体现这点差别,而相对熵中比较概率函数的对数可以更好地处理这种数量级差异;第二,其实不值得在两个概率分布都取值极其小的区域比较它们的差异,因此,相对熵的定义中按照概率q(x)加权计算,即集中检查对于概率q(x)而言有意义的空间中两个概率分布对数的差别。
从定义(1)可见,相对熵对于概率分布q和p的互换并不是对称的。相对熵的AB面刚好对应了生成模型在数据建模和理论计算中的两种应用,见下表。首先,最小化数据集所代表的经验概率分布和模型分布之间的相对熵,等价于最小化以下的目标函数:
因为ln p(x)在统计学中被称为对数似然函数,最小化(2)式也被称为最大似然估计(maximum likelihood estimation)。注意,训练数据仅仅是目标概率分布中有代表性的样本,而不是目标分布本身。因此,过分地优化(2)式会导致过拟合现象。以图1(a)为例,如果模型学到的概率分布仅仅在蓝色数据点上非零,它就只会死记硬背训练数据,而不能再生成新的样本。
其次,在统计物理研究中人们往往知道体系的能量函数E(x),而需要得到的是服从玻尔兹曼分布的样本x以及配分函数Z。这种场景和数据驱动的最大似然估计恰恰相反。此时,可以将模型分布p(x)当作变分概率分布,并最小化它和物理系统的玻尔兹曼分布之间的相对熵。这等价于变分自由能:
其中不等号来自于相对熵的非负性。(3)式中两项的物理含义分别是变分概率分布的熵和能量期望值。当不等式取等号时,变分概率分布等于真实的玻尔兹曼分布,变分自由能计算也就严格地解决了问题。注意到变分计算并不依赖于事先准备好的训练样本,因为样本可以从生成模型概率分布p(x)中采样得来。此外,变分计算也不需要担心过拟合,变分自由能这个目标函数值越低越好。
生成模型的最大似然估计和变分自由能计算是同一枚硬币的两面
我们从物理学的视角介绍图2所示的几类常见的生成模型。读者如果想要更加全面地了解生成模型,可以参考近期出版的教科书[4—6]。
图2 四类生成模型和它们背后关键的数学公式 (a)扩散模型:朗之万方程;(b)自回归模型:条件概率分解;(c)流模型:变量替换;(d)变分自编码器:变分贝叶斯推断
训练生成模型所需要的数据量通常远大于模型的参数。因此,生成模型需要做好“有损压缩”:发现数据中的统计规律,从而生成符合规律的样本。本文介绍的四类现代生成模型都可以直接采样。它们生成样本的方式有点类似于经验直觉式的快速反应,生成速度和样本具体是什么无关。不仅如此,扩散模型、流模型和自回归模型所表达的概率分布都很容易归一化。这意味着它们都有“自知之明”:不仅可以生成样本,还可以用模型计算的似然函数给样本打分。
长期以来计算机最显著的特点是算得快、算得准。然而生成式人工智能赋予了计算机从经验中学习“直觉”的能力,甚至可以用来“创造”新的经验。定量描述这种“直觉”和“创造”的数学工具和统计物理一样,都是自然界中的概率分布。表3为有物理背景的读者提供了一个小小的字典。希望它和本文有助于揭开生成式人工智能的神秘面纱。
表3 生成模型和统计物理课题之间的字典
(参考文献可上下滑动查看)
我对吴有训、叶企孙、萨本栋先生的点滴回忆 | 《物理》50年精选文章
国立西南联合大学物理系——抗日战争时期中国物理学界的一支奇葩(Ⅰ) | 《物理》50年精选文章
国立西南联合大学物理系——抗日战争时期中国物理学界的一支奇葩(Ⅱ) | 《物理》50年精选文章
原子核裂变的发现:历史与教训——纪念原子核裂变现象发现60周年 | 《物理》50年精选文章
回顾与展望——纪念量子论诞生100周年 | 《物理》50年精选文章
中国理论物理学家与生物学家结合的典范——回顾汤佩松和王竹溪先生对植物细胞水分关系研究的历史性贡献(上) |《物理》50年精选文章
中国理论物理学家与生物学家结合的典范——回顾汤佩松和王竹溪先生对植物细胞水分关系研究的历史性贡献(下) |《物理》50年精选文章
为了忘却的怀念——回忆晚年的叶企孙 | 《物理》50年精选文章
从分子生物学的历程看学科交叉——纪念金螺旋论文发表50周年 | 《物理》50年精选文章
美丽是可以表述的——描述花卉形态的数理方程 | 《物理》50年精选文章
一本培养了几代物理学家的经典著作 ——评《晶格动力学理论》 |《物理》50年精选文章
熵非商——the Myth of Entropy |《物理》50年精选文章
普渡琐记——从2010年诺贝尔化学奖谈起 |《物理》50年精选文章
天气预报——由经验到物理数学理论和超级计算 | 《物理》50年精选文章
纪念Bohr的《伟大的三部曲》发表100周年暨北京大学物理专业建系100周年 | 《物理》50年精选文章
凝聚态材料中的拓扑相与拓扑相变——2016年诺贝尔物理学奖解读 |《物理》50年精选文章
通用量子计算机和容错量子计算——概念、现状和展望 | 《物理》50年精选文章
谈书说人之一:《理论物理学教程》是怎样写成的?| 《物理》50年精选文章
时空奇点和黑洞 ——2020年诺贝尔物理学奖解读 |《物理》50年精选文章
凝聚态物理学的新篇章——超越朗道范式的拓扑量子物态 | 《物理》50年精选文章
对于麦克斯韦方程组,洛伦兹变换的低速极限是伽利略变换吗?| 《物理》50年精选文章