标题 | SNIP: BRIDGING MATHEMATICAL SYMBOLIC AND NUMERIC REALMS WITH UNIFIED PRE-TRAINING |
---|---|
作者 | Kazem Meidani, Parshin Shojaee, Chandan K. Reddy , Amir Barati Farimani |
机构 | Department of Mechanical Engineering, Carnegie Mellon University |
论文 | https://doi.org/10.48550/arXiv.2310.02227 |
代码 | https://github.com/deep-symbolic-mathematics/Multimodal-Math-Pretraining |
摘要
在一个符号数学方程对复杂自然现象建模不可或缺的时代,科学探究往往涉及收集观察结果并将其转化为数学表达式。最近,深度学习已经成为从数据中提取见解的强大工具。然而,现有的模型通常专注于数字或符号领域,并且通常以针对特定任务的监督方式进行训练。这种方法忽略了符号方程和它们的数值对应关系之间的任务不可知论多模态理解可能带来的实质性好处。为了弥补这一差距,我们引入了符号-数字集成预训练模型SNIP,该模型采用符号域和数字域之间的对比学习,增强了它们在嵌入中的相互相似性。通过执行潜在空间分析,我们观察到SNIP提供了对表征的跨域洞察,揭示了符号监督增强了数字数据的嵌入,反之亦然。我们在不同的任务中评估SNIP,包括符号到数字的数学性质预测和数字到符号的方程发现,通常被称为符号回归。结果表明,SNIP有效地转移到各种任务中,始终优于完全监督基线,并与既定的任务特定方法竞争,特别是在可用数据有限的低数据方案中。
模型架构
图(1)
主要框架是图(1)SNIP(Symbolic-Numeric Integrated Pre-training),其创新点在于通过对符号和数值数据的统一预训练模型,利用对比学习将这两种模态的数据表征对齐。
符号编码器(Symbolic Encoder):用于处理符号数学表达式,将其转化为潜在向量表示。
数值编码器(Numeric Encoder):用于处理数值数据,将数值数据对映射到潜在空间中的向量表示。
通过对比学习,采用对比损失,将符号数据和对应的数值数据在潜在空间中对齐,使得对应的数据对的潜在表示相似,而不相关的数据对则在潜在空间中保持距离。
使用对比损失函数InfoNCE来优化符号和数值表示,使得符号和数值模态之间具有相互映射能力。
其中B表示一批(符号、数字)数据对,和分别表示符号到数字和数字到符号相似度的对比损失。符号-数值对比损失计算如下:
其中τ为温度,表示与SNIP符号嵌入ZS重叠的正SNIP数字嵌入,表示由批中其他数字嵌入隐式形成的负SNIP数字嵌入。对称等效的也定义了数字-符号对比损失。
图(2)
图(2)是使用SNIP做符号回归的流程框架,符号表达式和它们相应的数值数据作为配对的输入,数值编码器符号编码器来分别学习数值数据和符号表达式的表征。数据被压缩到潜在向量空间,数值编码器处理数值数据对,符号编码器处理符号表达式。通过对比学习将符号表达式和相应的数值数据的潜在表示对齐,在潜在空间对潜在变量进行优化,最后利用解码器从结合训练的数值表征中,生成与数值数据相符的符号表达式。
文章动机
符号数学和数值数据的分离:现有的机器学习方法通常只处理符号数学或数值数据中的一种,而符号数学在科学领域中扮演着关键角色(例如符号回归任务中从数值数据推导数学公式),数值数据则是许多物理现象的观测结果。传统的符号回归方法要么只适用于数值问题,要么只处理符号数学表达式,无法结合这两者的优势。 任务特定方法的局限:过去的符号回归方法高度依赖于监督学习,并且针对具体的任务进行优化,无法从多模态(数值和符号)之间的关系中学习通用的表征。这导致模型的泛化能力和适应性较差,尤其是在数据稀缺的情况下。 符号回归任务的高计算复杂度:符号回归任务的目标是从数值数据中找到能解释数据的符号表达式,但这一过程通常需要遍历庞大的符号空间,导致计算量极大。传统符号回归方法(如遗传算法)在搜索数学表达式时效率低下,尤其在高维或复杂数据中,计算代价高昂。 低数据情况下的泛化能力差:符号回归和多模态任务往往面临数据不足的情况,尤其是在科学领域,获取足够的标注数据非常困难。传统的符号回归方法高度依赖于大规模的标注数据,当数据量不足时,模型容易过拟合,无法泛化到新的任务或数据集。
SNIP方法的优势
对比学习增强表示能力:通过对比学习,SNIP 可以在潜在空间中对齐符号表达式和对应的数值数据,这种方式使得模型能够更好地理解数值数据和符号表达式之间的复杂关系。相比传统的数学方法,实现了符号与数值模态之间的有效桥接。
潜在空间优化用于符号回归:通过潜在空间优化(Latent Space Optimization,LSO),将符号回归问题转化为潜在空间中的连续优化问题。这与传统的符号回归方法(如遗传算法、随机搜索等)相比,有着更高效的搜索机制,并且能在低维空间中快速找到最优的符号表达式。降低了搜索的复杂性,提升了生成符号表达式的效率和准确性。
适应性强:SNIP 通过预训练建立的表示可以适用于多个不同的任务,不需要为每个任务从零开始训练。这与传统的符号回归方法需要为每个新任务单独设计模型和优化过程形成了鲜明对比。
实验
SNIP 在跨模态属性预测任务中的应用
定量结果
表1所示的结果表明,SNIP,无论是在其原始的“冻结”状态下,还是在经过微调后,在所有评估的属性中始终优于监督模型的性能。这种优势在NMSE和Acc0.1这两个指标中都很明显。不同属性间的机会水平差异突出了每个属性所固有的独特挑战。这种差异强调了SNIP模型在导航跨模态属性预测任务的多样性方面的适应性和鲁棒性。
定性结果
图3:三种模型变体中编码向量的二维t-SNE表示,(上)为非凸性比,(下)为函数后发性预测任务。
图中比较了(a)未经预训练的监督模型,(b)冻结预训练的SNIP编码器,以及(c)每个任务的微调SNIP编码器
使用t分布随机邻居嵌入(t-SNE)将其预微调和后微调的潜在空间与缺乏预训练的监督模型的潜在空间进行了比较(van der Maaten & Hinton, 2008)。可视化用相应的属性进行颜色编码(图3)。与定量结果一致,图3(a)所示的监督模型的潜在空间表现出有限的结构一致性。相比之下,SNIP在图3(b)中的潜在空间显示出明显的聚类和明显的属性趋势。值得注意的是,对这些预测任务的编码器进行进一步微调,如图3(c)所示,产生了更结构化的潜在空间,其特征是属性上更清晰的线性趋势。这一发现强调了SNIP的数量优势及其适应下游任务的灵活性。
低数据状态分析
图4:NCR属性预测任务的分数与训练样本数量的关系
评估了训练样本量如何影响预测NCR的测试分数,在固定的1k样本测试集上评估了三种模型变体(图4)。在低数据方案中,只有100个训练样本,监督模型的分数急剧下降到0.292,而两个SNIP变体的分数都保持在0.745以上。当训练样本量增加到1M时,所有模型都有所改善;然而,SNIP变体继续领先。有监督基线模型可能使用更多的训练数据接近SNIP的性能,这是合理的,因为该模型仅用于预测该属性。然而,SNIP的价值在于它的灵活性-预训练的表示可以有效地适应新的任务。这些结果强调了SNIP在有限数据中的优越泛化,强调了SNIP丰富的语义编码。
SNIP 在符号回归任务中的应用
图5:帕累托图比较SRBench数据集上所有方法的和方程复杂性:(a) Strogatz, (b) Black-box, (c) Feynman。使用SNIP进行SR会产生很强的拟合复杂性权衡,在所有数据集中的第一个帕累托前定位证明了这一点。在这里,每个点描绘了一种方法在数据组中的中位数排名,用线/颜色表示帕累托优势。“*”标记黑盒数据集中的SR方法。
在这里,SNIP显示了强大的准确性和复杂性平衡,在所有数据集中都位于第一个帕累托前沿。在Strogatz数据集上,SNIP显示出0.928的顶级准确率,优于所有领先基线。对于黑箱数据集,SNIP再次显示出具有竞争力的准确性,同时获得比竞争性Operon基线(64.95)更低的复杂性(47.52)。在Feynman数据集上,SNIP定位于Pareto边界,提供比Operon (31.63 vs. 69.87)更好的复杂性和比AIFeynman (0.882 vs. 0.798)基线更好的准确性。
讨论和结论
文章介绍了SNIP,一个多模态符号-数字预训练模型,学习如何将数学函数的符号和数字方面联系起来。我们发现SNIP在估计跨模态数学特性方面表现出非凡的能力,特别是在低数据状态下,优于全监督模型。此外,通过利用SNIP构建的潜在空间(捕获功能行为和符号形式),该模型在符号回归中展示了具有竞争力的性能,即使与领先的GP基线相比也是如此。虽然SNIP在集成符号和数字学习方面展示了鲁棒性和多功能性,但它有明显的局限性。它与不能清晰地表达为封闭形式的数学函数的数据模式作斗争。此外,它的性能与预定义的数据生成协议有关,该协议采用了(Lample & Charton, 2020;Kamienny et al, 2022),它对输入维度和数学运算符词汇等因素设置了约束。例如,当前协议将输入维数限制在D≤10,因为在高维上表达式复杂度呈指数增长。探索高维设置是未来研究的一个有趣途径,这可能需要对数据生成协议进行重大更新。尽管有这些限制,SNIP具有广泛的功能,在符号和数值数学的交叉领域提供了一个强大的工具。未来的研究可以关注SNIP的潜在应用,从在函数积分等符号对符号任务中使用数字引导,到在0-shot外推和超分辨率等数字对数字任务中使用符号引导。此外,SNIP的学习表征可以作为创新的符号-数字接近性评估指标的基础,以及有效的数据和特征评估。
本文提出的SNIP试图解决符号数学表达式和数值数据之间的断层问题,通过统一的预训练模型,在符号和数值模态之间建立通用的表征,并在符号回归任务中提高效率。在符号回归问题的应用上,将符号和数值分别进行处理,利用对比学习对其二者的潜在向量构建潜在空间,然后利用LSO在潜在空间预测符号骨架最后利用BFGS对数值进行预测,最后解码完成符号表达式的输出。文章提供了解决符号回归的新思路,建立符号和数据之间的联系,通过学习符号和数值数据的通用表征,提高模型在不同任务和数据集上的适应性。我认为这确实为我们以后解决符号回归问题提供了新的想法。