[论文分享]ICLR 2024 SNIP:桥接数学符号和数字领域与统一的预训练

文摘 2024-09-25 20:16 广东

标题	SNIP: BRIDGING MATHEMATICAL SYMBOLIC AND NUMERIC REALMS WITH UNIFIED PRE-TRAINING
作者	Kazem Meidani, Parshin Shojaee, Chandan K. Reddy , Amir Barati Farimani
机构	Department of Mechanical Engineering, Carnegie Mellon University
论文	https://doi.org/10.48550/arXiv.2310.02227
代码	https://github.com/deep-symbolic-mathematics/Multimodal-Math-Pretraining

摘要

在一个符号数学方程对复杂自然现象建模不可或缺的时代，科学探究往往涉及收集观察结果并将其转化为数学表达式。最近，深度学习已经成为从数据中提取见解的强大工具。然而，现有的模型通常专注于数字或符号领域，并且通常以针对特定任务的监督方式进行训练。这种方法忽略了符号方程和它们的数值对应关系之间的任务不可知论多模态理解可能带来的实质性好处。为了弥补这一差距，我们引入了符号-数字集成预训练模型SNIP，该模型采用符号域和数字域之间的对比学习，增强了它们在嵌入中的相互相似性。通过执行潜在空间分析，我们观察到SNIP提供了对表征的跨域洞察，揭示了符号监督增强了数字数据的嵌入，反之亦然。我们在不同的任务中评估SNIP，包括符号到数字的数学性质预测和数字到符号的方程发现，通常被称为符号回归。结果表明，SNIP有效地转移到各种任务中，始终优于完全监督基线，并与既定的任务特定方法竞争，特别是在可用数据有限的低数据方案中。

模型架构

图（1）

主要框架是图（1）SNIP（Symbolic-Numeric Integrated Pre-training），其创新点在于通过对符号和数值数据的统一预训练模型，利用对比学习将这两种模态的数据表征对齐。

符号编码器（Symbolic Encoder）：用于处理符号数学表达式，将其转化为潜在向量表示。
数值编码器（Numeric Encoder）：用于处理数值数据，将数值数据对映射到潜在空间中的向量表示。

通过对比学习，采用对比损失，将符号数据和对应的数值数据在潜在空间中对齐，使得对应的数据对的潜在表示相似，而不相关的数据对则在潜在空间中保持距离。

使用对比损失函数InfoNCE来优化符号和数值表示，使得符号和数值模态之间具有相互映射能力。

其中B表示一批(符号、数字)数据对，和分别表示符号到数字和数字到符号相似度的对比损失。符号-数值对比损失计算如下:

其中τ为温度，表示与SNIP符号嵌入ZS重叠的正SNIP数字嵌入，表示由批中其他数字嵌入隐式形成的负SNIP数字嵌入。对称等效的也定义了数字-符号对比损失。

图（2）

图（2）是使用SNIP做符号回归的流程框架，符号表达式和它们相应的数值数据作为配对的输入，数值编码器符号编码器来分别学习数值数据和符号表达式的表征。数据被压缩到潜在向量空间，数值编码器处理数值数据对，符号编码器处理符号表达式。通过对比学习将符号表达式和相应的数值数据的潜在表示对齐，在潜在空间对潜在变量进行优化，最后利用解码器从结合训练的数值表征中，生成与数值数据相符的符号表达式。

文章动机

符号数学和数值数据的分离：现有的机器学习方法通常只处理符号数学或数值数据中的一种，而符号数学在科学领域中扮演着关键角色（例如符号回归任务中从数值数据推导数学公式），数值数据则是许多物理现象的观测结果。传统的符号回归方法要么只适用于数值问题，要么只处理符号数学表达式，无法结合这两者的优势。
任务特定方法的局限：过去的符号回归方法高度依赖于监督学习，并且针对具体的任务进行优化，无法从多模态（数值和符号）之间的关系中学习通用的表征。这导致模型的泛化能力和适应性较差，尤其是在数据稀缺的情况下。
符号回归任务的高计算复杂度：符号回归任务的目标是从数值数据中找到能解释数据的符号表达式，但这一过程通常需要遍历庞大的符号空间，导致计算量极大。传统符号回归方法（如遗传算法）在搜索数学表达式时效率低下，尤其在高维或复杂数据中，计算代价高昂。
低数据情况下的泛化能力差：符号回归和多模态任务往往面临数据不足的情况，尤其是在科学领域，获取足够的标注数据非常困难。传统的符号回归方法高度依赖于大规模的标注数据，当数据量不足时，模型容易过拟合，无法泛化到新的任务或数据集。

SNIP方法的优势

对比学习增强表示能力：通过对比学习，SNIP 可以在潜在空间中对齐符号表达式和对应的数值数据，这种方式使得模型能够更好地理解数值数据和符号表达式之间的复杂关系。相比传统的数学方法，实现了符号与数值模态之间的有效桥接。
潜在空间优化用于符号回归：通过潜在空间优化（Latent Space Optimization，LSO），将符号回归问题转化为潜在空间中的连续优化问题。这与传统的符号回归方法（如遗传算法、随机搜索等）相比，有着更高效的搜索机制，并且能在低维空间中快速找到最优的符号表达式。降低了搜索的复杂性，提升了生成符号表达式的效率和准确性。
适应性强：SNIP 通过预训练建立的表示可以适用于多个不同的任务，不需要为每个任务从零开始训练。这与传统的符号回归方法需要为每个新任务单独设计模型和优化过程形成了鲜明对比。

实验

SNIP 在跨模态属性预测任务中的应用

定量结果

表1所示的结果表明，SNIP，无论是在其原始的“冻结”状态下，还是在经过微调后，在所有评估的属性中始终优于监督模型的性能。这种优势在NMSE和Acc0.1这两个指标中都很明显。不同属性间的机会水平差异突出了每个属性所固有的独特挑战。这种差异强调了SNIP模型在导航跨模态属性预测任务的多样性方面的适应性和鲁棒性。

定性结果

图3:三种模型变体中编码向量的二维t-SNE表示，(上)为非凸性比，(下)为函数后发性预测任务。

图中比较了(a)未经预训练的监督模型，(b)冻结预训练的SNIP编码器，以及(c)每个任务的微调SNIP编码器

使用t分布随机邻居嵌入(t-SNE)将其预微调和后微调的潜在空间与缺乏预训练的监督模型的潜在空间进行了比较(van der Maaten & Hinton, 2008)。可视化用相应的属性进行颜色编码(图3)。与定量结果一致，图3(a)所示的监督模型的潜在空间表现出有限的结构一致性。相比之下，SNIP在图3(b)中的潜在空间显示出明显的聚类和明显的属性趋势。值得注意的是，对这些预测任务的编码器进行进一步微调，如图3(c)所示，产生了更结构化的潜在空间，其特征是属性上更清晰的线性趋势。这一发现强调了SNIP的数量优势及其适应下游任务的灵活性。

低数据状态分析

图4:NCR属性预测任务的分数与训练样本数量的关系

评估了训练样本量如何影响预测NCR的测试分数，在固定的1k样本测试集上评估了三种模型变体(图4)。在低数据方案中，只有100个训练样本，监督模型的分数急剧下降到0.292，而两个SNIP变体的分数都保持在0.745以上。当训练样本量增加到1M时，所有模型都有所改善;然而，SNIP变体继续领先。有监督基线模型可能使用更多的训练数据接近SNIP的性能，这是合理的，因为该模型仅用于预测该属性。然而，SNIP的价值在于它的灵活性-预训练的表示可以有效地适应新的任务。这些结果强调了SNIP在有限数据中的优越泛化，强调了SNIP丰富的语义编码。

SNIP 在符号回归任务中的应用

图5:帕累托图比较SRBench数据集上所有方法的和方程复杂性:(a) Strogatz， (b) Black-box， (c) Feynman。使用SNIP进行SR会产生很强的拟合复杂性权衡，在所有数据集中的第一个帕累托前定位证明了这一点。在这里，每个点描绘了一种方法在数据组中的中位数排名，用线/颜色表示帕累托优势。“*”标记黑盒数据集中的SR方法。

在这里，SNIP显示了强大的准确性和复杂性平衡，在所有数据集中都位于第一个帕累托前沿。在Strogatz数据集上，SNIP显示出0.928的顶级准确率，优于所有领先基线。对于黑箱数据集，SNIP再次显示出具有竞争力的准确性，同时获得比竞争性Operon基线(64.95)更低的复杂性(47.52)。在Feynman数据集上，SNIP定位于Pareto边界，提供比Operon (31.63 vs. 69.87)更好的复杂性和比AIFeynman (0.882 vs. 0.798)基线更好的准确性。

讨论和结论

文章介绍了SNIP，一个多模态符号-数字预训练模型，学习如何将数学函数的符号和数字方面联系起来。我们发现SNIP在估计跨模态数学特性方面表现出非凡的能力，特别是在低数据状态下，优于全监督模型。此外，通过利用SNIP构建的潜在空间(捕获功能行为和符号形式)，该模型在符号回归中展示了具有竞争力的性能，即使与领先的GP基线相比也是如此。虽然SNIP在集成符号和数字学习方面展示了鲁棒性和多功能性，但它有明显的局限性。它与不能清晰地表达为封闭形式的数学函数的数据模式作斗争。此外，它的性能与预定义的数据生成协议有关，该协议采用了(Lample & Charton, 2020;Kamienny et al, 2022)，它对输入维度和数学运算符词汇等因素设置了约束。例如，当前协议将输入维数限制在D≤10，因为在高维上表达式复杂度呈指数增长。探索高维设置是未来研究的一个有趣途径，这可能需要对数据生成协议进行重大更新。尽管有这些限制，SNIP具有广泛的功能，在符号和数值数学的交叉领域提供了一个强大的工具。未来的研究可以关注SNIP的潜在应用，从在函数积分等符号对符号任务中使用数字引导，到在0-shot外推和超分辨率等数字对数字任务中使用符号引导。此外，SNIP的学习表征可以作为创新的符号-数字接近性评估指标的基础，以及有效的数据和特征评估。

本文提出的SNIP试图解决符号数学表达式和数值数据之间的断层问题，通过统一的预训练模型，在符号和数值模态之间建立通用的表征，并在符号回归任务中提高效率。在符号回归问题的应用上，将符号和数值分别进行处理，利用对比学习对其二者的潜在向量构建潜在空间，然后利用LSO在潜在空间预测符号骨架最后利用BFGS对数值进行预测，最后解码完成符号表达式的输出。文章提供了解决符号回归的新思路，建立符号和数据之间的联系，通过学习符号和数值数据的通用表征，提高模型在不同任务和数据集上的适应性。我认为这确实为我们以后解决符号回归问题提供了新的想法。

http://mp.weixin.qq.com/s?__biz=MzkxODQ0MTQzMg==&mid=2247489751&idx=1&sn=ec7a7c82ded1c687b6f3c62ef55505e1

EvoIGroup

Evolutionary Intelligence (EvoI) Group。主要介绍进化智能在网络科学，机器学习，优化和实际（工业）应用上的研究进展。欢迎投稿推文等。联系方式：evoIgroup@163.com。

最新文章

ICLR2025与演化计算

[论文分享]NeurIPS 2024 用于时间序列预测的检索增强扩散模型

本周进化领域文章更新

[论文分享] ICML 2024 一种解决无监督组合优化中普遍条件：基数约束、最小值、覆盖等的方法

[论文分享]NIPS 2024 CycleNet：通过对周期性模式建模增强时间序列预测

[论文分享]NeurIPS 2024 TIME-FFM：面向基于语言模型的联邦基础模型的时间序列预测

本周进化领域文章更新

[论文分享]IEEE TEVC 2023 穷尽式符号回归

[论文分享]NeurIPS 2023 ICPI：语言模型可以实现强化学习领域内的策略迭代

本周进化领域文章更新

[论文分享]IEEE TEVC 2024 基于自回归学习的自动化元启发式算法设计

[论文分享]NIPS 2024 Oral ChaosBench：多通道、基于物理的次季节-季节气候预测benchmark

[论文分享]ICCAD 2024 基于边的可微分OPC

本周进化领域文章更新

[论文分享]ICML 2024 Leddam: 具有序列间依赖性和序列内变化建模的可学习时间序列分解

[论文分享]Arxiv速递 TSI-Bench: 时间序列填补基准测试

[项目成果]PySDKit：信号分解算法的Python库

[论文分享]Arxiv 2024 Quiet-STaR: 语言模型可以学会先思考后回答

遗传算法的应用（来自2024诺贝尔化学奖得主David Baker）

本周进化领域文章更新

[成果分享]刘静教授团队研究成果入选机器学习顶级会议NeurIPS 2024

[论文分享]ICLR 2024 SNIP:桥接数学符号和数字领域与统一的预训练

[论文分享]TEVC 2024 一种多样性增强的三阶段框架用于约束多目标优化

本周进化领域文章更新

[论文分享]Arxiv 2024 PhaseEvo: 迈向统一的大型语言模型上下文提示优化

本周进化领域文章更新

[论文分享]ICLR 2024 ModernTCN：用于通用时间序列分析的现代纯卷积结构

[论文分享] ICML 2024 MVMoE: 基于混合专家模型的多任务车辆路径规划求解器

本周进化领域文章更新

[论文分享]ICML 2024 Timer：生成式预训练Transformer是大型时间序列模型

[论文分享]NeurIPS 2022 STaR：语言模型使用推理引导推理

[论文分享]ICLR 2024 DYVAL：大语言模型在推理任务中的动态评估

本周进化领域文章更新

[论文分享]Arxiv速递用于高效探索性景观分析的希尔伯特曲线邻域采样

[论文分享]ICLR 2023 MICN：用于长时间序列预测的多尺度局部和全局上下文建模

Nature正刊（演化深度持续学习）Loss of plasticity in deep continual learning

本周进化领域文章更新

[论文分享]AAAI 2024 高维偏微分方程解的可解释方法

[论文分享]ICML 2024 长期时间序列预测的损失整形约束

[论文分享]GECCO 2024 深度神经交叉：一种利用基因相关性的多亲本算子

本周进化领域文章更新

[论文分享] NeurIPS 2020 POMO：用于强化学习的多优化策略优化

[论文分享]Arxiv 2023 使用AlphaZero式的树形搜索指导LLM推理

本周进化领域文章更新

[论文分享]ESWA 2023 SAITS：基于自注意力的时间序列插补

WCCI2024最佳论文！

GECCO2024最佳论文出炉！

[论文分享]Arxiv2024 针对图神经网络后门攻击的鲁棒性启发防御

[论文分享] ICLR 2022 用于分布漂移时间序列准确预测的可逆实例标准化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉