1000万美元AIMO挑战的启发：有趣的符号计算

科技 2024-09-14 08:50 上海

Symbolic Computation for All the Fun

有趣的符号计算

https://arxiv.org/abs/2404.12048

摘要

受到最近1000万美元AIMO挑战的启发，本文针对寻找符合给定规范的所有函数的问题。这是一个在数学竞赛中非常流行的问题，它带来了许多挑战，主要是合成可能的解决方案并证明不存在其他解决方案。通常有无限多的解决方案，然后必须以符号形式捕捉解决方案集合。我们提出了一种解决这个问题的方法，并在出现在数学竞赛和奥林匹克中的一组问题上对其进行评估。

关键词 AIMO，合成，量词消除，SMT

1. 引言

AIMO挑战承诺向能够在国际数学奥林匹克竞赛（IMO）中赢得金牌的AI模型颁发1000万美元奖金。在本文中，我们强调符号计算工具可以为旨在应对这一挑战的系统提供重要帮助。我们针对数学竞赛中遇到的一个流行问题，即寻找符合某种规范的所有函数。这项一般任务看起来几乎不可能完成。事实上，获得单一函数已经很困难，通常通过合成方法实现，如SyGuS[1]，或者通过特定逻辑片段的特定程序，参见[2, 3, 4, 5, 6]。然而，竞赛中的问题被构建得具有“漂亮”的解决方案。作为一个激励性的例子，考虑一个要求我们找到所有满足以下恒等式的函数𝑓的问题。

2. 问题描述

作为我们问题的来源，我们使用了由Vít Musil [7] 编译的集合，包括来自多个来源的问题，包括国际竞赛以及来自布拉格数学研讨会的一些（较简单）问题。我们将这些问题转录为SMT2格式，其中每个原始问题被分为3种类型的查询。

- 规范的可满足性，即是否存在解决方案（问题查找）；对于上述例子：

• 规范的不可满足性以及所有提议解决方案的否定（问题证明）；对于上述例子：

• 检查每个提议的解决方案确实是规范的解决方案（问题检查），即提议的解决方案与规范的否定的不可满足性；

对于上述例子：

这样，我们要求SMT求解器解决特定步骤，尽管这些步骤不一定涵盖函数方程的完整解决方案。我们没有提供有效解决方案可以包含的内容的正式描述（这可能是使用例如SyGuS [1]的进一步工作）。相反，我们使用我们自己的方法来找到特定形式的所有解决方案集合，该方法在第3节中描述。SMT2问题作为一个GitHub仓库提供，描述了87个问题。在某些情况下，如果存在多个不同的解决方案，检查查询会被分割成多个SMT2文件。我们注意到，在这项工作中，我们发现了在从源材料翻译到SMT时的几个错误。但同时，我们也发现了原始源材料中的一个问题。即问题C9（Cvičení 9）在原始[7]中是不可满足的，我们创建了两个版本的这个问题，作为两种不同的纠正方式（C9和C9a）。

2.1. 选定问题的解决方案

第3节描述了我们通过尝试证明它符合固定模板来解决问题的方法，特别是我们专注于可以表示为多项式的函数。在大多数情况下，这可能不是人类会解决它的方式。将这种联系起来是未来工作的主题。为了比较，我们在这里展示了三个示例问题及其原始（人类）解决方案：

• 问题U24，这是我们能够完全解决的最有趣的问题之一；

• 问题C12，我们无法解决它，但它不需要任何高级技术，所以解决它是可行的；

• 问题U2，它展示了一个需要归纳法来解决的问题，我们假设目前还无法解决。

3. 模板和量词消除

人们可以将这个问题视为在未解释函数理论中的量词消除，同时伴随着描述问题本身所需的理论——在我们的情况下，是实数或有理数的理论。由于这类问题的不可判定性，量词消除算法不能直接使用。一种可能的方法是合成一个符合规范的函数，然后加强规范，使得不再接受个别解决方案。然后，必须重复这个过程，希望解决方案是有限的，或者观察解决方案并将它们概括为更紧凑的描述。所有这些步骤都极其复杂。

相反，我们提出了一种尝试固定模板然后执行量词消除的方法：模板和量词消除，它包括以下子任务。

1. 确定解决方案的模板，例如 \( f(x) \equiv ax + b \)。

2. 证明所有解决方案必须符合这个模板（模板验证）。

3. 对函数的输入变量执行量词消除。

请注意，在实数的情况下，除了任务2之外，所有任务都是可计算的。本节的其余部分详细阐述了各个步骤。

3.1. 模板验证

我们运行cvc5 [12]、Z3 [13]、Vampire [14] 和 Waldmeister [15] 来尝试证明所有问题的解决方案必然符合某个特定模板。由于Waldmeister不直接支持理论，它需要特殊处理，我们在下面详细说明。其他求解器原生支持SMT2语法[16]，使我们能够使用量化非线性实数与未解释函数的组合。

我们考虑以下解决方案模板集：常数、（单项式）线性、（单项式）二次。所有这些都是二次形式的子类，但我们考虑这些是为了简化求解器的任务——可以想象，证明函数必须是常数比证明它必须是任意二次要容易。由于模板集合很小，我们总是尝试所有模板。

3.1.1. 使用Waldmeister

除了假设的单元等式，Waldmeister还期望有一个单元等式作为要证明的目标。目标根据我们正在针对的模板而变化，并对应于SMT求解器的问题的第二变体。在每种情况下，我们固定了一个类型为 \(R\) 的常数 \(d\)（在假设中未提及）。对于每个模板，目标单元等式如下：

3.2. 量词消除

3.3. 后处理器以获得解决形式

3.3.1. 延迟验证

我们现在简要考虑上述方法的一个替代方案。当考虑一个模板时，我们不需要事先验证所有解决方案是否都在该模板类别中。相反，我们可以使用量词消除（QE）来为一个固定的模板找到一个解决方案类别，然后证明没有其他解决方案。这种方法的优势可以通过以下例子来说明。问题C1要求找出所有满足以下条件的函数f：

4. 实验

我们报告了第3节中介绍的模板和量词消除方法在第2节提出的基准测试上的结果。我们的方法的延迟扩展（第3.3.1节）留作未来的工作。模板验证（第3.1节）被证明是最困难的任务。表1a总结了模板验证的结果。所有这些我们都解决了量词消除任务。十三个实例被自动化方法完全解决。这十三个中，有两个可以追溯到竞赛事件。问题U24来自波罗的海之路竞赛——见第2节的“人类”解决方案。问题U71来自布拉格研讨会（PraSe-18-6-1）。在这两种情况下，唯一的解决方案是恒等于0的函数。

验证任务的结果通常导致可满足的问题，即如果存在一个解决方案在提议的模板之外（表1a中的×符号）。这些可满足的问题是非平凡的，因为它们涉及创建一个针对模板的反例。为此，我们还运行了cvc5的SyGuS方法（选项——sygus-inference）及其线性模型构建器[27]。

我们还报告了对手工编写解决方案正确性的验证，这包括两个组成部分：证明——显示所有可能的解决方案都被建议的解决方案覆盖；检查——检查所有建议的解决方案确实是问题解决方案（见第2节）。表1b总结了获得的结果。提供的手写解决方案中有六十五项成功通过了检查，即各个解决方案满足原始规范。手写的二十个解决方案被证明覆盖了所有个别解决方案。不出所料，证明任务比检查任务更难。我们注意到，对于U79的解决方案进行检查是微不足道的，因为没有个别解决方案。更详细的结果可以在作者的网页[28]上找到。

5. 结论和未来工作

本文加入了应对挑战的努力，目标是使计算机像国际数学奥林匹克竞赛（IMO）的金牌获得者一样强大。像AlphaGeometry [29]这样的努力表明，机器学习模型对这项任务是有用的，但同时，进一步的研究表明，它们从现有的符号方法中受益[30]。在这里，我们展示了符号方法确实已经在解决高度非平凡的任务方面非常强大，即找出满足特定规范的所有函数。

http://mp.weixin.qq.com/s?__biz=MzA5MDMwMTIyNQ==&mid=2649401024&idx=1&sn=c009628e9577acd49e4fc9ee6d3bc260

CreateAMind

ALLinCreateAMind.AGI.top ，前沿AGI技术探索，论文跟进，复现验证，落地实验。鼓励新思想的探讨及验证等。探索比大模型更优的智能模型。

最新文章

RC2：高效 MaxSAT 求解器 2018

机器人自监督NeSy神经符号框架，5大应用落地无人驾驶

基于数值推理的关系程序综合

LogiCity：用抽象城市模拟推进NeSy人工智能，首个可定制一阶逻辑（FOL）的模拟器

重磅：比较 NeSy和StarAI系统的7个维度

OpenAI o1到底有多弱？

Code 机器人自主的自监督神经符号框架sairlab系列论文代码落地无人驾驶应用

Code：用神经符号AI解决机器人强化学习等问题，sairlab系列论文代码

反统一与泛化:综述

1000万美元AIMO挑战的启发：有趣的符号计算

寻找最小不可满足子程序学习逻辑程序，学习时间减少99%

Code：从提出假设、验证假设、假设失败中学习最优方案

高阶相互作用在超图和单纯复形中以不同的方式塑造集体动力学

高阶网络的简单性（度量标准）

通过连接小规则来学习大逻辑规则AI程序

ULLER：神经符号AI，学习和推理的统一语言

统一的代数视角看待概率逻辑编程

AI雏形,系统1+系统2，Scallop2：神经符号编程语言: 符号、概率、可解释等强化学习等

Scallop1：从概率演绎数据库到可扩展的可微分推理

如何训练你的HiPPO：具有广义正交基投影的状态空间模型

AI集大成！Scallop：神经符号编程语言: 符号、概率、可解释等强化学习等

王培教授AGI相关论文列表

重磅！感觉的含义：形式化了'“理解”感觉数据流的含义'(意识)

超图挖掘综述:模式、工具和生成器

简单逻辑Prolog--智能推理例子(在线互动版）

第一个自动发现跨领域泛化的高阶抽象,在程序合成领域发现抽象map、filter和fold，并在国际象棋领域使用它们

一个高效的精确算法，用于执行涉及3个和4个节点的高阶模体分析

在网络微观尺度上提取超图中的高阶指纹方法

第一个展示自动发现跨领域泛化的高阶抽象

从失败中学习高阶逻辑程序

自下而上的IDG模型更好地解释了人类的推理 2018

复杂超图上相位振荡器的同步化，复杂系统中最具标志性的问题之一，它在生物学、物理学和工程学等领域都有应用

ILP Code：指数级降低搜索空间：通过组合程序来学习逻辑程序

ILP Code：从假设、验证、失败中学习

Code：ARC_AGI比赛的图形、约束和搜索 V2 超图表示及代码展示一点

儿童黑客：构建更多具有人类特征的学习模型 1 理论(1-2章两万字)

解决终身学习迁移学习：30年ILP介绍，四万字

Code：最有前途的ARC-AGI比赛方法：关系分解，关系型表示胜过函数型表示

重磅：人类大脑进化和认知的协同核心：大脑组织如何产生人类独特的认知能力

Code：最有前途的ARC-AGI比赛方法：关系分解，关系型表示胜过函数型表示

地球是模拟的？如何逃脱，存在的目的？

重磅理论基础：贝叶斯力学的几何和分析，自由能的复杂系统理论四万字

超维计算(向量符号体系结构)综述，第一部分:模型和数据转换

Code：Reticula: 原生处理有向和无向静态网络、时间网络、超图和时间超图的软件库

分割-对齐-征服策略之程序合成for ARC-AGI

EasyGraph：多功能、跨平台、高效的跨学科网络分析库

概率分布通用逼近器 universal distribution approximation v3

Code：关系型表示胜过函数型表示，程序合成中的关系分解

ARC挑战指南2023：由于ARC训练集的规模非常小，需要强烈的归纳偏差和先验知识

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉