Code：最有前途的ARC-AGI比赛方法：关系分解，关系型表示胜过函数型表示

科技 2024-09-02 00:00 上海

Relational decomposition for program synthesis

程序合成中的关系分解

ILP优点：

摘要

我们介绍了一种新颖的程序合成方法，该方法将复杂的功能任务分解为更简单的关系合成子任务。我们通过在三个具有挑战性的数据集上使用现成的归纳逻辑编程（ILP）系统，展示了我们方法的有效性。我们的结果表明：（i）关系表示可以胜过功能表示，以及（ii）具有关系编码的现成ILP系统可以胜过特定领域的方法。

1 引言

程序合成的目标是根据一组输入输出示例自动生成计算机程序（Gulwani等人，2017年）。例如，考虑表1中显示的例子。给定这些例子，我们想要学习一个程序，在输入列表的第2个位置插入字母a，以产生相应的输出列表。

程序合成的标准方法是搜索一系列函数（Ellis等人，2018年；Kim等人，2022年；Ameen和Lelis，2023年；Witt等人，2023年；Rule等人，2024年）或动作（Cropper和Dumanˇci´c，2020年；Curtis等人，2022年；Aleixo和Lelis，2023年；Lei，Lipovetzky和Ehinger，2024年），以将输入映射到输出。例如，在仅给定表1中的例子以及head、tail和cons这几个函数的情况下，一个系统可以综合出以下程序：

虽然函数式方法对简单程序是有效的，但当学习需要长序列函数的程序时可能会遇到困难。例如，要在第3个位置插入字母a，一个系统可以综合出这样的程序：

这个程序很长，学习起来也很困难，因为在程序合成中的搜索复杂度随着搜索深度的增加而呈指数级增长（Gulwani等人，2017年；Witt等人，2023年）。因此，大多数现有方法在学习长序列函数时都会遇到困难。

我们的关键贡献不是学习一系列函数来将输入映射到输出，而是展示我们可以将复杂的功能合成任务分解为更简单关系合成子任务。具体来说，我们将每个训练输入输出示例分解为一组事实，并尝试学习它们之间的关系。

为了说明这个概念，考虑表1中的第一个输入输出示例。我们将输入列表分解为一组形式为in(I,V)的事实，其中每个事实陈述索引I处的输入值是V：

第一条规则表明，对于小于2的索引I，输出值在索引I处是输入值在索引I处的值。

第二条规则表明，输出值在索引2处是字母a。

第三条规则表明，对于严格大于2的索引I，输出值在索引I处是输入值在索引I-1处的值。我们可以通过学习不同的索引来学习在位置k插入的类似规则。

作为第二个示例场景，请考虑图1中的任务，该任务来自抽象和推理语料库（ARC）（Chollet，2019年）。目标是学习一个函数，将输入图像映射到输出图像。我们不是将输入输出示例作为一个单一的示例来对待，而是将输入和输出图像分解为有关单个像素的事实。具体来说，我们将输入图像分解为一组形式为in(X,Y,C)的事实，其中每个事实陈述输入像素在行X和列Y处具有颜色C：

第一条规则表明，输入图像中的任何有色像素在输出图像中颜色相同。第二条规则表明，输入图像的底行中任何未上色的像素在输出图像中是黄色的。最后一条规则表明，输入图像中坐标X和Y之和为H + 1的任何未上色像素（其中H是图像的高度，即位于对角线上）在输出图像中是红色的。换句话说，我们的关系方法简洁地表达了线条的概念，而没有给出定义。

我们的关系分解方法有许多好处。首先，它通过将每个训练示例分解为多个示例，将合成任务分解为更小的任务。因此，我们不是一次学习一个程序来映射整个输入列表/图像，而是学习一组规则，每个规则概括一些列表元素或图像像素。至关重要的是，我们可以独立地学习每条规则，然后组合它们，这使得整个程序更容易学习（Cropper和Hocquette，2023年）。例如，列表功能任务在位置3插入的功能程序至少需要8个顺序函数调用。相比之下，关系程序只需要3条规则，每条规则最多有3个文字。

为了证明我们的想法的有效性，我们使用归纳逻辑编程（ILP）（Muggleton，1991年；Cropper和Dumancic，2022年）。给定背景知识和示例，ILP的目标是找到一个程序，该程序相对于背景知识概括示例。ILP将数据和学习到的程序表示为逻辑程序，因此是程序合成的关系方法。

贡献本文的主要贡献是展示了如果将复杂的功能性程序合成任务分解为关系学习任务，可以更容易地解决这些问题。第二个贡献是展示了一个现成的归纳逻辑编程（ILP）系统（Cropper和Morel，2021年；Cropper和Hocquette，2023年），配合关系表示和领域无关的偏差，在三个不同且具有挑战性的数据集上，与特定领域的方法是相比，能够实现高性能。

总体而言，我们做出了以下贡献：

- 我们介绍了一种将功能任务分解为多个关系任务的程序合成方法。

- 我们在三个具有挑战性的数据集上，使用现成的ILP系统评估了我们的方法，包括图像推理和列表功能。我们的实证结果表明，与标准的功能编码相比，关系编码显著提高了学习性能，并且具有这种关系编码的现成ILP系统能够胜过特定领域的方法是。

2 相关工作

程序合成。演绎式程序合成方法（Manna和Waldinger，1980年）以完整的规范作为输入，演绎出完全满足规范的程序。相比之下，我们专注于归纳程序合成，它以部分规范作为输入，通常是输入输出示例（Gulwani等人，2017年）。为了简洁起见，程序合成的任何后续提及均指归纳程序合成。

大型语言模型（LLMs）。在ARC数据集上，直接预测输出的大型语言模型（LLMs）的表现比人类和最先进的方法差（Mirchandani等人，2023年；Xu等人，2024年）。一些方法将LLMs与人类协助结合使用，例如使用人类编写的目标功能的自然语言描述作为LLM的提示（Tang等人，2024年）。例如，Wang等人（2024年）提示LLM生成用自然语言书写的多个假设。然后由人类注释者选择正确的选项，LLM被提示将选定的自然语言假设实现为Python程序。相比之下，我们不使用人类来选择正确的假设或提供解决方案的文本描述。直接比较符号程序合成方法和LLM方法是困难的。例如，正如Wang等人（2024年）所说，LLMs是在大量语料库上训练的，可能已经看过测试数据。此外，由于它们的高资源需求，大多数使用LLMs在ARC上的工作只关注任务的子集。例如，Wang等人（2024年）仅关注100/400个问题，因为“GPT4的高成本”。相比之下，我们的方法资源效率高，可以在单个CPU上运行。

特定领域的方法是。有许多特定领域的程序合成方法，例如用于字符串转换（Gulwani，2011年）、3D形状（Tian等人，2019年）、列表功能（Rule，2020年）或视觉推理（Wind，2022年；Xu、Khalil和Sanner，2023年；Lei、Lipovetzky和Ehinger，2024年）。相比之下，我们的方法具有多样性，可以推广到多个领域。此外，我们使用现成的通用ILP系统。

功能性合成。大多数程序合成工作集中在学习功能性程序上（Ellis等人，2019年；Shi等人，2022年；Witt等人，2023年；Rule等人，2024年），例如LISP（Summers，1977年）或Haskell（Katayama，2008年）程序。相比之下，我们学习关系（逻辑）程序。一些方法评估中间状态与期望输出状态之间的距离（Ellis等人，2019年；Cropper和Dumanˇci´c，2020年；Ameen和Lelis，2023年）。这些方法需要基于状态的表示，并学习一系列动作或函数来转换状态。相比之下，我们分解示例并使用关系表示。

ILP。ILP将背景知识和程序表示为关系逻辑程序。尽管具有这种关系性质，但许多ILP方法使用功能性/过程性表示（Lin等人，2014年；Cropper和Dumanˇci´c，2020年）。使用关系表示的相关方法包括Silver等人（2020年），他们从演示中学习游戏策略，以及Evans等人（2021年），他们从时间序列中学习动态。这些方法专门设计用于学习策略和时间序列。相比之下，我们使用通用现成的ILP系统。

分解Decomposition。一些方法将训练示例划分为子集，为每个子集独立学习程序，然后将解决方案组合成全局解决方案（Cropper和Hocquette，2023年）。相比之下，我们将每个输入输出训练示例分解为多个示例。BEN（Witt等人，2023年）将示例分解为输入输出对象，使用类比推理对齐对象，然后合成程序解决结果子任务。BEN合成功能性程序，操作ARC任务的状态基表示，特别是状态中的对象。相比之下，我们学习关系程序。BEN使用一组特定领域的函数。例如，在ARC数据集上，BEN使用11个转换函数，如border(s)，绘制大小为s的边框，以及denoise(s)，去除对象的噪声。相比之下，我们只使用基本的算术运算，如加两个数字的能力。最后，虽然BEN使用基于邻近或相同颜色的预定义匹配规则来识别对象，我们将图像分解为像素。

3 问题设置

我们将描述问题的设置。

3.1 程序合成

3.2 归纳逻辑编程

我们将一个合成任务分解为一个归纳逻辑编程（ILP）任务。我们定义ILP问题。我们假设读者对逻辑编程（Lloyd，2012年）有所了解，但在附录中包含了摘要。我们重申关键术语。一个子句是一组文字。一个确定子句是只有一个正文字的子句。我们使用“规则”与“确定子句”同义。一个确定程序是一组具有最小Herbrand模型语义的确定子句。我们提到一个确定程序作为一个逻辑程序。

我们首先定义一个ILP任务：

3.3 关系分解

我们定义了一个关系分解函数：

定义 5（关系分解函数）关系分解函数是一个函数，它将合成任务(E, H)映射到ILP任务(E+, E−, B, H′)。

在下一节中，我们将实证展示我们可以利用一个简单的分解函数将程序合成任务编码为ILP任务，并且我们可以通过这种表示方式的改变实现学习性能的显著提升。

4 评估

为了测试我们的观点，即关系型表示可以胜过函数型表示，我们的评估旨在回答以下问题：

Q1 我们的关系型表示与标准的状态/函数型表示相比如何？

为了回答Q1，我们比较了具有关系型表示的ILP系统与具有状态/函数型表示的学习性能。我们使用的是同一个ILP系统，因此唯一的区别在于表示方式。

为了测试我们的观点，即我们的关系分解方法是通用的，我们的评估旨在回答以下问题：

Q2 具有通用关系型表示的通用ILP系统与特定领域的方法相比如何？

为了回答Q2，我们比较了具有关系型表示的通用ILP系统与特定领域方法的学习性能。

4.1 数据集

我们使用了以下多样化且具有挑战性的数据集。

1D-ARC。1D-ARC数据集（Xu等人，2024年）是ARC的一个一维变体。它包含18个任务，每个任务有3个训练样本和1个测试样本。图2展示了一个示例任务，目标是对称地复制蓝色像素相对于红色像素。

ARC。ARC数据集（Chollet，2019年）评估学习系统从小数量的示例中进行抽象推理和问题解决的能力。每个任务的目标是将二维输入图像转换为它们相应的输出图像。任务种类繁多，包括例如模式识别、几何变换、颜色操作或计数。图像大小在1x1到30x30像素之间。输入和输出图像可以有不同的大小。每个像素是10种不同颜色之一。我们使用的是原始数据集的训练子集，包含400个任务，每个任务有2到10个训练样本和1到3个测试样本。

列表函数。列表函数数据集（Rule，2020年；Rule等人，2024年）评估人类和机器的学习能力。每个任务的目标是识别一个函数，该函数将输入列表映射到输出列表，其中列表元素是自然数。任务范围从基本的列表函数，如复制和删除，到涉及条件逻辑、算术和基于模式的推理的更复杂函数。数据集包含250个任务，每个任务有11个样本。

4.2 系统

我们使用了以下系统：

POPPER。我们使用ILP系统POPPER（Cropper和Morel，2021年），因为它能够学习大型程序，特别是具有许多独立规则的程序（Cropper和Hocquette，2023年）。

https://github.com/logic-and-learning-lab/ecai23-combo

ARGA。ARGA（Xu，Khalil和Sanner，2023年）是一种以对象为中心的方法，专为ARC设计。ARGA将图像抽象成图，然后使用基于抽象图表示的特定领域语言搜索程序。ARGA使用15个操作符，例如旋转、镜像、填充或挖空对象。

github.com/khalil-research/ARGA-AAAI23

HL。Hacker-Like（HL）（Rule，2020年；Rule等人，2024年）是一个归纳学习系统，旨在通过使用类似黑客的技术来修订代码，以再现人类的学习过程。HL使用蒙特卡洛树搜索来搜索元程序，这些元程序是原语和元原语的组合。HL专为列表函数数据集设计。虽然HL不是设计来超越人类，但它在列表函数数据集上超越了其他程序合成方法（Rule等人，2024年）。

https://osf.io/gq2hj/

https://github.com/joshrule/program-induction

4.3 偏差与表示

为了评估我们的关系型方法，我们使用了一种故意简化的偏差，由分解的训练示例和基本的算术加法及值比较关系组成。

我们为每个领域描述了我们的偏差和分解函数。

1D-ARC。我们将一维图像分解为一组像素事实。如果输入图像中索引为I的像素具有颜色C，则事实in(I,C)成立。如果输入图像中索引为I的像素是背景像素（一个未着色的像素），则事实empty(I)成立。如果输出图像中索引为I的像素具有颜色C，则事实out(I,C)成立。我们允许0到9之间的整数，代表10种不同的颜色，作为常量符号。

ARC。我们将二维图像分解为一组像素事实。如果输入图像中行X和列Y的像素具有颜色C，则事实in(X,Y,C)成立。如果输入图像中行X和列Y的像素是背景像素（一个未着色的像素），则事实empty(X,Y)成立。如果输出图像中行X和列Y的像素具有颜色C，则事实out(X,Y,C)成立。我们允许0到9之间的整数作为常量符号。我们使用关系height/1、width/1、midrow/1、midcol/1来分别确定图像的高度和宽度，中间行和中间列。我们还使用关系different/2来确定颜色不等。

列表函数。我们将列表分解为一组元素事实。如果输入列表中索引为I的元素具有值V，则事实in(I,V)成立。事实end(I)表示输入列表的结束位置。如果输出列表中索引为I的元素具有值V，则事实out(I,V)成立。按照Rule（2020）的做法，前80个问题我们允许0到9之间的整数，剩余的问题我们允许0到99之间的整数。

函数型表示。对于函数型表示，我们遵循Rule（2020）的做法，使用关系cons/3、head/2、tail/2和empty/1来操作列表。我们还使用与关系型表示中相同的算术关系和常量符号。

4.4 方法

我们通过测试数据上正确预测的比例来衡量预测准确性。对于我们的关系分解方法，只有当输出中的所有元素/像素都正确时，预测才被认为是正确的。我们重复每个学习任务3次，并计算平均值和标准误差。图表中的误差条代表标准误差。我们使用配备AMD EPYC 7R13处理器的m6a AWS实例。每个系统使用一个CPU。对于列表函数数据集，我们执行留一法交叉验证。对于列表函数数据集中的81至250号任务，由于常数值的数量很大，我们每个任务抽取了10,000个负样本。

可复制性。评估数据和用于复制结果的代码作为附录包含在内，如果论文被接受发表，将公开提供。

4.5结果

Q1: 我们的关系型表示与标准的状态/函数型表示相比如何？图3、4、5和6显示了结果。它们表明我们的关系型表示在所有三个领域以及所有最大学习时间上一致地胜过函数型表示。McNemar检验确认了差异的统计显著性（p < 0.01）。

性能提升的一个原因是我们的关系型方法将复杂的函数任务分解为多个关系子任务。例如，考虑图7中显示的列表函数任务187。目标是将元素0追加到输入列表，然后将输入列表与输入列表连接。对于这项任务，我们的方法学习了以下规则：

第一条规则指出，输出列表中索引I处的值是输入列表中索引I处的值。第二条规则指出，输出列表中索引E处的值是0，其中E是输入列表中第一个空位置的索引。最后一条规则指出，输出列表中索引I处的值是输入列表中索引I-1-E处的值，其中E是输入列表中第一个空位置的索引。换句话说，我们的方法学习了一条规则来复制输入列表，另一条规则在其末尾添加一个0，还有第三条规则来追加输入列表。

同样，考虑图8中显示的ARC任务253bf280。目标是在输入图像中两个蓝色像素之间的绿色像素进行着色。我们的方法学习了以下规则：

第一条规则指出，如果输出像素在输入中是蓝色的，那么它就是蓝色的。第二条规则指出，如果输出像素在输入的同一行中位于两个蓝色像素之间，那么它就是绿色的。第三条规则指出，如果输出像素在输入的同一列中位于两个蓝色像素之间，那么它就是绿色的。换句话说，我们的方法学习了三条规则：一条用于蓝色像素的持久性，一条用于水平线，一条用于垂直线。至关重要的是，我们的方法独立地学习了这些规则，因为每条规则概括了分解示例的一个子集。此外，我们的方法在没有给出线条定义的情况下，学习了这个完美的解决方案。

性能提升的另一个原因是我们的关系型方法可以简洁地表达程序。例如，考虑图9中显示的ARC任务6d75e8bb。

目标是在由蓝色像素界定的矩形内将空白像素涂成红色。我们的方法学习了以下规则：

第一条规则指出，如果输出像素在输入中具有颜色C，那么它就具有颜色C。第二条规则指出，如果输出像素在输入中为空，并且在同一行（X）和同一列（Y）中存在具有相同颜色（C）的像素，那么输出像素就是红色的。换句话说，我们的方法在没有背景知识中给出定义的情况下，紧凑地捕捉了矩形的概念。

POPPER使用我们的关系型表示在一些任务上难以学习解决方案，这是由于我们故意简化的偏差。例如，ARC任务23b5c85d的目标是学习一个提取最小矩形的程序。然而，我们没有包括计数机制，因此POPPER无法比较对象的大小。我们在讨论Q2时将更详细地讨论这个限制。

总的来说，这些结果表明Q1的答案是：是的，我们的关系型表示可以胜过函数型表示。

Q2: 一个具有关系型表示的通用ILP系统与特定领域的方法相比如何？图3、4、5和6显示了结果。它们表明，使用我们的关系型表示的通用ILP系统POPPER在测试的三个数据集中的两个上胜过了特定领域的方法是。我们依次讨论每个数据集的结果。

1D-ARC：在1D-ARC数据集上，ARGA在我们的关系编码上表现更好（94%对67%的预测准确率，最大学习时间为20分钟）。这个结果并不令人惊讶，因为ARGA是为图像推理任务设计的，并且使用了特定领域的背景知识，例如测量对象大小的能力，以及填充、镜像和挖空对象。这些背景知识对于填充、镜像和挖空等任务特别有用。相比之下，我们的关系表示不是为这些任务设计的，也不包括特定领域的操作符。

我们的关系编码在1D-ARC数据集上显著优于HL（67%对0%的预测准确率，最大学习时间为20分钟）。尽管这些任务涉及识别列表函数，但HL在这些问题上表现不佳。我们询问了HL的作者可能的解释，他们解释说HL在需要递归解决方案的问题上表现不如非递归问题。例如，考虑去噪任务（图10）。如果以函数方式表示，这个任务需要学习一个递归解决方案，这对HL来说是很困难的。相比之下，我们的方法学习了非递归规则：

这条规则指出，如果输出图像中索引I处的像素具有颜色C，那么在输入图像中（在索引I1和I1+1处）有相邻的两个像素具有颜色C，其中这些像素之一位于索引I处（如果I2=0，则I1=I；如果I2=1，则I1+1=I），即索引I处的像素有一个相邻的像素具有相同的颜色。这条规则完美地泛化到测试数据上。值得注意的是，与ARGA和BEN不同，它们都使用去噪操作符，我们的方法可以在没有特定领域操作符的情况下学习这条规则。

为了进一步比较，Wang等人（2024年）表明，GPT-3.5和GPT-4在被提示生成这些任务的Python程序时，分别达到了23%和61%的准确率。我们的方法在仅有1分钟最大学习时间内达到了类似的表现（61%），在最大学习时间为10分钟时表现更好（65%）。

ARC：使用我们的关系表示，POPPER在ARC数据集上胜过ARGA（19%对8%的预测准确率，最大学习时间为20分钟）。ARGA表现不佳，部分原因是它假设输入和输出图像具有相同的大小，因此它无法解决138/400个大小不同的任务。

鉴于HL在1D-ARC数据集上的糟糕结果，我们将其从ARC数据集的比较中排除。此外，HL假设输入和输出是一维列表，因此在ARC上不直接可用。

为了进一步比较，当直接提示预测ARC输出时，大型语言模型（LLMs）表现挣扎，有各种报告的准确率，包括14%（Mirchandani等人，2023年），和17%（Wang等人，2024年）。Wang等人（2024年）发现通过假设搜索可以提高LLM的性能，其中GPT-4达到了18%或23%的准确率，具体取决于特定的LLM。然而，这些结果与我们的无法比较，因为他们仅评估了数据集的一个子集，因为评估成本过高。

在评估整个ARC数据集的非LLM方法中，据我们所知，表现最好的方法是ICECUBER（Wind 2022年），它使用了142个手工制作的函数，这些函数是通过手动编写前100个ARC任务的解决方案来设计的。一个更可比较的方法是BEN（Witt等人，2023年），在20分钟的搜索超时限制下达到了24%的准确率。然而，BEN使用了一个特定领域的函数来将图像分解成对象。没有这个函数，BEN的准确率会下降到6%。此外，BEN使用了为ARC设计的手工制作的特定领域函数，例如镜像、内部和去噪。相比之下，我们只使用了一般背景知识，比如如何加两个数字。

列表函数：使用我们的关系表示，POPPER在列表函数数据集上显著优于ARGA（前80个任务的准确率分别为85%和0%，其他任务的准确率分别为30%和0%，最大学习时间为20分钟）。ARGA表现不佳，因为它要求输入和相应的输出具有相同的大小，这阻止了它解决188/250个任务。此外，ARGA是为对象中心任务设计的，所以在无法识别有意义的对象时会遇到困难。最后，ARGA使用的是为图像推理设计的运算符，这些运算符在列表函数上没有很好地泛化。

相比之下，我们的方法可以泛化到更广泛的问题范围。

POPPER使用我们的关系表示在列表函数数据集上显著优于HL（前80个任务的准确率分别为85%和66%，其他任务的准确率分别为30%和18%，最大学习时间为20分钟）。McNemar检验确认了差异的显著性（p < 0.01）。HL旨在使用类似黑客的机制再现人类学习，并综合功能程序。相比之下，我们并不试图再现人类学习。因此，我们的方法表现更好是可以理解的。例如，Rule（2020）表明人类在任务005（图11）上表现困难，预测准确率为17%。HL也在这个任务上遇到困难，准确率为0%。相比之下，我们的方法使用以下规则达到了100%的准确率：

这条规则指出，输出元素在位置1是输入元素在位置K的值V，其中K是第一个输入元素的值。

作为一个更复杂的情景，考虑列表函数任务194（图12）。目标是反转输入列表并在前部和尾部添加输入列表的长度。根据Rule（2020），人类在这个任务上的准确率不到25%。HL同样在这个任务上表现不佳，准确率为0%。相比之下，我们使用以下规则达到了100%的准确率：

第一条规则指出，输出元素在索引1处是E-1，其中E是输入列表中第一个空位置的索引。最后一条规则指出，输出元素在索引E+1处是E-1，其中E是输入列表中第一个空位置的索引。第二条规则指出，输出元素在索引I处是输入元素在索引I1处，其中I + I1 = E + 1。换句话说，这第二条规则简洁地表达了反转和移动一个位置的概念。

为了进一步比较，Rule等人（2024年）在该数据集上比较了几种方法，包括HL3、METAGOL（Muggleton、Lin和Tamaddoni-Nezhad，2015年）、ROBUSTFILL4（Devlin等人，2017年）、CODEX（Chen等人，2021年）和FLEET（Yang和Piantadosi，2022年）。在这些方法中，只有HL和FLEET达到了与人类相当的性能，其他方法则表现不佳。因此，我们可以推断我们的方法也胜过了这些替代方法和人类。

总的来说，结果表明Q2的答案是：是的，一个具有关系型表示的通用ILP系统是与特定领域方法相竞争的，甚至可以胜过它们。

5 结论和局限性

我们介绍了一种新颖的程序合成方法，它将复杂的函数任务分解为更易处理的关系学习任务。我们在图像推理和列表函数任务上的实证结果表明，我们的关系分解方法大大胜过了标准的功能方法。此外，我们已经展示了一个现成的ILP系统使用我们的关系表示，只需很少的特定领域偏差和低训练时间，就可以与高度工程化的特定领域方法相媲美，在某些情况下甚至胜过它们。更广泛地说，我们的结果表明，简单地以不同的方式看待问题可以带来巨大的性能提升。

局限性

偏差。我们使用了一个由原始输入（列表元素或像素）和基本算术关系构成的故意简化的偏差。然而，我们的简单偏差限制了某些任务，例如需要计数的任务。未来的工作应该用更通用的概念，如计数，来扩展我们的偏差。

ILP系统。我们已经展示了一个现成的ILP系统与特定领域的方法是有竞争力的。然而，这个系统在某些任务上表现挣扎，搜索空间中有很好的解决方案，但系统在时间限制内找不到。这个局限性是由于我们使用的系统，而不是我们的表示。然而，因为我们的关系分解方法是系统不可知的，我们可以使用不同的ILP系统。此外，因为我们使用了一个现成的ILP系统，我们的方法自然从ILP的任何发展中受益。

https://arxiv.org/abs/2408.12212

http://mp.weixin.qq.com/s?__biz=MzA5MDMwMTIyNQ==&mid=2649399547&idx=1&sn=5b7f4954307e4588d99b61c122b709ac

CreateAMind

ALLinCreateAMind.AGI.top ，前沿AGI技术探索，论文跟进，复现验证，落地实验。鼓励新思想的探讨及验证等。探索比大模型更优的智能模型。