重磅:比较 NeSy和StarAI系统 的7个维度

科技   2024-09-18 00:00   上海  

From Statistical Relational to NeurosymbolicArtificial Intelligence: a Survey.

从统计关系到神经象征人工智能:综述

https://arxiv.org/pdf/2108.11451


摘要

本调查探讨了人工智能中两个不同领域学习和推理的整合:神经符号和统计关系人工智能。神经符号人工智能(NeSy)研究符号推理和神经网络的整合,而统计关系人工智能(StarAI)专注于将逻辑与概率图模型整合。本调查确定了这两个AI子领域之间的七个共享维度。这些维度可以用来描述不同的NeSy和StarAI系统。它们涉及

(1)逻辑推理的方法,无论是基于模型还是基于证明;

(2)使用的逻辑理论的语法;

(3)系统逻辑语义及其扩展以促进学习;

4)学习的范围,包括参数或结构学习;

(5)符号和次符号表示的存在;

(6)系统在多大程度上捕捉原始逻辑、概率和神经范式;以及

(7)系统应用的学习任务类别。通过在这些维度上定位各种NeSy和StarAI系统,并指出它们之间的相似之处和差异,本调查为理解学习和推理的整合提供了基本概念。

1. 引言

学习和推理的整合是当今人工智能和机器学习的关键挑战。多个社群正在解决这一挑战,尤其是神经符号人工智能(NeSy)领域[12, 28]。NeSy的目标是将符号推理与神经网络整合起来。NeSy已经有着悠久的传统,并且最近吸引了大量关注。事实上,这一主题已经由像Y. Bengio和H. Kautz这样的杰出研究者在2020年AAAI会议上的主题演讲中讨论,由Y. Bengio和G. Marcus在AI辩论[10]中讨论,Hochreiter最近也指出[56],NeSy是“通往广泛AI最有希望的方法”。

另一个在整合学习和推理方面有着丰富传统的领域是统计关系学习和人工智能(StarAI)[44, 96]。StarAI专注于整合逻辑和概率推理。

从历史上看,这两个努力采用了不同的学习范式,即概率与神经,来将逻辑整合到机器学习中。这反过来又导致了两个不同的子社群。StarAI专注于概率逻辑、它们的语义以及使推理更加可行,而学习通常基于概率图模型的参数学习技术。另一方面,NeSy通过符号知识扩展神经网络,专注于可扩展的近似模型,对语义问题关注较少。特别是,NeSy技术通常可以通过神经网络的明确参数化来表征,即潜在表示的层级结构,并通过梯度基的反向传播范式进行学习。尽管关注点和方法不同,但这两个领域都希望实现相同的目标,即整合学习和推理。因此,这两个领域之间相对缺乏互动是令人惊讶的,但参见[27, 11]。

这种差异是本次调查的主要动机:它旨在指出这两个努力之间的相似之处,并通过这种方式,它希望激发交叉授粉。我们从StarAI的文献开始,遵循几本教科书和教程中概述的关键概念、定义和技术,如[104, 96],因为事实证明,StarAI中出现的问题和技术也适用于NeSy。

这篇论文的主要贡献是:

1. 我们确定了这些领域共有的七个维度,这些维度可以用来对StarAI和NeSy方法进行分类。这七个维度涉及(1)基于模型与基于证明的推理,(2)逻辑语法,(3)语义,(4)学习参数或结构,(5)将实体表示为符号或次符号,(6)将逻辑与概率和/或神经概念整合,以及(7)学习任务。

2. 我们通过在这些维度上定位广泛的StarAI和NeSy系统,并指出它们之间的类比,为我们的主张提供证据。这不仅为StarAI和NeSy之间的关系提供了新的见解,而且还允许人们将一个领域的技术转移到另一个领域。这些见解为StarAI和NeSy之间的交叉授粉提供了机会,通过关注那些尚未被充分利用的维度。

3. 我们温和地介绍了从StarAI继承而来的关键逻辑概念和技术。这样,本文也为对“连接主义者”实践者感兴趣的符号AI和StarAI技术提供了温和的介绍

4. 我们使用现有方法来说明每个维度,并通过这种方式,也呈现了一个直观且具体的研究领域概览。

与神经符号计算的其他一些观点[12, 28, 16]不同,本次调查仅限于逻辑视角,并且仅限于与这一视角一致的神经符号计算的发展。因此,我们通常将符号和符号算法视为逻辑表示和逻辑推理的同义词。此外,调查侧重于代表性和原型系统,而不是追求完整性(鉴于该领域的快速发展,完整性是不可能的)。已经提出了关于神经符号AI的其他一些调查。神经符号计算的早期概述是[4]。与本次调查不同,它非常注重逻辑和推理视角。今天,焦点已经非常转移到学习上。最近,[67]分析了NeSy和图神经网络(GNN)之间的交集。[123]根据少数模式描述的块的组合来描述神经符号系统,涉及过程和交换的数据。相比之下,本次调查更侧重于支配这种组合的基本原理。最后,[26]利用神经网络视角,研究在哪些组件(即输入、损失或结构)中注入了符号知识。

论文结构。接下来的七个部分每部分描述一个维度,

首先介绍基于逻辑、概率或机器学习的主要概念,然后展示它们是如何被整合到StarAI和NeSy系统中的。

第2节介绍了如何使用逻辑进行推理,区分基于证明和基于模型的系统,

第3节在句法层面引入逻辑,特别是命题、关系和一阶逻辑。

第4节然后介绍逻辑的语义,并展示了如何将其扩展到连续语义,使用模糊和概率逻辑。

第5节讨论了学习的维度,区分参数学习和结构学习。

第6节侧重于表示层面,以及神经符号模型在多大程度上使用符号和/或次符号特征。

第7节将神经符号方法定位在三个主要范式(即逻辑、概率和神经网络)的谱系上。AGI集大成!Scallop:神经符号编程语言: 符号、概率、可解释等强化学习等

第8节描述了神经符号系统通常应用的一般学习任务类别。最后,在第10节中,我们通过介绍神经符号领域的开放性挑战来总结。

我们在表1中总结了各种神经符号方法在这些维度上的概况。


2. 逻辑的证明论与模型论视角

在本文中,我们关注子句逻辑,因为它是任何一阶逻辑公式都可以转换的标准形式。在子句逻辑中,理论以子句的形式表示。更正式地说,子句是形式为 h1 ∨ ... ∨ hk ← b1 ∧ ... ∧ bn 的表达式。hk 是头部文字或结论,而 bi 是身体文字或条件。没有条件(n = 0)和有一个结论(k = 1)的子句是事实。只有一个结论(k = 1)的子句是确定子句。

我们在这一部分想要回答的问题是如何使用这样的子句理论进行推理?以及如何从已知的子句中推断出新的事实?沿着这个第一维度,我们将探讨两种基本的逻辑推理视角,并确定它们对StarAI和NeSy系统的影响。在一个视角中,我们想要找到某个查询的证明,这导致了逻辑的证明论方法。在另一个视角中,我们想要找到满足给定理论的模型(即,对逻辑原子的真实赋值)。这导致了逻辑的模型论方法。

证明论逻辑。证明论方法在逻辑理论中为查询找到证明。虽然这种推理方法适用于任何逻辑理论,但我们在本文中关注逻辑程序。在句法上,逻辑程序是一个确定子句理论,即所有子句都是确定的(即只有一个结论)。在逻辑程序中,确定子句被解释为如果-那么规则(如果 b1, ..., bn 是真的,h 是真的)。

证明查询 q 是一系列逻辑推理步骤,这些步骤基于给定程序证明查询的真实性。一种紧凑地表示逻辑程序中所有证明集的方法是使用 AND/OR 树,它由 AND 和 OR 节点以及它们之间的边组成。每个节点代表一个目标。AND 节点分叉成一个或多个传出边,每个边代表需要同时满足的目标子目标,以便 AND 节点中的目标为真。OR 节点代表选择或在多个子句之间的替代方案,这些子句可以用来证明特定的子目标。OR 节点分叉成多个传出边,每个边代表这些可能的选择之一。AND/OR 树中的叶节点代表真实的事实。通常,使用正向或反向链式推理来搜索查询的证明。我们在示例 1 中说明了这一点。


模型论逻辑。另一方面,逻辑的模型论视角是找到满足给定逻辑理论的模型或对逻辑原子的真实赋值。一个解释或可能的世界是对语言中的命题(或地面原子)的真实赋值,并且可以唯一地与它赋予 True 的命题集合(因此考虑所有其他的为 False)识别。如果至少有一个 hi 在解释中,当所有的也在解释中时,一个解释是子句的模型。如果一个解释 I 是理论 T 中所有子句的模型,我们说解释 I 是理论 T 的模型,我们写作 I |= T。如果理论有一个模型,我们就说这个理论是可满足的。可满足性问题,即决定一个理论是否有模型,是计算机科学中最基础的问题之一(参见命题逻辑中的 SAT 问题)。

模型理论的视角中,逻辑理论被用作对命题的约束集合,即命题彼此相关,但不像前向或后向推理那样强加一个有向的推理关系。关于这些连接的更多细节可以参见[96, 41]。

2.1 对 StarAI 的影响

随机变量对应于图结构中的节点,因子分解由图中的边决定。

有向和无向图模型之间的区别类似于逻辑中的证明论与模型论视角。这种类比是 StarAI 的核心所在。实际上,通过同时将每个变量(或命题)视为随机变量和逻辑变量 [105],子句理论可以扩展为定义概率模型。子句可以通过赋予权重(或概率)来转换为二值因子,从而参数化相应的因子。

第二类 StarAI 系统推广了无向图模型,如马尔可夫网络或随机场。其典型示例是马尔可夫逻辑网络(MLNs)[100],概率软逻辑(PSL)[3] 也遵循这一理念。

无向 StarAI 模型由一组加权子句组成,这些子句成为软约束。子句权重越高,违反这些约束的可能世界的可能性就越小。在极限情况下,当权重为时,约束必须得到满足,成为纯逻辑约束,即硬约束。加权子句比有向模型中的确定性子句规定了一个更一般的结论与条件之间的关系。虽然无向模型的子句仍可用于(归结法)定理证明器中,但它们通常被视为连接这两组原子的约束。

这种无向 StarAI 模型可以映射到无向概率图模型,其中加权子句与因子一一对应,如我们在示例4中所示。

2.2 对NeSy的影响

证明与模型之间的区别,以及推理规则与约束之间的区别,对于神经符号系统来说,结果证明是基本的。

在神经符号人工智能(NeSy)中,加权子句不是用于构建概率图模型,而是用于构建神经模型。更具体地说,采用证明论方法的NeSy系统使用证明来构建神经网络的架构。在谱系的另一边,采用模型论方法的NeSy系统则使用约束来构建神经网络的损失函数。

在神经符号人工智能(NeSy)中,加权子句不是用来构建概率图模型,而是用来构建神经模型。更具体地说,采用证明论方法的NeSy系统使用证明来构建神经网络的架构。在另一个方面,采用模型论方法的NeSy系统则使用约束来构建神经网络的损失函数。

证明论逻辑方法在NeSy模型中的应用是通过定理证明来进行逻辑推理,并将证明用作神经网络架构的模板。例如,在证明特定的查询原子时,系统会跟踪证明树中使用的所有规则。然后,将事实和规则上的权重分别用于标记树的叶节点或边,同时使用实值激活函数来标记AND和OR节点。结果是可以自底向上执行(或评估)的计算图,从叶节点开始一直到根节点。通常,计算图的输出是查询原子的分数。在构建计算图时,可以利用不同的语义,从真值的放松(如模糊逻辑中)到概率(见第4节)。证明树与神经网络之间的联系为这些模型的参数学习提供了方案。实际上,获得的计算图总是可微的。因此,给定一组已知为真(或假)的原子,可以使用相应的计算图来最大化(或最小化)它们的分数。在这些模型中,推理转化为计算图的评估。规则的方向指示了评估的方向,就像它在逻辑程序设计中指示推理的方向一样。

在这个类别中,包括基于Prolog或Datalog的系统,如TensorLog [18]、神经定理证明器(NTPs)[102]、NLProlog [131]、DeepProbLog [72]、NLog [121]和DiffLog [112]。Lifted Relational Neural Networks (LRNNs) [116]和∂ILP [39]是其他非概率有向模型的例子,其中加权确定子句被编译成神经网络架构,采用正向链式方式。模仿逻辑推理的张量演算的系统,如神经逻辑编程(NeuralLP)[137]和神经逻辑机(NLM)[35],也是有向逻辑的实例。一个基于证明的NeSy模型的例子在示例5中给出。

示例5:基于知识的人工神经网络

基于知识的人工神经网络(KBANN)[119]是第一个使用确定子句逻辑和定理证明来模板化神经网络架构的方法。

KBANN将程序转化为神经网络的几个步骤如下:

1. KBANN从一组确定子句程序和查询开始。

2. 使用这些查询的证明将程序转化为AND-OR树。

3. 将AND-OR树转化为具有类似结构的神经网络。节点被分成不同的层。权重和偏差被设置为评估网络时返回与查询程序相同的结果。

4. 添加新的隐藏单元。隐藏单元扮演需要学习未知规则的角色。它们用零权重初始化;即它们最初是处于非活跃状态。

5. 从每一层添加新链接到下一层,得到最终的神经网络。

这个过程的一个例子如图3所示。KBANN对规则的种类有一些限制。具体来说,假设规则是合取的、非递归的,并且不含变量(或命题式的)。这些限制中的许多已经被更近期的系统所移除。

现在我们来调查第二类NeSy系统,即基于模型的系统。这些系统使用逻辑来定义神经网络的损失函数(通常是一个正则化项)。网络为与输出神经元对应的原子集合计算分数。在每个训练步骤中,基于逻辑的损失函数确定分配的分数在多大程度上违反了逻辑理论,并使用这个来确定惩罚。逻辑推理变成了一个学习问题(即“学会满足”),并且通常被构建为一个变分优化方案。因此,在基于约束的模型中,神经网络必须同时解决两个任务:解决一个次符号学习问题(例如感知)以及近似逻辑推理过程。包括基于语义的正则化(SBR)[33]、逻辑张量网络(LTN)[5]、语义损失(SL)[133]和DL2 [40]在内的一大组NeSy方法,利用逻辑知识作为软正则化约束,倾向于满足逻辑约束的解决方案。SBR和LTN计算原子(模糊)真值赋值作为神经网络的输出,并使用模糊逻辑将提供的逻辑公式转换为实值正则化损失项。SL使用目标原子的边际概率来定义正则化项,并依赖于算术电路[24]来有效地评估它,如示例6中详细说明的。DL2定义了一个数值损失,不提供特定的模糊或概率语义,这允许在公式中包含数值变量(例如,通过使用逻辑项 x > 1.5)。另一组方法,包括神经马尔可夫逻辑网络(NMLN)[78]和关系神经机器(RNM)[76]扩展了MLNs,允许将指数分布的因子实现为神经架构。最后,[103, 32]计算地面原子分数作为关系和实体嵌入之间的点积;蕴含规则然后通过蕴含运算符的连续放松被转换为逻辑损失。

总之,让我们强调两类NeSy系统在融合逻辑条款中表达的知识方面的关键区别。基于证明的、有向模型使用逻辑来定义神经符号网络的架构。因此,逻辑是模型推理的一部分,并且作为结构约束。设计者可以完全控制逻辑在网络内部的使用位置和方式。因此,逻辑知识可以很容易地在测试时扩展或修改,无需重新训练,从而实现高度的模块化和分布外泛化[82]

另一方面,当逻辑仅编码在目标函数中时,神经网络学习(近似)满足它。因此,知识仅潜在地编码在网络的权重中,这导致了控制和可解释性的丧失。然而,后者技术通常更具可扩展性,特别是在推理时。控制和可解释性与可扩展性之间的平衡是一个开放且重要的研究问题,这在NeSy社区中备受关注。

3. 逻辑 - 语法

在第2节中,我们介绍了子句逻辑,但没有过多关注原子和文字的结构。这个结构及其对StarAI和NeSy模型的影响是本节的主题。考虑以下示例:

有限域是 StarAI 和 NeSy 的重点。在这些域中,任何用一阶逻辑表达的问题都可以等效地用关系逻辑表达,任何用关系逻辑表达的问题也可以通过实例化子句转换为命题逻辑 [94, 41]。

**3.1 对 StarAI 的影响**  

StarAI 通常关注一阶逻辑 [31, 106, 100]。在第2节中,我们看到 StarAI 模型可以很容易地用概率图模型(PGM)来解释。在这里,我们想展示一阶逻辑(FOL)是构建这种模型的强大工具。

一阶逻辑允许将逻辑规则形式的知识解释为定义图模型的模板。实例化理论相当于展开模板。同时,一阶逻辑还有一个重要的统计和学习优势:一个 FOL 规则在模型中导致参数共享,因为一个 FOL 规则的参数与其所有实例化关联。参数共享压缩了相应概率模型的表示, resulting in 更高效的学习和更好的泛化能力。

这些特性类似于概率图模型的板式表示法,将逻辑推理引入图模型 [97]。在示例4中,我们使用了两个一阶规则,但通过在域上进行实例化(即展开),获得了一个更大的图模型,具有六个因子(见图2)。所有与同一规则对应的因子共享相同的权重。

3.2 对NeSy的影响

NeSy利用文字的内部结构,因此产生了许多关系和一阶系统。利用命题逻辑的系统有语义损失(SL)[133]和DL2 [40]。基于关系逻辑的系统有DiffLog [112]、θILP [39]、Lifted Relational Neural Networks (LRNN) [116]、Neural Theorem Provers (NTP) [102]和NeurASP [138]。最后,许多系统基于一阶逻辑或一阶逻辑程序,如DeepProbLog [72]、NLog [121]、NLProlog [131]、DeepStochLog [132]、Logic Tensor Networks [5]、基于语义的正则化[33]、关系神经机器[76]和逻辑神经网络[101]。

NeSy对结构化术语的关注与StarAI中的情况紧密相关,在NeSy中扮演着基础性的角色。实际上,对关系或一阶理论的归一化通常可以看作是展开相应神经模型的架构(例如,DeepStochLog[132]、LRNN [116])或损失函数(例如,SBR [33]、LTN [5])。在复杂数据结构的多个元素上展开固定模块对于序列上的神经网络(循环网、RNN)、树(递归网、RvNN)和图(图网、GNN)至关重要。NeSy可以被看作是展开更复杂的逻辑结构,这在模型容量、模块化和泛化方面带来了类似的好处,并且由于形式语义学,控制力更强。

一阶逻辑(First-Order Logic, FOL)在神经符号人工智能(NeSy)模型中的应用允许模型明确地处理如何将次符号数据(例如图像或音频)输入到系统的神经组件中。实际上,NeSy系统经常使用次符号数据样本作为讨论领域的元素。例如,元素mary可以用来指代一张图像,如。将这样的样本作为输入馈送到神经网络可以自然地被编码为在感兴趣的领域上接地谓词。当缺乏文字的内部结构时,如在SL(Semantic Loss)中,这种映射必须在逻辑框架之外处理。

一阶逻辑的一个值得注意的区别在于它允许通过使用函子(functors)来表示实值函数。例如,分割可以被建模为一个返回图像中对象边界框的函子,如location(mary, image) [115]。因此,基于FOL的系统能够解决回归任务,这与传统的关系逻辑系统相关的分类任务不同。


4. 逻辑 - 语义

4.1. 模型论语义

逻辑、概率逻辑和神经符号系统的语义是根据模型论语义来定义的。在本节中,我们将注意力限制在赫尔布兰德解释和模型上,这在逻辑编程和统计关系AI中是常见的(见第2节)。

我们可以区分三个不同层次的语义,这些语义也与底层逻辑的句法紧密相关。

首先,当逻辑理论仅由确定子句组成时,其语义由最小的赫尔布兰德模型给出。确定子句理论的最小赫尔布兰德模型是唯一的,并且它是最小的(相对于集合包含)。它包含了所有由理论逻辑蕴含的地面事实(来自赫尔布兰德领域)。例如,考虑事实a和b以及规则d ← a, b和b ← c将给出最小赫尔布兰德模型{a, b, d}。

其次,当逻辑理论可以包含任何一组子句时,其语义由所有可能的赫尔布兰德模型集合给出。例如,考虑子句a ∨ b将产生模型{a}、{b}和{a, b}。因此,不一定有一个唯一的模型,甚至在只考虑最小模型时,我们有{a}、{b}。

第三,虽然Horn子句是“纯”Prolog和逻辑程序的基础,但存在几种扩展这种形式主义的方法,以适应规则条件部分中的否定文字或头部的析取。在这方面的一个流行框架是答案集编程(ASP)。在ASP中,子句a ∨ b可以由两个子句a ← ¬b和b ← ¬a表示,这将有两个稳定模型{a}和{b}。


4.2. 模糊语义

前三个层次的语义基于布尔模型,即每个原子要么存在(即真),要么不存在(即假)。

与此不同,模糊逻辑,特别是 t-范数模糊逻辑,为原子分配一个在连续实数区间 [0, 1] 内的真值。逻辑运算符被转化为实值函数,这些函数在 t-范数理论中有数学基础。t-范数是一个实值函数,它模型化了逻辑与运算,并且其他运算符可以从中推导出来。表2 显示了常见的 t-范数及其连接词对应的函数。模糊逻辑公式被映射为其输入原子的实值函数,如示例9所示。模糊逻辑将布尔逻辑推广到连续值。

所有不同的 t-范数在区间 [0, 1] 的端点(对应于完全真的值和完全假的值)与布尔逻辑是一致的。在模糊逻辑中,模型的概念可以很容易地从布尔逻辑的模型理论语义的扩展中恢复。如果一个模糊解释使得公式的值为 1,则该解释是公式的一个模型。



4.3 对StarAI的影响

统计关系人工智能(StarAI)通过在模型或可能世界上定义概率分布p(ω)来扩展前面的语义。目标是推理逻辑陈述的不确定性。特别是,计算某个特定公式α成立的概率,作为是α模型的可能世界(即α为真的地方)的概率之和:

这是一个加权模型计数(Weighted Model Counting, WMC)问题的例子。实际上,我们正在计算有多少个世界是α的模型,并根据概率分布p(ω)对它们每个进行加权。


StarAI 社区提供了几种形式化方法,使用带标签的逻辑理论来定义可能世界上的概率分布。概率逻辑程序(参见示例3)和马尔可夫逻辑网络(参见示例4)是两个典型框架。例如,表3中的分布是由示例3中的ProbLog程序建模的分布。

比较马尔可夫逻辑(示例4)和ProbLog(示例3)在模型理论语义方面的不同是很有趣的。马尔可夫逻辑被定义为一组带权重的完整子句,即作为完整子句理论上的非规范化概率分布。这意味着,给定理论的任意子集,可以有多个可能的模型。例如,理论有三个可能的模型。为了获得模型上的概率分布,马尔可夫逻辑需要将概率质量分布在其模型上。为此,使用最大熵原理,这会导致概率质量的均等分布。相反,ProbLog 定义了一个关于确定子句理论的概率分布,每个理论是从提供的概率事实的子集获得的。然而,由于每个这些理论都有一个唯一的最小 Herbrand 模型,因此与所选事实相对应的概率质量被分配给相应的唯一 Herbrand 模型。这意味着,当仅处理确定子句时,不需要将概率质量分配给多个模型,因此不需要额外的假设,例如最大熵。

概率推理(即加权模型计数)通常是难以处理的。这就是为什么在 StarAI 中使用了知识编译(KC)[25] 等技术。知识编译将逻辑公式转换为一种新的表示形式,这个离线步骤可能计算代价很高。使用这种新表示形式,可以高效地回答特定的一组查询(即在新表示大小的多项式时间内)。从概率的角度来看,这种转换解决了不交和问题,即不能简单地将两个析取的概率相加,还必须减去它们交集的概率。经过转换后,任何合取和析取的概率可以通过简单地乘积或相加其操作数的概率来计算。因此,可以将逻辑公式编译为算术电路。然后,查询公式的加权模型计数可以通过自底向上评估相应的算术电路来简单地计算:即

尽管概率布尔逻辑是 StarAI 中最常见的选择,但有些方法使用了概率模糊逻辑。其中最突出的方法是概率软逻辑 (PSL) [3],如示例12所示。与马尔可夫逻辑网络类似,概率软逻辑 (PSL) 定义了特征由地面子句表示的对数线性模型。然而,PSL 使用的是逻辑理论的模糊语义。因此,原子被映射为实值变量,而地面子句则被映射为实值因子。


4.4.对NeSy的影响

在神经符号人工智能(NeSy)中,StarAI的方法可以通过定义可微分的参数电路来将推理任务转化为评估或基于梯度的优化。这些参数是附加在逻辑理论的基本元素(事实或子句)上的标量值(例如概率或真实度)。将StarAI方法应用到NeSy的一个自然方式是重参数化方法。重参数化将分配给事实或公式的标量值替换为神经网络的输出。可以将这种替换解释为原始模型的不同参数化。许多概率方法以神经组件的形式参数化底层分布。特别是,正如我们在示例13中所示,DeepProbLog利用神经谓词来计算概率事实的概率,作为对常量的向量表示进行神经计算的输出,这与命题逻辑中的SL相似(见示例6)。NeurASP也从DeepProbLog继承了神经谓词的概念。

与 DeepProbLog 类似,NMLNs 和 RNMs 使用神经网络对马尔可夫逻辑网络的因子(或权重)进行参数化。[103] 通过实体和关系嵌入之间的相似性度量,将边缘概率计算为逻辑函数。另一种利用概率语义的解决方案是使用知识图谱(见附录A),如[118]所做的那样,通过知识图谱定义神经网络预测的概率先验。SBR[33] 和 LTN[5] 使用神经网络对模糊原子重新参数化,神经网络将常量的特征表示作为输入,并返回相应的真值,如示例14所示。然后使用模糊逻辑将逻辑规则松弛为软约束。许多其他系统利用模糊逻辑将知识注入神经模型[48, 68]。这些方法可以被视为一个独特概念框架的变体,因为它们的差异通常较小,主要体现在实现细节上。

模糊逻辑也可以用来放宽规则。例如,在LRNN[116]、∂ILP[39]、DiffLog[112]和[129]的方法中,使用模糊逻辑连接词计算证明的分数。t-norms理论已经确定了参数化(即加权)的t-norms类别[117, 101],这些类别与标准神经计算模式(例如ReLU或sigmoidal层)非常接近。这创造了一个有趣但仍未完全理解的软逻辑推理与神经网络推理之间的联系。一大类方法[80, 32, 18, 131]在没有明确定义特定语义的情况下,数值化地放宽了逻辑陈述。通常,原子被赋予由神经评分函数在嵌入上计算的实数R中的分数。然后应用数值近似,要么根据逻辑公式组合这些分数,要么聚合证明分数。由此产生的神经架构通常是可微分的,因此可以端到端训练。

一些NeSy方法,如PSL,已经使用了混合的概率和模糊语义。特别是,深度逻辑模型(DLM)[77]通过向马尔可夫领域添加神经参数化的因素来扩展PSL,而[57]使用模糊逻辑来训练标准深度网络的后验正则化器,使用知识蒸馏[55]。

计算逻辑的语义也已经被探索和扩展到其他方向,这些方向也在人工智能中得到了应用,例如模态和时态逻辑[125]。虽然它们的分析超出了论文的范围,但值得提及的是,这些形式主义也从神经符号的角度进行了研究[29, 30, 51]。


5. 结构与参数学习

StarAI和NeSy中的学习方法通常根据是学习模型的结构[64]还是参数[49, 70]来区分。在结构学习中,学习任务是发现逻辑理论,即一组逻辑子句及其对应的概率或权重,这些能够可靠地解释示例。解释示例到底意味着什么取决于学习设置。在判别式学习中,我们感兴趣的是学习一个理论,该理论可以在给定背景知识的情况下解释或预测特定的目标关系。在生成式学习中,没有特定的目标关系;相反,我们感兴趣的是一个理论,它解释了数据集中所有关系之间的相互作用。与结构学习相比,参数学习从给定的逻辑理论开始,只学习相应的概率或权重。

结构学习是一个固有的NP完全问题,需要搜索正确的组合结构,而参数学习可以通过任何曲线拟合技术实现,如梯度下降或最小二乘法。虽然原则上参数学习是一个更容易解决的问题,但它严重依赖于用户提供的输入。如果提供的子句质量低,结果模型的质量也会很低。另一方面,结构学习对用户提供的输入依赖性较小,但本质上是一个更困难的问题。


5.1 对StarAI的影响

结构学习和参数学习在StarAI中都很常见。StarAI中的结构学习是搜索式学习的实例,与程序合成密切相关。现有的技术通常是起源于归纳逻辑编程(ILP)[86, 94]的技术的扩展,这些技术学习确定性逻辑理论,以及从数据中学习贝叶斯或马尔可夫网络的概率图模型(PGMs)。作为搜索式学习的一个实例,学习框架的核心组成部分是有效结构的空间和搜索程序。在ILP中,有效结构是逻辑理论;对于贝叶斯网络,有效结构是捕获其图结构的DAGs。然后使用通用搜索程序遍历结果搜索空间。

StarAI结构学习技术受到组合爆炸的困扰。在ILP技术中尤其如此,其中搜索空间由包含多个子句的程序组成。因此,有必要限制搜索空间以使学习变得可行。实现这一点的最常见方法是施加语言偏差 - 一组关于如何构建搜索空间的指令,以便将其缩小到所有逻辑理论空间的一个子集。尽管语言偏差可以使问题更易于处理,但它需要特别小心:太多的限制可能会排除目标理论,而太少的限制会使搜索空间过大而无法遍历。另一种策略是利用逻辑程序的组合性:向程序添加一个额外的子句会增加其覆盖范围,并且不会影响初始程序覆盖的示例的预测。也就是说,我们可以一次学习一个子句,而不是同时搜索包含多个子句的理论。

通常将学习和学习子句及其概率视为两个阶段的过程。基于ILP的StarAI学习技术首先确定有用的(确定性的)子句,然后通过参数学习学习相应的概率或权重。同样,主要基于PGMs的StarAI方法,如MLNs,搜索数据中频繁出现的团[65],将它们提升为逻辑子句,然后学习权重或概率。参数学习技术通常也是众所周知的统计方法的扩展,如最小二乘回归[49]、梯度下降[70]和期望最大化[50]。


5.2 对 NeSy 的影响  

虽然 StarAI 的学习技术仅被归类为结构学习或参数学习,但 NeSy 的学习技术结合了两者。我们现在将讨论四类 NeSy 学习方法:神经引导搜索、通过参数学习进行结构学习、程序草图绘制和隐式结构学习。 

神经引导结构搜索[60, 37, 38, 122] 是与 StarAI 结构学习最为相似的 NeSy 范式。它解决了 StarAI 结构学习方法的一个主要弱点——对有效理论的无信息搜索。相反,神经引导搜索依赖于识别模型,通常是神经网络,来优先考虑符号搜索空间中的部分区域,从而更快地找到目标模型。一般来说,识别模型预测某种结构(例如谓词或整个子句)成为目标模型一部分的概率。例如,Deepcoder[6] 使用输入输出示例来预测目标模型中出现的每个谓词的概率。因此,Deepcoder 通过引入搜索空间中谓词的排名,将系统搜索转变为有信息的搜索。同样,EC2[37] 推导出解决当前任务的程序的概率。一些方法进一步推动了这一方向,探索了用符号模型的隐式生成模型替换显式符号模型空间的想法[90, 74]。例如,在[90]中,作者学习了一个关于语法规则的生成模型,并基于示例进行条件判断。然后通过根据生成模型中的概率从语法规则中采样,并在提供的示例上进行符号评估来执行结构学习。 

这些方法清楚地表明,通过神经模型引入各种形式的指导,可以使符号搜索变得可行。这些基于指导的方法在很大程度上减少了符号结构学习方法的最重要的弱点——生成许多无用的子句或模型。另一方面,这些方法通常需要大量数据进行训练,有时需要数百万个示例[38],尽管通过枚举随机模型结构并从中采样示例来创建数据相对容易[38]。

减少学习中的组合复杂性的另一种方法是只学习程序的一部分。这被称为程序草图:用户提供一个几乎完整的目标模型,其中某些部分未指定(称为空洞)。例如,在学习用于排序数字或字符串的(逻辑)程序模型时,用户可能不指定比较运算符,并提供程序的其余部分。那么学习任务就是填补这些空洞。基于草图的NeSy系统的例子有DeepProbLog和∂4,它们通过神经网络来填补(符号)程序中的空洞。

草图的优点是为NeSy系统提供了一个良好的界面,因为空洞可以用符号或神经方式填充。空洞在输入和输出方面提供了一个清晰的界面,并且不依赖于特定的实现。草图的缺点是用户仍然需要至少大致知道程序的结构。提供的草图结构充当了一个强烈的偏差。决定哪些功能留作空洞是一个非平凡问题:随着草图变得不那么严格,搜索空间就变得更大。

通过参数学习进行结构学习(示例17)可以说是NeSy中最突出的学习范式,位于两种StarAI学习范式之间。从技术上讲,通过参数学习进行结构学习等同于参数学习,学习任务包括学习一组固定子句的概率。然而,与StarAI中用户仔细选择有信息量的子句不同,这些子句通常是从用户提供的预定义复杂性的模板中枚举出来的。以这种方式构建的大多数子句都是嘈杂和错误的,几乎没有用处。它们将获得非常低,但非零的概率。遵循这一学习原则的方法包括NTPs [102]、∂ILP [39]、DeepProbLog[72]、NeuralLP [137]和DiffLog [112]。

通过参数学习进行结构学习的优点是它从学习中移除了组合搜索。然而,需要考虑的子句数量仍然非常大,这导致了困难的优化问题(参见[39])。此外,不相关的子句从未从模型中移除,因此在推理期间总是被考虑。即使与不相关子句相关联的低概率,这也可能导致虚假的交互:由于不相关子句的数量非常大,它们的累积效应可能是巨大的。


最后一组方法仅隐式地学习程序的结构。例如,神经马尔可夫逻辑网络(NMLN)[78],是MLNs的概括,从关系数据中提取结构特征。与MLNs仅在由模型结构(逻辑公式)定义的团上定义势能不同,NMLNs在数据片段(投影到常数的子集上)上添加势能。因此,NMLNs不一定依赖于模型的符号结构,无论是学习得到的还是用户提供的,但仍然可以学习利用数据中存在的关系模式。此外,NMLNs可以结合常数的嵌入。这种方法的好处是它从学习中移除了组合搜索,并通过更可扩展的基于梯度的方法进行学习。然而,这样做会失去检查和解释发现的结构的能力。此外,为了保持可处理性,NMLNs限制了片段的大小,这限制了发现的关系结构的复杂性。


6. 符号与次符号表示

在神经符号人工智能中,方法可以通过它们表示实体和关系的方式被特征化为两类:符号方法,其中实体使用符号(如字符串和自然数)表示,以及次符号方法,其中实体使用数值或分布式表示。

符号表示包括常数(an, bob)、数字(4, −3.5)、变量(X, Y)和结构化术语f(t1, ..., tn),其中f是函子,ti是常数、变量或结构化术语。结构化术语是一个强大的构造,可以表示实体上的任意结构,如关系、列表或树。次符号人工智能系统,如神经网络,要求实体使用向量、矩阵或张量以数值方式表示。在本节中,我们将称这些为次符号表示或次符号。

次符号人工智能系统通常要求这些表示具有固定的大小和维度。例外情况需要特殊架构,并且仍然是积极研究的主题(例如,用于列表类输入的RNNs或用于图类型输入的GCNs [63])。

比较表示方法。在逻辑中使用符号进行推理的一个强大而优雅的机制是统一化。本质上,它计算使两个符号在句法上相等的最一般替换,如果存在的话。这不允许比较两个不同的实体,但允许找到两个结构化术语的共同点。例如,术语p(a, Y)和p(X, b)可以使用替换{X = a, Y = b}进行统一化。相反,由于它们的数值性质,计算次符号之间的相似性是直接的。可以使用径向基函数等相似性度量或L1和L2范数等距离度量。然而,并不清楚何时决定两个用次符号表示的实体是相同的。

在符号和次符号表示之间的转换。许多系统需要在符号和次符号表示之间来回转换。实际上,大量关于深度学习的研究都致力于有效地表示符号,以便神经网络能够适当地利用它们。一个直接的例子是将符号转换为可以作为神经网络输入的次符号表示。通常,这些符号被替换为独热编码或学习到的嵌入。但请注意,这并不意味着系统可以在这些输入上执行符号操作。相反,它作为一组学习到的潜在嵌入的索引。一个更有趣的例子是在次符号空间中编码关系。为这个目的开发的广泛方法[13, 120, 136]表明,这远未解决。不同的编码有不同的好处。例如,TransE[13]将关系编码为从主体到客体嵌入的向量平移。一个缺点是对称关系由零向量表示,对称关系中的实体被推向彼此。更复杂的结构甚至更难表示。例如,目前有很多研究在探讨如何在神经网络中利用图结构数据(见附录A)。

从次符号表示转换回符号表示的一个例子是在神经网络分类器的末端。在这里,需要将次符号向量转换为离散的类别。通常,这是通过使用具有softmax激活函数的最后一层来实现的,该层然后将这些类别的置信度分数建模为分类分布。但是,其他选项也是可能的。例如,一些方法只对最有可能的类别感兴趣,将使用arg-max。或者,可以使用Gumbel-softmax激活作为从分类分布中采样的可微分近似。


6.1 对StarAI和NeSy的影响

StarAI系统中,输入、中间和输出表示都使用相同的符号表示。尽管有些StarAI系统可以支持数值,但这些数值仍然被视为符号,这与潜在的次符号表示不同。在神经系统中,输入和中间表示是次符号的。输出表示可以是符号的(例如分类器)或次符号的(例如自动编码器、GANs)神经符号系统最重要的方面是它们结合了符号和次符号表示。NeSy系统可以根据它们如何做到这一点进行分类。我们区分了几种方法。

在第一种方法中,输入是符号的,但它们在单一转换步骤中被翻译成次符号,此后在推理过程中使用的中间表示纯粹是次符号的。大多数NeSy方法都遵循这种方法。一些例子包括逻辑张量网络[5]、基于语义的正则化[33]、神经逻辑机器[35]和TensorLog[18]。

在第二种方法中,中间表示既是符号的也是次符号的,但不是同时。这意味着推理的某些部分在次符号表示上工作,而其他部分处理符号表示,但不是同时进行。这表明了实现逻辑和神经方面之间接口的NeSy方法。这种方法更适合于源自逻辑框架的系统,如DeepProbLog [72]、NeurASP [138]、ABL [22]和NLog [121]。

在最后一种方法中,推理机制同时将中间表示视为符号的和次符号的。这在只有少数方法中得到实现,例如神经定理证明器(NTP)[102]和概念定理证明器(CTP)[81]。


7. 逻辑 vs 概率 vs 神经

当两个或更多的范式被整合时,检查哪些基础范式被保留,以及保留的程度,可以让我们了解到结果范式的优缺点。有观点认为[98],当在一个模型或框架中结合不同的视角,如逻辑、概率和神经视角时,最好能让原始范式作为特例存在。

在本节中,我们分析了StarAI和NeSy中的不同模型在多大程度上保留了这三种基本范式。直观地说,我们所说的保留,是指在多大程度上可以精确复制原始范式的模型和推理算法。我们将使用大写字母L、P和N来标记那些可以完全恢复逻辑、概率和神经范式的系统。当一种方法只部分恢复这些范式时,即保留了一些但不是全部特征,我们将使用小写字母(即l、p和n)。如果一种方法没有考虑某个范式,则省略该字母。


7.1 StarAI:逻辑 + 概率

传统上,StarAI专注于逻辑和概率的整合。

lP:经典的基于知识模型构建方法仅使用逻辑来生成概率图模型。因此,图模型可以用来定义模型的语义,也可以用来执行推理。这可能使得理解应用逻辑推理规则对模型的影响变得更加困难。例如,在马尔可夫逻辑网络(MLNs)中,添加两个加权规则的解析结果很难预测其对分布的影响。

Lp:另一方面,对于概率逻辑程序(PLPs)及其变体来说,情况正好相反。虽然逻辑操作的效果很明确,但更难识别和利用诸如条件或上下文独立性等属性,这些属性对于高效的概率推理是必需的。


7.2 NeSy:逻辑 + 概率 + 神经

在NeSy中,我们考虑了第三个范式:神经计算。通过神经计算,我们主要指的是允许利用(深度)潜在空间来学习中间表示的模型和技术集合。这包括处理感知输入,也包括直接处理符号的嵌入。

lN:许多NeSy方法专注于神经方面(即,它们起初是作为神经方法,后来添加了逻辑组件)。例如,LTNs和SBRs将逻辑转化为正则化函数,以在违反逻辑约束时提供惩罚。在测试时,逻辑损失部分被丢弃,只使用网络进行预测。此外,通过使用模糊逻辑,这些方法并不整合概率范式。

Ln:另一类NeSy方法确实保留了对逻辑的关注。这些方法通常将现有的逻辑框架扩展为可微分版本。例子包括LRNNs [116]、TensorLog [18]、DiffLog [112]、∂ILP [39]、∂4 [14]和NTPs [102]。关键的推理概念被映射到在边缘情况下行为相同但在非确定性情况下是连续和可微分的类似概念。如前几节所述,许多这样的系统将逻辑推理视为正向或反向链式推理。如果考虑到逻辑推理是符号化地构建网络,并且语义仅在后续阶段放松以学习参数,那么对逻辑的关注就很明显了。虽然架构模仿了逻辑推理,但它通常远非神经网络的深层堆叠架构。

LN:值得一提的是LRNN的一个后续迭代,在这个迭代中,框架被扩展以允许原子上有张量权重和自定义聚合函数[117]。在那个框架中,展示了如何将逻辑规则的指定视为指定深度架构的层。这提供了一个漂亮且完整的整合,介于正向链式逻辑推理和神经网络之间,能够实现任何现有的神经架构。

lPN和LpN:还有两类方法分别从现有的StarAI方法lP和Lp开始,并通过可以与神经网络接口并允许可微分操作的原语扩展它们。在lPN类别中,如SL、RNMs和NMLNs等NeSy方法遵循基于知识的模型构建范式。在LpN类别中,如DeepProbLog和NeurASP等方法扩展了PLP。

通常必须做出权衡:lN或Ln类别的系统通常更具可扩展性,但(i)不建模概率分布,并且(ii)经常放宽逻辑。相反,LpN或lPN系统保留了原始范式,但代价是更复杂的推理(例如,它们通常求助于精确的概率推理)。

在神经符号计算(NeSy)中,我们考虑了第三个范式:神经计算。神经计算主要指的是允许利用(深度)潜在空间来学习中间表示的模型和技术集合。这包括处理感知输入和直接处理符号嵌入。

lN:许多NeSy方法专注于神经方面(即,它们起初是作为神经方法,后来添加了逻辑组件)。例如,逻辑张量网络(LTNs)和基于语义的正则化(SBRs)将逻辑转化为正则化函数,以在违反逻辑约束时提供惩罚。在测试时,逻辑损失部分被丢弃,只使用网络进行预测。此外,通过使用模糊逻辑,这些方法并不整合概率范式。

Ln:另一类NeSy方法确实保留了对逻辑的关注。这些方法通常将现有的逻辑框架扩展为可微分版本。例子包括LRNNs、TensorLog、DiffLog、∂ILP、∂4和NTPs。关键的推理概念被映射到在边缘情况下行为相同但在非确定性情况下是连续和可微分的类似概念。如前所述,许多这样的系统将逻辑推理视为正向或反向链式推理。如果考虑到逻辑推理是符号化地构建网络,并且语义仅在后续阶段放松以学习参数,那么对逻辑的关注就很明显了。虽然架构模仿了逻辑推理,但它通常远非神经网络的深层堆叠架构。

LN:值得一提的是LRNN的一个后续迭代,在这个迭代中,框架被扩展以允许原子上有张量权重和自定义聚合函数。在那个框架中,展示了如何将逻辑规则的指定视为指定深度架构的层。这提供了一个漂亮且完整的整合,介于正向链式逻辑推理和神经网络之间,能够实现任何现有的神经架构。

lPN和LpN:还有两类方法分别从现有的StarAI方法lP和Lp开始,并通过可以与神经网络接口并允许可微分操作的原语扩展它们。在lPN类别中,NeSy方法如SL、RNMs和NMLNs遵循基于知识的模型构建范式。在LpN类别中,方法如DeepProbLog和NeurASP扩展了PLP。

通常必须做出权衡:lN或Ln类别的系统通常更具可扩展性,但(i)不建模概率分布,并且(ii)经常放宽逻辑。相反,LpN或lPN系统保留了原始范式,但代价是更复杂的推理(例如,它们通常求助于精确的概率推理)。

在开发通用框架和分析其属性时,一个重要的方面是开发一种中间表示语言,它可以作为一种汇编语言。这样的一个想法是通过将其映射到加权模型计数(WMC)问题来执行概率推理。然后,这又可以通过将其编译成允许有效推理的结构(例如算术电路)来解决。这还有一个额外的好处,那就是这种结构是可微分的,这有助于逻辑系统与神经网络之间的整合。基于StarAI的系统经常使用这种方法。


8. 任务

在本节中,我们分析了本文考虑的NeSy模型所应用的学习任务。

远程监督。在NeSy中,一个经典任务是将逻辑作为学习模型的远程监督。在这里,输入X与标签y配对。然而,不是使用单一模型将X映射到y,而是首先通过一个(组)神经网络将输入X映射到一组中间概念C。然后,这些概念以符号方式用于计算y。通常利用逻辑程序将概念C(表示为逻辑原子)映射到代表逻辑查询的标签y。因此,神经网络不是直接受到监督(关于C),而是只通过标签y和逻辑程序中包含的知识进行远程监督。直觉上,当标签y与输入的联系较弱时,将任务分解为几个较容易的子任务,然后使用逻辑程序中的形式背景知识将它们组合起来更为方便。请注意,逻辑程序对于推理至关重要。没有程序,网络将无法解决它们的子任务,因为不存在直接监督。此外,通过将任务分解为子任务,由复合系统(神经+逻辑)所做的推理比相应的端到端神经网络更具可解释性。一个经典的例子是MNIST加法[72],如示例21所示。远程监督任务在诸如DeepProbLog、DeepStochLog、NLog、NeurASP、SATNet [127]等原型系统中非常常见。这类任务的一个缺点是,为了使未经训练的神经子任务能够学习,逻辑必须考虑与标签y兼容的所有可能的概念组合,尽管只有少数(或一个)是正确的。挑战在于如何在探索多个组合与采用贪婪策略以扩展到更大问题之间取得平衡[121, 73, 71]。其他属于这一类的问题包括场景解析、图像分割和语义图像解释[34, 2]。

半监督分类。与远程监督相关的一类任务是带有知识的半监督分类[15]。在这里,起点是一个标准分类任务,其中一组输入X通过神经模型映射到一组标签C。然而,我们还提供了一些与输入的标签C相关的额外知识y。这些知识通常以逻辑规则和程序的形式表达。设置与远程监督非常相似,我们有三个层次:输入X、概念C和额外的标签y。然而,在这种情况下,我们也可以访问对一些(通常很少)概念C的监督。尽管这个任务可以通过丢弃y中包含的信息以纯监督的方式解决,但NeSy方法可以利用外部知识改进多个输入模式的预测。当外部知识涉及多个模式的概念C时,这个任务被称为集体分类[109],因为通过集体预测它们的类别,可以提高多个模式的准确性。在这个设置中的一个经典例子是引文网络中的文档分类,参见示例22。通过将y中包含的信息视为额外的知识,这些任务通常使用基于正则化的系统来解决,如SBR[33]、DLM[77]、RNM[76]或语义损失[133]。然而,也可以使用逻辑程序来模拟沿着引文网络的标签传递方案,如DeepStochLog [132]中所做的。这类任务的一个特点是,额外的信息y通常非常嘈杂(例如,引文网络中的流形规则并不总是有效的)。虽然这个任务与远程监督密切相关,但有一个重要区别:在半监督分类中,额外的知识y旨在提供额外的信号,然而,如果没有对概念C的直接监督,这些信号是不够的。

知识图谱补全。在神经符号系统(NeSy)中,另一个常见任务是知识图谱补全(KGC)或链接预测。知识图谱(KG)是一对(E,R),其中N是实体集合,R是边的集合。在知识图谱中,一条边是一个三元组(e1,r,e2),其中e1和e2是边的头和尾,r是它们之间的关系。在KGC任务中,目标是预测输入图中缺失的边。链接预测一直是StarAI中的关键任务之一[44],并且最近也在NeSy中变得重要,因为NeSy允许将符号推理(来自StarAI)与基于知识图谱嵌入(KGE)[128]和图神经网络[107]的最新几何深度学习方法相结合。专注于这项任务的NeSy系统包括NTPs[102]、NMLN[78]、DLM[77]、DiffLog[112]、TensorLog[18]。

生成任务。大多数前面提到的任务可以被描述为分类。NeSy最近还关注了与尽可能准确地建模输入数据分布相关的任务。然后的目标是从学习到的分布中采样新的模式。NeSy生成方法背后的思想是,可以使用深度生成模型(例如变分自编码器或马尔可夫链蒙特卡洛方法)从数据中学习重要特征。结合符号特征和逻辑推理可以用来控制、分层和简化推理。生成建模可以指关系结构,例如NMLNs中的分子生成[78],或者指子符号空间,例如VAEL中的图像生成[82]或[114]。

知识归纳。而不是利用符号知识进行预测任务,也可以归纳符号知识。在所有前面的任务中,符号知识是由用户作为输入的一部分提供的。然而,正如第5节探索的,我们仍然可以应用几种神经符号技术来学习符号知识,当这不是情况时。未知的符号知识实际上是要学习的目标。一个经典的例子是程序合成,目标是从期望的输入输出行为的正面和负面例子中学习程序。理想情况下,应该覆盖所有正面对和没有负面对。许多系统学习逻辑程序,即NTPs[102]、∂ILP[39]、DeepProbLog[72]、NeuralLP[137]、DiffLog[112]、DeepCoder[6]。有时,输入输出对不是训练数据集的一部分,而实际上是由一个黑盒神经模型生成的。那么,归纳出的程序就解释了模型的行为,这将NeSy与可解释性领域[17]联系起来。


9.公开挑战

最后,我们列出了NeSy面临的一些有趣的挑战。

语义学。统计关系 AI 和概率图模型社区对其模型的语义学给予了大量关注。这导致了几种明确的选择(如有向 vs 无向,基于轨迹 vs 可能世界[104]),并相应地指出了不同模型的优缺点,澄清了它们之间的关系。在这个主题上还举办了专题研讨会4。此外,一些研究人员还研究了如何将一种类型的模型转换为另一种[59]。与此同时,带权模型计数已经成为推理的常用汇编语言。如今,神经符号计算的情况与统计关系学习早期阶段非常相似,当时有许多竞争的形式主义,有时被称为统计关系学习字母汤。深入了解神经符号方法的语义及其关系将非常有益。本次综述希望为此目标做出贡献。

概率推理。尽管相对较少的方法从概率的角度探讨逻辑和神经方法的整合,但我们认为概率方法是整合两者的非常自然的方式,因为已经有研究表明[98]如何将这些单一方法视为特例。然而,许多开放性问题仍然存在。概率推理计算开销大,通常需要进行近似推理。确定概率近似推理与基于逻辑松弛的其他近似(如模糊逻辑)的比较将是一个有趣的研究方向。

模糊语义学。关于 t-范数模糊逻辑的选择及其对应的联结词的转换,文献中的观点非常多样化。通常不清楚模型保留了布尔逻辑的哪些属性,同时有一种倾向将模糊逻辑视为布尔逻辑的连续替代品,而不考虑其对语义的影响。该领域显然需要进一步的研究。一方面,人们可能希望定义一些原生模糊的新模型,从而无需从布尔逻辑进行转换。另一方面,一个有趣的研究方向是相对于要保留的一组属性,表征哪些是布尔逻辑的合适模糊近似(见第4节)。

结构学习。虽然在纯关系模型(没有概率)的结构学习方面已经取得了显著进展,但由于推理的复杂性和问题的组合性质,学习StarAI模型仍然是一个主要挑战。加入神经方面的因素使问题更加复杂。NeSy方法无疑已经显示出解决这个问题的潜力(第5节),但现有的方法仍然有限,大多数是特定领域的,这阻碍了它们的广泛应用。例如,目前支持结构学习系统的需要用户努力指定子句模板或编写模型的草图。

推理扩展。对于StarAI来说,可扩展的推理是一个主要挑战,因此对于具有明确逻辑或概率推理组件的NeSy方法也是如此。研究神经方法在多大程度上可以通过提升(利用模型中的对称性)或近似推理,以及从中间表示进行推理[1]来帮助应对这一挑战,是未来研究的有希望的方向。

数据效率。与神经方法相比,StarAI方法的一个主要优势是它们的数据效率——StarAI方法可以高效地从少量数据中学习,而神经方法需要大量数据。另一方面,StarAI方法无法扩展到大数据集,而神经方法可以轻松处理它们。我们认为,了解这些方法如何相互帮助克服它们的互补弱点,是一个有希望的研究方向。

符号表示学习。深度学习的有效性来自于能够改变数据的表示,使目标任务变得更容易解决。在符号级别也能够改变表示的能力将显著增加NeSy系统的能力。这是一个主要的开放性挑战,神经启发式方法可以帮助实现进展[19, 36]。




Code:用神经符号AI解决机器人强化学习等问题,sairlab系列论文代码



CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
 最新文章