最好的AI认知概念的表征方式

科技   2024-10-30 07:52   上海  

Why concepts are (probably) vectors

为什么概念可能是(可能是)向量

https://colala.berkeley.edu/papers/piantadosi2024why.pdf


几十年来,认知科学家一直在争论何种表征能够体现人类概念的特征。无论表征的形式如何,它必须能够计算出各种属性,包括相似性、特征、类别、定义和关系。同时,它还必须支持理论、临时类别以及程序性知识的发展。在本文中,我们讨论了为什么基于向量的表征能够提供一个令人信服的说法,满足所有这些需求,并且有可能被合理地编码到神经架构中。随着大型语言模型和向量符号架构方面的最新进展,这一观点变得尤其有前景。这些创新成果展示了向量如何处理许多传统上认为神经模型无法触及的属性,包括组合性、定义、结构和符号计算过程。


亮点

现代语言模型和向量符号架构表明,基于向量的模型能够处理人类概念所需的组合性、结构性和符号性特征。

向量还能够处理心理学中的关键现象,包括特征和相似性的计算、关系和类比推理,以及理论的表征。
语言模型展示了单词语义和句子的向量表示如何在概念与语言之间建立联系,这可以在概念的定义理论或临时概念中看到。
来自逻辑学的Church编码思想使我们能够理解基于向量或符号系统中的意义是如何产生的。
通过将这些最新的计算结果与心理学中的经典发现相结合,基于向量的模型为人类概念表征提供了一个令人信服的解释。


理解概念的挑战

概念是如何被表征的,这一问题长期以来似乎难以触及。实验工作和哲学分析似乎已经发现,概念的表征同时是多种类型的:有时是规则性的,有时是定义性的,有时是分级的,有时是关系性的[1]。因此,概念科学面临着理解何种类型的表征能够同时满足所有这些特性的基本理论挑战。同样,连接主义与符号主义的分歧也凸显了概念表征上的相互竞争的需求。它们必须同时处理噪声输入、梯度激活、单元退化,并支持高效的学习方案[2],但也要允许推理、重新组合成新的结构化思维,以及在信念中建立系统联系[3,4]。因此,我们应该在人工智能(AI)中构建什么样的表征、在神经科学中寻找什么样的表征,或将其作为跨物种的比较工作的基础,这些问题一直不明确。

我们认为,概念表征这一深层次问题的解决方案其实已经存在:认知心理学及相关领域最近的理论和计算进展表明,向量(见术语表)可能满足概念所需的所有特性。这并不意味着我们完全理解了概念是如何工作和构成的,而是说存在高度合理的表征思想,这些思想至少在原则上似乎能够捕捉人们使用概念的所有目的。这一进展尚未得到充分认可,部分原因是它所需的一些技术工具相对较新,部分原因是表征解决方案需要将来自多个领域的元素结合起来。在这里,我们回顾了证据,表明概念在高维向量空间中得到了充分表征,其中意义是通过概念向量之间的相互关系和计算动态得出的。这一观点并非新颖,但作为概念的一种机制性心理理论,它受到的关注很少。重要的是,这并非与更传统的基于符号或语言的概念提案相悖;相反,我们的目的是展示向量表征如何统一先前提案中的优点。


我们的综述组织如下:首先,我们概述了指向向量为概念正确计算表征的历史和哲学背景。基于向量的观点已经得到了许多早期工作的支持,我们提出了一种结合了多个早期研究的发现和直觉的观点。然后,我们研究了概念的核心心理学解释,并回顾了高维向量如何捕捉所需的特性。至关重要的是,我们将概念的计算框架与意义的哲学理论(框1)联系起来,以帮助解释向量如何获得意义。我们简要讨论了为完整解释概念还需完成的工作,并在结语中勾画了跨多任务概念学习的统一图景。


概念向量的思想

关于概念的心理表征的一种直觉来自罗杰·谢泼德(Roger Shepard)的工作,他率先使用多维标度法(MDS)来理解心理空间的几何结构[5]。这项工作的核心思想是将概念映射到某个空间(对于谢泼德来说通常是二维或三维)中的点,使向量空间的几何结构与心理量的实证测量(如项目之间的相似性、距离或混淆)保持一致。虽然得到的向量坐标不能单独解释,但向量之间的关系承载着关于心理测量的意义。例如,两个相似的概念在向量空间中会彼此靠近,而这个空间中的距离会与人们在这两个概念之间进行泛化的意愿相一致[6]。在这个框架中,概念信息分布在整个向量上,而不是局限于任何单个维度的局部。谢泼德证明了MDS可以恢复心理上的合理的结构[5]。例如,它可以从埃克曼(Ekman)对颜色之间成对相似性的数值判断中恢复出一个圆形的色轮。虽然谢泼德(Shepard)用这些方法专注于理解内心的心理空间,但这一总体方法支持了一个深刻的观点,即向量空间可以通过向量之间的几何关系来编码认知结构。自此以后,其他人也提出了类似的、基于关系的技术来理解和建模概念[7],以及分析神经数据[8]。


术语表

即兴概念(Ad hoc concepts):指在使用中“即兴”创造出来的概念,通常涉及复杂或语境敏感的意义,这些意义在语言中无法用单个词汇来表达。

绑定(Binding):指两个表征之间的连接,通常是一个变量及其值。例如,生日的符号可能与特定的日期绑定,物体的表征可能与其在空间中的位置绑定,句子中单词的表征可能与它所修饰的内容绑定。

丘奇编码(Church encoding):指使用一个系统的动态来编码另一个系统的行为的思想。该术语源自丘奇使用λ演算(一种用于组合函数的符号)来编码数学实体(如整数)的做法。

经典观(Classical view):指概念由必要且充分的属性定义的观点,通常认为这与字典定义相近。

组合性(Compositional):指将两个概念组合成新表征的能力,通常通过函数组合实现,如我们能够思考“友好的螃蟹”这一组合概念,这是由我们对“友好”和“螃蟹”两个概念的理解组合而成的。

概念角色(Conceptual role):指一个概念通过它与其他概念的关系以及在心理理论中的作用来定义的观点。

范例模型(Exemplar models):指将概念表示为特征空间中某一类别多个例子的理论(例如,鸟类是一组点,每个点代表我们见过的被称为鸟的一个例子)。

高维向量空间(High-dimensional vector space):机器学习中使用的大多数向量需要数百到数千个维度。这些向量仍然遵循与低维向量相同的数学定律,但具有几个重要属性,包括两个随机高维向量通常彼此正交。

多维标度法(Multidimensional scaling,MDS):一种计算技术,其中项目(或概念)被放置在向量空间中,使得向量空间中的距离与项目之间的相似性或混淆等心理量保持一致。

多任务学习(Multitask learning):指在不同任务或用途之间共享单个表征的学习设置。

平行四边形模型:计算向量空间中类比关系的理念。如果我们知道A与B的关系类比于C与x的关系,并要求找出x,那么我们就是在寻找一个向量x,它相对于C的关系与B相对于A的关系相同。这可以通过向量x = C + (B - A)来找到。

原型理论:概念在特征空间中被表示为一个类别的单个示例(例如,鸟可以被表示为单个典型鸟类的特征,如知更鸟)。

心理理论:在这里,理论指的是对一系列事实、关系、因果联系和推理程序的内部表示。例如,人们有关于飞机如何飞行的理论,这涉及到机翼、空气、压力、发动机等之间的关系(心理理论可能与现实相符,也可能不符)。

张量积编码:一种技术,其中变量和值的表示通过两个向量的张量积来绑定。

向量:一个有序的数字列表。例如,二维坐标(4,3)是一个二维向量,可能表示一个二维位置。

向量空间:向量的集合,具有标准的数学运算,使得我们可以通过相加两个向量或用一个数缩放一个向量来创建新的向量。我们把向量空间想象为指定了一个可能的向量集合,例如,学习者可能会创建的向量。

向量符号架构(VSA):神经启发的计算系统的一般术语,其中符号被赋予向量值,向量上的更新对应于符号上的离散逻辑运算。


框1. 丘奇编码与概念角色语义学

丘奇编码是数学逻辑中的一个思想,其中一个系统的动态可以反映另一个系统的动态。这一思想可以追溯到最早的计算理论,并在编程中为人们所熟知:为了执行某种计算,程序员必须先弄清楚如何将其表示为计算机实际能够执行的原始行为(例如,计算机的内在动态)。甚至在现代计算机出现之前,人们就会通过设计物理系统(如齿轮或电路)来解决计算问题,这些物理系统的内在动态会执行预期的计算[107]。

例如,大多数计算机处理器都没有内置有理数,但可以通过适当地操作整数对来模拟它们。例如,一个分数a/b可以用一对数(a,b)来表示。两个分数的加法(a,b)+(c,d)=(ad+cb,bd)或乘法(a,b)(c,d)=(ac,bd)使用计算机中内置的操作,如单个数字上的+和操作,来产生等效于分数上相应操作的数对操作。注意,当这种情况发生时,所涉及的符号和术语之所以有意义,是因为它们在计算中所起的作用。在数对(a,b)中,没有什么固有的东西使a表示分子,b表示分母,而不是相反。这种意义之所以产生,只是因为它们各自与+和的交互方式。同时,+或这两个符号本身也没有什么使它们具有特定意义的东西,是它们对其他部分表示的计算才使它们表示加法或乘法。

这种意义被称为概念角色语义学[108,109],因为意义是由符号在计算内部所起的作用决定的,而不是通过参照世界来决定的。可以推测,我们所知道的许多概念在这种意义上都是有意义的;例如,我们对“邮票”一词的了解是基于它与其他术语的关系,包括“信件”、“邮政服务”、“递送”、“付款”等。这种意义在现代语言模型中可能也存在,在这些模型中,单词似乎参与了丰富的角色集合,即使没有实际依据[67],这可能既类似于人们自己的内部系统中概念所起的作用,也类似于上述分数例子中符号所起的作用。这种概念角色的观点与语义内在主义密切相关。

理论计算机科学的一个令人惊讶的结果是,存在系统既是通用的,即能够表达任何计算,又是基于极其简单的规则或动态的。这些系统包括,例如,根据局部规则闪烁的单元格网格[110]、二叉树操作[111]、函数组合[112]和单个微处理器指令[113]。这些简单的系统可以通过丘奇编码目标系统的动态来模拟任何其他计算系统。例如,在计算机上运行的任何程序都可以通过根据简单局部规则操作的网格集合或二叉树操作集合来实现。人类能够学习的技能范围之广表明,我们内部有一个系统能够丘奇编码大量可能的计算或意义[69]。



连接主义者同样主张概念的分布式表示,并展示了这种表示如何捕捉概念使用的各个方面。麦克莱兰(McClelland)和罗杰斯(Rogers)的[9]语义认知模型就是一个例子,其中网络学习了像“鸟”或“企鹅”这样的词的向量表示。他们的模型成功地捕捉到了分类和离散特征等方面[10]。类似的思想也潜在于潜在语义分析[11]、word2vec模型[12]、BERT[13]和基于Transformer的语言模型[14]中。这些模型学习基于向量的单词表示,以捕捉其使用特征。所得向量也与人类概念的特性有着令人信服的联系[15–18],尽管仍有明确的改进空间[19,20]。

连接主义模型在历史上一直受到其无法捕捉人们系统性和生产性组合思维的论点的挑战[3,4]。这些论点长期以来一直受到质疑[21],并最近受到当代神经网络方法的直接挑战[22]。在概念作为向量的观点中,两项最近的进展对于组合性具有特别重要的意义。首先是大型语言模型的最新迭代展示了向量空间如何很好地处理自然语言[20],因此捕捉到了其中的一些组合性。第二项进展来自展示如何将组合性和层次结构明确地编码到向量空间中的工作,这项工作建立在诸如张量积编码[23–25]等方法的基础上。向量符号架构(VSAs)(框2)[26–30]中的持续工作已经展示了高维向量空间如何实现认知科学中大量研究的关键符号基数据结构。这些包括,例如,树、逻辑、图甚至图灵完备编程语言的编码;所有这些都使用底层向量上的简单操作。将符号编码成向量解决了认知中组合性与等级性相结合的一个关键问题[31]。

然后,这些模型和方法创建的图像如下:像“手风琴”、“化油器”、“七”、“火灾中你会从家里带走的物品”或“那个”这样的概念的表示,基本上是在可能有数千或数百万维的空间中的点。任何特定向量的意义都不能孤立地确定,而是来自于这些向量在更大计算过程中所起的作用(框1)。在最基本的层面上,这种作用包括向量之间的几何关系,包括距离和角度,但也包括向量上的计算动态。这一观点为回答“概念本质上是什么”提供了一个合理的基础,它植根于认知、神经和计算文献中。需要明确的是,尽管将我们的“概念作为向量”的观点解释为一种实现性建议可能很诱人,但我们在这里的讨论处于马尔(Marr)的算法和表示层面。这些向量可以合理地被认为是神经元的激活向量,但向神经科学的映射并不必然如此直接。

在以下部分中,我们通过向量表示的视角审视了认知科学中的流行概念理论。我们展示了这些理论的核心实验结果都可以通过基于向量的模型来捕捉。然而,这并不意味着迄今为止提出的任何特定模型都是正确的,这是一个我们稍后会讨论的问题。相反,我们的观点是,基于向量的模型在捕捉认知用概念所做的一切方面具有迄今为止最大的潜力。


向量与概念的原型观

概念的一种流行理论是原型理论,该理论认为每个概念在特征空间中被表示为一个点[32,33]。例如,知更鸟可能被存储为心理空间中的一个点,该点编码了其典型的大小、重量、腿的数量等特征。类似原型模型的变体存储多个示例,可能类似于密度估计。在这两种模型中,类别归属是概率性的,而非绝对化的,因此类别的边界是模糊的[34],并且在个体之间存在差异[35]。支持原型理论的主要证据来自稳健的行为效应,其中项目的分类和反应时间对典型性敏感[32,36]。例如,人们接受“知更鸟是鸟”这一说法比接受“鹅是鸟”更快[36]。值得注意的是,即使对于像“偶数”这样有更严格定义的概念,人们也会表现出典型性效应[37]。原型模型甚至可以捕捉不对称的相似性判断[38]。

对于我们的目的而言,关键是向量空间支持距离的概念,可以捕捉典型性:知更鸟向量可能比企鹅向量更接近鸟向量。实际上,许多概念向量空间模型都能捕捉相似性判断,包括使用类似多维标度(MDS)向量空间的模型[7,39]。更近期的、从文本预测中衍生出来的向量模型,如word2vec和GloVe,学习到的向量在距离或相似性判断上能够复制人类的判断[40–42]。

向量与概念的关系观

许多概念不仅仅通过距离和相似性来理解,还通过它们与其他概念的关系来理解[43–47]。例如,动词“cause”(导致)的意义是两个事件之间的关系,它接受另外两个实体作为论元(例如,“闪电导致了火灾”)。这些关系不是对象本身或其特征所固有的(例如,闪电并不总是原因),而是在不同语境中动态地绑定到这些角色中的[45,48,49]。关系概念在不同文化中普遍存在,许多人认为这种关系知识是人类认知的核心[45,50],包括推理、规划和问题解决。一些计算模型已经展示了如何在类比推理的关键关系过程中实现这些关系理论[48,49,51,52],甚至有一些模型能够跨领域概括关系知识[53]。

向量符号架构(VSA)、现代语言模型以及涉及分布式表示的混合模型展示了向量如何捕捉关系理论。VSA、张量积编码和相关系统优雅地捕捉了将谓词与论元组合所需的绑定操作(框2)。例如,将原因与其论元绑定可能就像简单地将向量相加一样。这种相同的绑定操作也用于视觉场景中的关系或位置[54]。在其他情况下[48,49],通过低层次的向量表示来支撑高层次的符号操作。

类比是研究关系理论的关键领域之一,现代语言模型似乎能够捕捉其中的许多关系。通过向量算术解释类比推理的首次尝试之一是Rumelhart和Abrahamson的平行四边形模型[55],该模型计算人们解决形式为A:B::C:x的类比问题的解,作为向量方程的解。

更现代的word2vec模型与类比关系

在更现代的word2vec模型中,沿着同一语义轴变化的一组词(例如,“apple-apples”、“car-cars”、“family-families”)具有沿着相同向量方向变化的表示[56]。换句话说,“apple”与“apples”之间的几何向量关系大致与“car”与“cars”之间的关系相同,这意味着我们可以将“apples”计算为“apple + car - cars”。我们注意到,有人已经指出了这种类比方法的缺陷[57,58],而其他人则表明,与人类类比构建相比,替代的几何比较模型比平行四边形模型更能准确地捕捉这一构建过程[59]。然而,更重要的是,向量空间可以支持类比关系,即使某些特定的类比关系实例可能并不像希望的那样清晰。除了word2vec之外,其他向量空间模型也表现出了涌现的关系推理能力。例如,GloVe嵌入可以用于在语义尺度上进行关系比较[60],而BART嵌入则可以用于完成类比[51]。基于Transformer的语言模型在某些类比推理任务方面甚至可能表现得比人类更好。在对GPT-3的一个版本进行广泛类比推理任务评估的研究中,包括基于文本的新型瑞文标准推理测验、字母串类比以及从加州大学洛杉矶分校言语类比测试中提取的四词言语类比,该研究发现该模型在每项任务中的表现都与人类参与者相当或优于人类[61]。

向量与概念的理论观

除了关系之外,许多概念似乎还参与了丰富的心理理论家族,类似于科学理论[62,63]。例如,我们对什么构成“游行”的心理理论可能以复杂的方式依赖于其组成部分及其关系——有多少人、他们为什么在那里、他们如何行走、他们要去哪里等等。这可能类似于我们基于“电荷”、“原子核”等其他概念的关系来理解“电子”。关键的是,在理论中,意义在很大程度上来源于符号之间的关系,就像教堂编码和概念角色理论(框1)中那样。在这种观点下,人们在分类中可能会更加重视理论联系,而不是感知相似性[63]

尽管理论通常使用符号方法进行建模[64–66],但有人认为语言模型通过概念角色(框1)获得了相似的意义和术语网络,这实际上可能是它们成功的关键部分[67]。其他工作已在基于向量的模型中学习了理论,包括获取足够抽象的关系家族,以跨领域进行概括[53]。此外,理论观的一些形式化与上文描述的概念的关系理论相似。例如,为像磁学这样的领域假设潜在符号和关系的学习者[65]——一个存在正电荷、负电荷和某些相互作用定律的理论——可能会使用像逻辑这样的系统来形式化某些关系定律[例如,吸引(正电荷,正电荷)→假]。其他计算工作已使用贝叶斯网络等工具[68]对理论的概念进行了形式化。重要的是,向量符号架构(VSA)(框2)可以处理这些领域所需的逻辑表示,以及贝叶斯网络所需的图结构。

向量与程序和过程的知识

理论观的一个自然延伸是,概念通常参与复杂的计算。概念不仅相互关联,而且支持特定形式的逻辑推断和计算,并且在类似程序的领域中,学习者学习和修订复杂的程序[69]。这在数学等领域中尤为突出,孩子们在那里学习计数、算术,并最终学习代数运算,如计算导数。这也可以在至少可以追溯到布尔的心理逻辑理论以及图灵关于人类“计算机”能够有效计算什么的论述中看到。逻辑或类似程序的理论已在许多领域得到发展[69–76],而基于这种方法的模型可以追溯到认知科学的最早时期[77]。


Box 2. VSAs

向量符号代数(Vector Symbolic Architectures, VSAs)提供了一种在基于向量的表示中进行符号计算的方法,与张量积编码密切相关。在VSAs中,每个符号都被表示为一个高维向量(通常是实值的,但也有可能是复数、二进制或双极性的),这可以被看作是将其他符号域通过Church编码(见正文中的Box 1)转换为基本的向量操作。

这些基于向量的符号可以通过对底层向量进行算术运算以多种方式组合。为了保持向量的可区分性,向量通常被设置为正交(成直角),尽管并非所有版本的VSAs都要求这一点。实现正交性的一个简单方法是随机性:在高维空间中,两个随机生成的向量近似正交,因此符号通常被初始化为随机的高维向量。

VSAs的一个重要操作是符号可以通过基本的逐元素向量运算进行组合或绑定。假设我们要表示诸如某位总统出生在哪个州这样的知识。总统和州都将被表示为随机向量(例如,乔治·华盛顿将是一个向量mGeorge Washington),我们想要形成一个复合符号来表示华盛顿出生于弗吉尼亚州这一事实。根据VSAs的类型(关于不同类型的VSAs的调查见[105]),实现绑定的一种方法是通过逐元素乘法(记为⊙)来创建新的向量。


在这里,第一项 (mVirginia ⊙ mGeorge Washington)/mLyndon Johnson 将成为噪声(不等于我们知道的任何其他符号),即,至关重要的是,它与我们正在使用的其他向量近似正交。这意味着向量 y 允许我们在单个向量空间中近似地编码和解码多个变量。关于VSAs的研究已经表明,加法和乘法运算,结合可逆置换运算(即打乱或恢复索引顺序的运算),能够表示我们在认知中所考虑的所有数据结构,包括列表、树、图等[27,30,106]。

深度网络越来越能够表示和学习逻辑与程序[78-82]。在这种情境下,程序本身也可以被编码为激活或连接权重的向量,隐式地使用Church编码(Box 1)将符号程序映射到神经网络动力学中。因此,基于向量的方法与经典符号方法的核心目标越来越兼容,实际上,Box 2中概述的想法是专门为在分布式表示中实现符号理论而构建的。


向量与经典理论

关于概念的经典观点——即每个概念都有一个定义,指定其必要和充分特征——是概念最古老的理论之一。具有讽刺意味的是,它已被证明是概念中最难理解的一个方面,这可能是因为它在语言上将概念联系在一起(例如,“意大利面饺”是“一种通常呈方形、内馅丰富的小型面食”)。通常,在任何非语言类概念理论下,单词和短语(或特征集)之间的联系都难以理解。然而,即使是一些支持语言类心理理论的研究者[3,4]也不认为概念总能以这种方式给出严格定义。

定义可能不是概念的定义部分。相反,它们是允许向量(即定义部分)参与语言生成的结果。实际上,单个单词、多词短语、句子和更长的文本段落都可以映射到相同的底层向量空间,从而使大型语言模型能够恢复单词的定义。已有几项研究开发了从词嵌入模型的向量表示中生成定义的方法。定义建模任务涉及将单词向量映射到该向量的文本表示[83]。反向任务涉及在嵌入空间中识别一个准确捕捉给定定义意义的向量[84]。随后使用更近期的大型语言模型进行的工作探究了当给出要定义的单词时模型的直接输出,并可以生成被认为是合理的定义[85]。这些结果表明,向量非常适合解释我们对定义的直觉。

向量与临时概念

有些概念似乎直到我们使用它们时才被实现。临时概念是为了实现特定目标而即时构建的概念(例如,“你会送给别人以庆祝他们出版书籍的物品”的类别)[86]。与自然概念不同,自然概念是通过经验形成的,因此有长期记忆的基础,而临时概念直到被考虑的那一刻才实现。尽管如此,临时概念与其他概念有许多相似之处。例如,人们能够一致且迅速地判断对象或想法被某个临时类别描述得有多好,并且参与者的反应表现出典型性梯度[86]。

要求语言模型形成临时类别与要求它给出定义是相反的:我们提供定义,并可以要求它推理出隐含的对象集合。我们自己的非正式实验表明,现代语言模型在许多情况下似乎能够做到这一点,例如,在询问可以送给别人以庆祝他们出版书籍的物品时,会列出个性化钢笔、书籍封面艺术品和文学主题珠宝等。

最近的工作[19]向深度学习图像字幕模型查询了临时雨伞,并发现它使用在任务项(如树叶或蘑菇)之间共享的向量概念恢复了动物图像,以遮挡雨水。其他工作表明,大型语言模型在涉及常识世界知识的密切相关推理任务上表现良好[87]。这些结果表明,临时概念可能由至少近似句子语义(更广泛地说是场景语义)的模型所捕捉。随着包括更丰富形式的接地(Box 3)和推理感知表示的能力的深度学习模型的发展,模型处理临时概念的能力(这通常需要对世界中的实体进行推理)可能会提高[88]。对于语言模型而言,这些能力与其表示更长语言上下文或短语的能力内在相关:“你会送给别人以庆祝他们出版书籍的物品”只是另一个向量,在正确的架构中,该向量可以像单词一样发挥作用。


概念是被配置为能够跨任务工作的向量

接下来,我们介绍一个概念向量如何能够在特定领域的任务之间有效共享的示意图设置。图1展示了一个视图,其中,存储在长期记忆中的单个概念向量集合可以通过不同的函数进行投影,以用于不同的任务。这一组单一的概念向量允许信息共享,这意味着这些投影可以保留一些来自高层次的(与任务相关的)几何结构。

最高层次是一个高维向量空间,类似于多维尺度分析(MDS),其中点的位置被调整以同时在许多任务上表现良好。这种计算方法在精神上类似于广义上下文模型[7],该模型以上下文依赖的方式投影MDS的结果。其他计算方法使用单一任务来学习概念表示(例如,Shepard的MDS使用成对相似性;大型语言模型使用单词预测),但人类概念之所以如此有用,是因为它们可以被投影(可能是非线性的)到多种用途中。

图1中的框架是一种多任务学习[89]的类型。许多团队报告称,多任务机器学习架构在学习跨知识领域的共享潜在表示方面取得了成功,从而能够更好地泛化到新数据[90,91]。行为和神经实验表明,当学习一系列相关任务时,人类会自发地学习可泛化的潜在结构[92,93]。

我们的提议与“枢纽和辐条”模型在形式和拓扑上相似,该模型是语义的神经基础[94],与神经和患者数据相匹配[95]。事实上,许多研究发现了人类将模态特定信息整合成多模态表示的证据[95,96]。然而,图1所示的是人们在不同行为任务中使用概念的计算基础,而不一定是神经基础。

我们注意到,许多其他类型的任务也可能参与到图1所示的图景中。特别是,我们可以考虑像图像识别这样的基础任务,其输出不是类别标签,而是概念向量表示。此外,考虑自然语言为任务提供的丰富接口也很重要,语言可能为有效地编程任务提供了一种方式[97]。例如,人们只需根据口头描述就能说出“你办公室里以字母M开头的物品”,而无需为这项特定任务学习单独的转换。


框3. 具身认知

具身表征系统的结构使其内部表征与外部对象、环境和事件相关联。传统的基于离散符号操作构建复杂表征的人工智能(AI)系统被认为缺乏与外部来源的这种关键联系[114]。因此,具身认知与那些将概念表征视为非模态且与所谓的低级感知和运动过程完全不同的理论形成对比[115]。认知科学中具身传统的证据表明,表征系统是基于感官运动经验的。例如,神经影像学研究表明,在执行概念任务时,大脑的行动和感知区域会出现活动[116],而选择性感官运动障碍者在概念任务上的表现比替代观点所预测的要差[117–119]。

近年来,在语言和多模态环境中表现出色的人工智能模型的涌现,重新激发了人们对具身性的兴趣,并促使人们评估这些系统所拥有的表征[120]。基于Transformer的大型语言模型(LLMs),如GPT-3,将离散的语言标记表示为向量,并应用一系列复杂的操作来编码其在上下文中的意义。由于这些模型是从大量由人类(假设具有具身概念)产生的数据中学习的,因此它们可能获得容易具身的表征。研究表明,LLMs学习的表征在内部再现了通常认为需要直接经验的领域(如RGB空间中的颜色和文本网格世界中的空间表征)的结构和动态[17]。在评估GPT-3在一系列心理物理空间中的相似性判断时,最近的工作发现,该模型对味道、辅音、音色、音调、颜色和响度等词的相似性判断与人类的高度相关,并在颜色和音调领域恢复了已证实的循环和螺旋组织结构[121]。其他研究在LLMs和计算机视觉模型的表征之间发现了线性映射,这表明它们的编码之间存在结构上的对应关系[122,123]。

当代多模态人工智能模型为丰富向量表征并赋予其具身感知内容提供了蓝图。OpenAI的CLIP等模型并没有将视觉和语言表征学习视为完全可分离、模块化的问题,而是明确地将这两种类型的输入映射到一个共享的高维向量空间。通过对比目标对文本-图像对进行训练,CLIP学会了将语言描述与视觉内容联系起来,并在一系列新的分类任务上实现了令人印象深刻的零样本性能[124]。研究人员进一步将视觉-语言模型嵌入到模拟的3D环境中,并扩展其功能,使其能够根据语言指令或问题作出反应,从而产生了能够学习复杂语言、视觉和行动信息组合以最大化奖励的多模态智能体[125,126]。在驱动与人类概念知识、多样感知信息和环境目标对齐的任务上训练神经符号模型,可能就足以使其内部表征具有丰富的具身性。


到目前为止,我们通过回顾大型语言模型、基于向量的概念模型和向量符号架构(VSA)等特定模型的成功案例,重点讨论了基于向量的概念模型的优点。我们认为这些模型尤其有前景,因为它们能够容纳概念的多种属性,如典型性梯度、关系知识、程序性知识、定义、组合性等。然而,重要的是要指出这些模型的不足之处,同时记住它们每一个都相对较新。

首先,目前没有模型能够完全捕捉人类概念能力的全貌。即使是最先进的语言模型在处理概念的重要方面(如因果推理[98]、组合性[19]和类比[99])时仍然很吃力。此外,这类模型往往表现出意外的性能,在看似简单的任务上表现糟糕,但在同一任务的微小变体上却表现出奇的好[100]。

其次,这些模型经常因缺乏生物合理性而受到批评。向量元素应该在大脑的哪个层面(例如,突触层面、神经元层面、脑区层面、活动模式等)与大脑活动相对应,以及在哪个尺度上(例如,在脑区内、整个大脑内或其他)对应,目前尚不清楚。现有模型没有考虑神经生物学的细微差别,如不同的神经元类型、电路类型、脑区或分子机制等。同样不清楚的是,这些模型是否合理地反映了人类在发展过程中的学习过程。现代连接主义架构目前使用极大量的数据、许多训练迭代和反向传播来进行模型学习,所有这些都被认为在生物学上是不现实的。

第三,需要开展工作来理解已经使用概念的各种方法如何能够整合。例如,许多向量符号模型依赖于随机性,但随机向量并不能轻易编码语言模型或多维尺度分析(MDS)中词汇概念所需的几何关系。张量积和向量符号架构因在组合概念时无法捕捉适当的相似性结构而受到批评,这包括关注组合中角色和填充物之间的关系[101,102]。一个可能的解决方案是,让人用概念向量执行的每一项任务(语言、相似性判断、组合等)都在共享概念向量的任务特定投影上工作,但整合不同基于向量的方法的技术方面是未来工作的一个关键方向。

这些局限性清楚地表明,在指定完整概念模型的实现细节方面仍有大量工作要做。显然,这些模型在当前形式下都不是完整的解决方案。重要的是这些模型所展示的高级思想:高维、分布式向量具有正确的构建块,并且具有正确的计算动力学,它们可能能够实现我们对概念的所有期望。


结语

我们提出,向量是人们使用概念的广泛方式中最有前景的表征基质。基于向量的模型比其他能够进行任意计算的系统更合理,因为它们能够合理地捕捉神经活动,这正如认知科学的连接主义方法长期以来所主张的那样[9,24,103]。现代向量模型将并行和分布式表示与Church编码相结合,以有效地表示任何领域、结构或过程。

我们强调了向量符号架构和大型语言模型是向量基表示如何捕捉人类思维中组合性和结构重要部分的两个最新例子。然而,将这些方法联系起来仍然是一个重要的挑战(见未解决的问题)。经过训练以预测语言的循环神经网络(RNN)可能会自发地实现一些基于向量(特别是张量积编码)的计算架构的属性,包括绑定操作[104]。如果是这样,这将代表一种重要的新兴方式,即利用将结构编码到神经网络中的理论来理解语言建模中学习的表示。发现包括语言模型在内的不同学习框架如何对概念角色进行Church编码(如果它们确实这样做的话)是正在进行工作的一个重要方向。

前面回顾的工作代表了一个令人兴奋的契合点,即心理学中一个长期存在的实验项目已经发现了人类概念的关键属性,而计算建模工作已经展示了这些属性如何可能在一种表示中实现。远非不可接近和神秘莫测,现在可能是时候得出结论,我们终于对人类概念是如何工作的有所了解(也许了解了很多)。



Code:超图表征学习综述,大量软件库


具身模型表型表征语义 全景图2024.5.11



https://colala.berkeley.edu/papers/piantadosi2024why.pdf



CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
 最新文章