追问快读:ChatGPT 理解语言的方式和人类一样吗?卷积神经网络和人脑视觉系统的表征有哪些类似之处?不同信息处理系统之间的差异要如何定量刻画?
本文介绍了表征对齐这个跨越认知科学、神经科学、机器学习的通用框架,并尝试从表征对齐这个角度探讨人工智能和生物智能之间的差异。文章主要介绍了表征对齐是什么,表征对齐的具体步骤,表征对齐所面临的主要技术问题,以及表征对齐的重要性。
以人工神经网络为核心框架的第三代人工智能(AI)浪潮席卷整个社会:从 Alexnet、AlphaGo、AlphaFold 到 ChatGPT,自动驾驶出租车,能生成图像或视频的平台,科技巨头追捧的大语言模型...... 对科学界来说,一个最直观的体验可能是今年的诺贝尔物理学奖和化学奖都颁给了人工智能方向,涉及到 Science for AI 和 AI for Science 这两个热门方向。
在人工智能的另一面,人类对生物智能(Natural Intelligence)的探索也从未停歇。我们该如何理解“人会思考”这件事?大脑如何学习新知识?我们如何让自己在学习里有更好的表现?为什么我们能够轻易地做到世界上最先进机器人都不能完成的精细动作?
这篇文章将从表征对齐(Representational Alignment)这个方向探讨人工智能和生物智能的一些差异。我们该如何理解这两种不同的信息处理系统(Information-Processing System)如何接受和处理外部刺激,然后去执行各种任务呢?人工神经网络和生物大脑之间是以同种方式处理或加工信息吗?比如,同样是识别人脸,人和人脸识别软件处理人脸图像的机制一样吗?同样是阅读文章,人和ChatGPT对语言的处理是一样的吗?更广义而言,这里两种信息处理系统可以是两个不同的人,两个不同的人工神经网络,或者是其他执行同样任务的计算模型。
这篇文章将整理部分文章对这些问题进行简述,案例则大多来源于视觉相关研究,所以只能作为一个简单的引子,如果想要更详细探索的老师同学,欢迎直接参阅参考文献。
目录
01 表征是什么?以视觉表征为例
02 表征对齐是什么?一个跨认知科学、神经科学、机器学习的通用框架
a. 表征对齐的具体步骤及重要元素
b. 从案例了解具体步骤
c. 表征对齐面临的三个技术问题
03 为什么关心表征对齐?
a. 一些相关问题
b. 从维度视角来看表征为什么重要
c. 柏拉图表征
d. 通用维度
04 结语
表征是什么?以视觉表征为例
信息处理系统在处理外部刺激的时候,会根据任务需求的不同采取相应的策略来抽象数据形成内在表征,系统接着根据其内在表征做出相应的行为来完成任务。例如,对于人脑的视觉系统,在完成图像分类、物体识别等各种视觉任务时,从初级视觉区到高级视觉区,对视觉刺激的神经编码也会出现逐渐抽象化的表现,初级视觉区是对图像的初级信息(如边界探测、空间信息)的表征,而高级视觉区会更多地反映图像的语义信息,和物体识别等功能更相关[1-3]。
了解计算机视觉的朋友会发现,人工神经网络尤其是卷积神经网络(Convolutional Neural Network, CNN)在视觉任务中有类似的处理机制(这也是受了人脑初级视觉系统的启发)[4]。卷积神经网络的前层大部分是通过卷积操作来完成类似于边界探测的功能,进而对图像的初级信息进行表征,而后层则会出现一些更抽象和难以理解的表征(见图1)。这时候,自然而然会出现一个问题,当我们直观上了解卷积神经网络和人脑视觉系统的表征有类似之处,该如何用定量方法去衡量这种相似程度呢?这就是属于表征对齐大框架下的相关工作。
接下来让我们详细介绍一下表征对齐大框架下的基本步骤,然后提供一个相对更广义的人工神经网络(含不同架构,不同训练任务,以及在不同的训练集训练)与人脑视觉系统对比的案例。
▷图1: 人工神经网络对图像的表征的一个案例。我们可以发现其第一层的表征具有可解释性,可以明显看到猫的轮廓之类的图像,而在第十层则会变得更加难以解释。其中前层的功能是和如V1之类的初级视觉区类似。图源:What Is ChatGPT Doing … and Why Does It Work?—Stephen Wolfram Writings
表征对齐是什么?跨认知科学、
神经科学、机器学习的通用框架
a. 表征对齐的具体步骤及重要元素[5]
▷图2:表征对齐的基本步骤和挑战。无论讨论认知科学、神经科学还是机器学习下的表征对齐,大体脱不了这个抽象框架。其中每个实箭头所对应的函数都代表一种统计上的可能操作和选择,虚箭头指向的是表征对齐所面临的技术问题。图源[5]。
(1)对齐所使用的数据(Data)。对于任何外部刺激(Stimuli),我们可以通过采样其中有限个点来形成子集作为数据去做对齐。比如,对于无限的像素组合,我们可以在其中选取一些与研究问题相关的图像集合。
(2)对齐所选取的系统(System)。当系统接收到对齐使用的数据,其会相应地对数据产生内在表征(Internal Representation)。比如,将图像输入某类人工神经网络中或展示给实验人员后,神经网络整体上对图像的响应,人脑视觉皮层对图像的内在表征。
(3)对系统内在表征的测度(Measurements)。我们需要打开系统对其内在表征进行测度。比如,人工神经网络单独一层的激活,用核磁共振(functional Magnetic Resonance Imaging, fMRI)去衡量视觉皮层的响应。或者我们直接希望人工神经网络或实验人员基于图像做出行为决策*[6-7]。
(4)从测度变成嵌入(Embeddings)。进行测度后,我们还需要将其投射于高维连续矢量空间以形成嵌入,这些嵌入可能会有更高的信噪比,或者因为一些工程问题我们需要进行这份操作(比如计算资源有限的时候需要进行降维)来进行对齐的工作。比如,对人工神经网络的激活或脑数据进行降维,将离散的分类数据通过算法映射到高维矢量;
(5)用来衡量嵌入之间对齐度所选取的对齐函数(Alignment Function)。将得到的嵌入通过对齐函数进行对比,得到相关数值。比如,在机器学习领域常用的 CKA(Centered Kernel Analysis)去衡量模型表征的相似度[8]。
b. 从案例了解具体步骤(见图3)
在研究[9]中,研究者发现,猕猴的初级视觉区的神经活动能够被卷积神经网络的前层更好地预测,而高级视觉区的活动则能够被后层预测;且相比于之前很多设计出来专门预测大脑表征的计算模型,自下而上训练出来只用来分类图像的模型对大脑表征的预测能力更好,可见图2。这个发现启发了后续很多相关工作,众多研究者试图寻找哪种神经网络或其他广义的计算模型能够产生更类脑的视觉表征(更高的brain score)[10]。
▷图3:同一张图像(玛丽居里)被输入进猕猴的视觉皮层以及卷积神经网络,我们可以发现层与层之间的表征对齐。神经网络中层的响应和中级视觉区V4的响应对齐度较高,神经网络后层的响应与高级视觉区IT的响应对齐度较高。图源[18]
在研究[11]中,研究者比较了超过200个不同的视觉神经网络。这里,让我们回顾具体步骤来理解这项研究:
(1)广义的外部刺激是视觉刺激,数据涵盖1000张从公开数据集 NSD(Natural Scene Dataset)中被所有实验人员看到的图像[12]。
(2)对于人工神经网络这个系统,我们使用不同模型所对应的预处理图像,然后将其输入形成表征;对于实验人员的人脑,NSD 的研究人员在核磁共振的环境下向实验人员去展示和学习图像,只让他们做一个简单的实验任务:你在之前是否看到过这一图像?每个实验人员都会三次看到同样的图像。
(3)研究者将人工神经网络所有层的激活都当成模型表征的测度,将NSD中fMRI(功能核磁共振)所测量的代表高级视觉区的 OTC(Occipitotemporal Cortex)的反应对图像去做人脑表征的测度。
(4)考虑到计算资源和不同层神经网络的维度可能有所差异,研究者使用稀疏随机投影(Sparse Random Projection)让每层的激活都投射到同一维度上形成模型对图像表征的嵌入[13]。对人脑 OTC 则是将三次不同试验的 fMRI 数据进行平均来当嵌入,这时候的数据不会取决于具体的试验情况而更能反映 OTC 对图像本身的表征。
(5)研究者选取了两种不同的对齐函数去确保其计算的表征对齐度不受制于某种对齐函数的特性,具体的统计处理细节欢迎大家参照原文[14-17]。最后展示的对齐度是基于人工神经网络单独层对 OTC 的最优对齐的那个数值。
最后,研究者发现,不管框架或者训练任务的不同,其与人脑的视觉表征都会有相对一致的对齐度,神经网络训练所使用的图像集对表征对齐度产生影响,详细结论请参照原文[11]。
▷图4:A. OTC人脑所在区域;B. 选取的模型类型,在模型训练集(Diet)、 架构(Architecture)以及训练任务(Task)上有变化;C. 研究所使用的对齐函数以及选取的图像刺激案例。图源为[11]
c. 表征对齐所面临的三个技术问题
在了解表征对齐的基本步骤后,我们将表征对齐所要面对的挑战分为三类(见图2):
(1)测量(Measuring)。主要问题在于如何选取对齐函数来计算表征对齐的数值。有关对齐函数之间的对比可见[5, 19]。比如说,我们可以通过设计争议性刺激(Controlversial Stimuli)去生成能最大化区分不同模型的图像,而不是随机选取自然图像来作为对齐所使用的数据,因此形成更强的对齐数指标来区分模型[20]。
(2)桥接(Bridging)。主要问题在于如何将不同系统的表征空间投射到同一空间中。一个具体案例是在[21]中,研究者试图通过超对齐(Hyperalignment)寻找不同人之间视觉表征的共同编码(common code)。
(3)提升(Increasing)。主要问题在于如何通过约束或改变系统的表征,让其与另一个系统的对齐程度提升。相关案例是,机器学习研究者训练学生网络(Student Network),使其表征更加接近规模更大、训练成本更高、性能也更好的老师网络(Teacher Network)[22-24]。
为什么关心表征对齐?
a. 一些相关问题
在基本了解表征对齐做什么以后,读者可能会进一步追问,这又意味着什么呢?表征对齐值的高低意味着什么呢?从一些具体问题来讲:
(1)表征对齐值背后的信息含义是什么?其特征是否具有重要含义?
反例:大语言模型(Large Language Model, LLM)能够很好地预测人类对语言处理的神经编码表征,但同样的话我们可以只用类似于句子长度或句子位置这些琐碎的特征,就可以解释大模型语言表征对人脑语言表征的大部分预测效果[25]。这种情况下,表征对齐值哪怕很高却也没能提供很多有趣的信息。
中例:当我们回顾表征对齐的五个步骤时,会发现有许多需要选择操作的地方,数据该如何选取,通过什么样的实验流程将数据输入系统,以什么方式去测量系统的内在表征,选择怎样的嵌入方式,最后又是怎样的对齐函数,都存在很多操作空间。研究者应该意识到对结果的解读都应该建立在这些操作上,因为操作方式可能存在极大的差异,对不同研究结果进行对比时需要谨慎。
正例:在图像处理中,神经网络的前层可以与低级视觉区对齐,而后层可以与高级视觉区对齐。对于这个结果,也有许多相关的迁移应用,比如在考虑高阶视觉功能如识别社会交互的时候,会把神经网络的前层作为一个变量去除视觉低阶表征的影响[26],或者将神经网络的后层作为高阶表征,用来表示自上而下(top-down)的视觉信号来替代预测编码(Predictive Processing)的影响[27]。
(2)我们能够通过计算出神经网络之间的表征对齐值来识别不同的神经系统吗?如果我们发现A网络的表征更接近于B网络而非C网络,我们可以断定B网络的性质(如结构)会和A网络更趋同吗?
结果:不能。如果区分都做不到的话,为什么研究者期待通过表征对齐值能够对神经系统的内在性质有很好的解读呢?[28]
(3)如果相较于其他神经网络,一个神经网络对图像的表征更接近人脑对图像的表征,我们应该期望这个神经网络具有什么样的性质呢?
反例:无论架构、训练任务和模型表现有多么不同,当我们比较超过200个视觉任务下的神经网络,其与大脑的表征对齐程度是一致的。因此,我们很难断定与脑的表征对齐程度对模型本身的理解有什么帮助[11]。
正例:从神经正则化(Neural Regularization)的角度出发,会有很多相关研究,比如具有更类脑表征的神经网络会展现出更强的鲁棒性(Robustness)[29-30];
希望上述的一些案例能够让读者认识到,我们需要对表征对齐的结果有审慎的解读,不过分迷信但也关注潜在应用。接下来会具体从维度视角讨论表征本身为什么重要,以及简述一些表征对齐的案例。
b. 从维度视角来看表征为什么重要
关于表征为什么重要的讨论相关文献汗牛充栋,比如在[31]中,我们可以问表征是否依赖具体的坐标系统,此处只提供一个很窄的视角——维度(Dimensionality)[32],案例也多聚焦于视觉的脑神经编码。
从维度视角出发,表征的意义大致可以分为两类,(1)表征维度的统计结构,例如高阶认知是否需要通过高维表征如混合编码(Mixture Selectivity)来实现[33-35];(2)表征维度的可解释性,例如能否通过独立成分分析(Indepdent Component Analysis, ICA)去理解哪些特征构成了表征。
我们可以从“视觉皮层对图像刺激的表征是高维的还是低维的”这个具体问题出发,来理解这两层意义。图5中简单地说明了维度对视觉表征意味着什么。
▷图5:A. 示意图,脑的神经编码如何表征不同的自然图像;B. 示意简化图,当表征空间是二维的时候,左图意味着我们需要两个维度去表征自然图像,右图意味着我们只需要一个维度去表征自然图像。图源:https://slides.com/raj-magesh/scale-free-visual-cortex/
在这一问题下,其中一个比较基本的统计方法是主成分分析(Principal Component Analysis, PCA)。
如果视觉皮层的神经编码(Neural Code)每个维度都编码单个特征,其效率(Efficiency)是最高的。当我们对此类表征进行主成分分析的时候,会发现其特征谱(Eigenspectrum)往往是条平线,这表示我们需要所有的维度来去解释表征空间的方差(Variance),便意味着高维度(见图6右)。而对于低维的神经编码,当我们对其表征进行主成分分析的时候,特征谱的方差会很快下降然后趋近于或者变成0(见图6左)。
当我们解读视觉皮层对自然图像的表征时,会发现其往往是一条方差逐步下降趋近于0的曲线,许多研究常用的方法是选取前面少量最重要的维度,一般来说可能选取数量不多于10个,也有部分研究会选几十个,去宣称视觉皮层对图像的信息表征就在这些维度里面。而做可解释的研究人员会试图解释这些主成分维度,认为前几个主成分维度的图像可能是脸部特征、食物或者活物,这些可能是对脑神经编码最重要的信息。
▷图6:左图是低维的神经编码的特征谱,右图为高维的神经编码的特征谱。y轴代表的是维度所能解释的数据方差,x轴代表的是按方差排序从高到低的隐性维度。图源:https://slides.com/raj-magesh/scale-free-visual-cortex/
那为什么依然有不少研究者认为视觉神经编码表征(当其特征谱是逐渐下降的曲线时)是高维的呢?虽然视觉神经编码表征的特征谱不是条平坦的线,但如果我们将特征谱放入对数刻度(log-log scale)中,会发现幂律(Power Law)出现了。这意味着虽然后续的维度对表征方差的解释极低,但其似乎不能被当成噪声来处理。
在研究[36]中,研究者宣称这种符合幂律的高维表征,是因为表征也需要平滑性(Smoothness)这个约束(平滑性能够保证,当我们对系统输入进行小扰动时,系统输出不会出现剧烈变化。比如,我们会希望在处理两张极为相似的猫的图片时,大脑形成的内在表征不会有很大差异)而不能仅仅只追求高效率。甚至他们在小鼠钙信号的分析中,宣称幂律这条线的斜率都具有一定确定性,因为其刚好满足效率和平滑性的最佳平衡。有一些人工神经网络的研究也受到了这一发现的影响,在训练中增加了表征呈现幂律特征的约束,但其如何影响神经网络的性能还存在争议[37]。
在研究[38]中,研究者进一步发展了上述研究所使用的统计手段(不是传统的PCA, 关于计算方法的教程可见[39]),其在一定程度上在做PCA的同时能确保噪声维度的可解释方差(Explained Variance)为0。研究者通过计算同一实验人员跨实验或者不同实验人员共有神经编码信息的特征谱,发现视觉皮层的高维表征是一个不局限于具体试验或者具体实验人员的通用属性(见图7),且在人的不同脑区保持一致。
在后续研究中,当研究者用同样的方法分析小鼠的数据,同样的幂律会在两种不同的神经信号测量方法(核磁共振和钙成像)都存在。当研究者进一步采取粗粒化手段去缩放神经信号的空间尺度,发现这种高维表征依旧存在[40]。这时候,如果我们再试图讨论维度的可解释性对于更高的维度来说,似乎便很难找到明确的意义了。当然,哪怕同样是支持视觉表征是高维且符合幂律的学者,其中也有不少争议[41]。
▷图2.RETFound基础模型的开发和评估示意图。阶段1:使用来自MEH-MIDAS的CFP和OCT图像以及公共数据集,通过SSL构建RETFound。阶段2:通过内部和外部评估的监督学习使RETFound适应下游任务。图源:论文。
综上所述,从维度角度出发,表征的重要性可以体现成两方面:(1)从统计结构出发,表征是高维的还是低维的,其特殊性质可以反映信息处理系统的机制,例如:脑对视觉刺激的高维表征是需要在效率和平滑性得到平衡,另外更高维的人工神经网络表征可以得益于其更高的效率和表达性(Expressivity),因此对脑表征的预测以及新任务学习有所助益[42];(2)从可解释性(Interpretability)出发,我们可以理解不同的特征对信息处理系统的重要性,例如,人在识别物体的时候形成的表征能被物体是否为活物(animate or not)及其尺寸大小来解释[43]。
此处,我们可以介绍两个有关表征的研究,似乎可以说明表征本身的性质在不同的系统下可能有很强的共通性,因此可能意味更有趣的性质。
c. 柏拉图表征[44]
论文简要内容如下:
(洞穴假说版本)随着规模的增长,无论架构、算法还是训练任务,神经网络(大语言模型、视觉神经网络等)的表征会趋于相似,且意味着更高的模型表现,似乎印证了洞穴假说中的理想表征;
(安娜卡列尼娜版本)好的神经网络表征都是相似的,而不好的神经网络表征各有各的不同。
在研究者发现这个现象的同时(当然这个现象本身是否有坚实的统计基础,欢迎感兴趣的朋友去进一步探索),研究者也简单地阐述了这种现象背后的可能成因。
(1)随着神经网络所需要执行的任务越来越多,也越来越困难,其参数所在的可选择空间也越来越小(见图8A);
(2)如果存在一个最优表征,规模越大参数越多的模型更容易找到这个表征,而不是陷入最优的局部解(见图8B);
(3)神经网络训练时的正则化会鼓励不同的神经网络在所有可能拟合数据的方式里找到相对简单的答案(见图8C)。
▷图8:随着规模增大能力增强,神经网络表征会逐渐对齐的原因猜想。A. 随着人工神经网络需要解决更多的任务,能适应这任务的可能表征范围在缩小。粉色椭圆代表能解决任务1的表征空间,绿色椭圆代表能解决任务2的表征空间,如果一个神经网络要同时解决两个任务,其表征空间只能在椭圆交界的地方;B. 如果最优表征空间存在的话,规模越大的神经网络能搜寻到的表征空间(黄色或绿色椭圆)更有可能找到最优表征的解(黑色五角星)而不是局部解(白色五角星);C. 正则化会让模型寻找拟合数据解的较简解。紫色四边形代表能解决人物的函数,蓝色椭圆代表函数要相对简单,正则化会希望找到的表征空间是其交界。图源为[44]。
d. 通用维度(Universal Dimension)[45]
研究者主要关注的是人工神经网络和人脑视觉皮层对自然图像刺激的表征对齐。给定一组人工神经网络的表征,我们可以将所有信息都拆分成不同的维度,接下来我们可以分析单个维度被这组内多少的神经网络共享,如果这个数量较高,我们可以认为这个维度是在很多的神经网络都存在的,或者可以被理解为通用性(Universality)较高。研究发现,人工神经网络表征维度的通用性和其与人脑视觉皮层的对齐度是正相关的(见图9)。
▷图9:人工神经网络表征中维度的通用性和其与对人脑视觉表征的对齐成正相关,从左到右是不同初始化、不同架构、不同任务以及未经训练的神经网络进行分析。图源为[45]
结语
这篇文章对表征对齐这个领域有个简要梳理,如果希望有更深入理解的欢迎直接阅读[5],读者也可以通过以下的问题清单去梳理自己所得:
表征对齐的基本步骤是什么?能否举出一个具体案例;
如果我们说两个系统的表征接近,可以说明这两个系统的其他内在性质(例如,对人工神经网络而言,其架构,任务目标和学习算法)会有更高的相似性吗?
当我们讨论表征的维度时,可能在讨论什么?
脑神经系统对自然图像的视觉表征是高维的还是低维的?
什么是柏拉图表征?其可能和脑表征的关联是什么?如果我们要质疑其结果的有效性,有哪些可能的方向?
关于追问nextquestion
天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。如果您有进一步想要讨论的内容,欢迎评论区留言,或添加小助手微信questionlab,加入社群与我们互动。
关于天桥脑科学研究院
天桥脑科学研究院(Tianqiao and Chrissy Chen Institute, TCCl)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。
TCCI与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了TCCI加州理工神经科学研究院。
TCCI建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括学术会议和交流、夏校培训、AI驱动科学大奖、科研型临床医生奖励计划、特殊病例社区、中文媒体追问等。