脑机接口基础理论5:如何选择一个合适的大脑神经元信号降维方法?

文摘   科技   2024-07-23 21:40   上海  

导读当我们拥有一个超大规模维度的神经元数据时,我们怎么样选择一个合适的降维方法来找到里面的潜在变量和相关联系,和找出大脑信息的编码机制本文给出一些简要的建议和方法。

本文总结:

  • 降维方法分类:基于协方差算法,时间序列算法,非线性降维算法。

  • 协方差算法PCA: 通常应用于试验平均的(在某些情况下,时间平滑的)尖峰计数,其中平均值提前去除了大部分尖峰变异性. 在这个场景下捕获最大的方差可能是可取的。

  • 时间序列方法隐马尔可夫模型(HMM):返回低维的潜在神经轨迹,这些轨迹捕捉每个高维时间序列中跨神经元的共享变异性。这个方法适用于单次实验。

  • 非线性降维方法Isomap和局部线性嵌入(LLE): 数据可能位于高维空间中的低维非线性流形上, 几种非线性方法使用局部邻域来估计流形的结构


  • 降维数据预处理:1)应确保神经元之间的协变不是由于琐碎的(即非生物学的); 2)通常应排除发放率低的神经元(例如,每秒不到一个尖峰)

  • 分析高维数据时的潜在陷阱: 来自二维或三维空间的直觉可能在高维空间中不成立。

  • 降维实际应用步骤:1)数据预处理;2)估算降维维度和选择模型;3)将高维信号用低维轨迹表示。


以下科普内容来自Nature neuroscience文章:

  • 如何选择降维方法

正如前一节所示脑机接口基础理论3:如何简化复杂大脑信号?大规模神经元信号降维应用举例,有许多降维方法,每种方法在保留和丢弃的统计结构上有所不同。尽管许多方法在深层次上有相似之处,但与任何统计技术一样,选择的方法可能对科学解释有重大影响。因此,并且因为在系统神经科学中降维的使用相对较新,接下来的两节旨在向新用户介绍这些方法,帮助现有用户选择和解释方法,并描述每种选择的潜在陷阱。我们描述了最常用于神经活动的降维方法(表1),并为其适当使用提供指导。尽管以下描述主要集中在尖峰列车(spike trains)的电记录上,这些方法同样适用于光学成像中的荧光测量以及其他类型的神经信号。

  • 基本协方差方法

主成分分析(PCA)和因子分析(FA)是两种最基本和最常用的降维方法。为了说明,考虑D=2个神经元和K=1个潜变量的情况(图4a)。我们首先形成高维的原始或处理后的尖峰计数(例如,试验平均)向量。每个数据向量对应于图4a中的一个点。PCA识别出一组有序的正交方向,捕获数据中最大的方差。最大方差的方向记为s1。正交的s2轴(未显示)是捕获最小方差的方向。然后,数据可以投影到s1轴上,形成一个一维数据集,该数据集最好地保留了数据的协方差(图4a)。

尽管在某些场景下捕获最大的方差可能是可取的,但有一个警告,即PCA识别出的低维空间捕获了所有类型的方差,包括发放率的变异性和尖峰变异性。因为尖峰变异性可能掩盖潜变量的解释,PCA通常应用于试验平均的(在某些情况下,时间平滑的)尖峰计数,其中平均值提前去除了大部分尖峰变异性。如果希望分析原始尖峰计数,FA可以更好地分离发放率变化和尖峰变异性。FA识别出一个低维空间,保留跨神经元共享的方差(被认为是发放率变异性),同时丢弃每个神经元独立的方差(被认为是尖峰变异性)。

图四a:PCA维方法举例。

  • 时间序列方法

如果数据形成时间序列,可以利用数据的顺序特性提供进一步的去噪并表征群体活动的时间动态。尽管为多神经元尖峰列车定制的时间序列方法有许多重要发展(参见参考文献62-67),我们重点介绍了一部分在无监督情况下识别低维结构的方法(即,部分或全部神经活动预测因子未直接观察到的情况)。

有几种适用于时间序列的降维方法:隐马尔可夫模型(HMM)、内核平滑后跟随静态降维方法、高斯过程因子分析(GPFA)、潜在线性动力系统(LDS)和潜在非线性动力系统(NLDS)。所有这些方法返回低维的潜在神经轨迹,这些轨迹捕捉每个高维时间序列中跨神经元的共享变异性。HMM应用于被认为群体活动在离散状态之间跳跃的设置,而所有其他方法识别随时间平滑变化的发放率(平滑度由数据决定)。一种表征跨神经元群体试验平均反应的常见方法是跨试验平均并时间平滑每个神经元的反应,然后应用PCA。这为每个实验条件产生一个神经轨迹,便于跨条件比较群体活动。相反,HMM、GPFA、LDS和NLDS通常应用于单次试验群体活动。这产生单次试验的神经轨迹,便于跨试验比较群体活动,并提供一个低维动力模型,表征群体活动如何随时间演变。这些方法特别适用于单次试验群体活动,因为它们具有显式噪声模型(类似于FA)。

图五: HMM:隐马尔可夫模型状态变迁图(例子)x — 隐含状态, y — 可观察的输出, a — 转换概率(transition probabilities)和b — 输出概率(output probabilities。(Wikipedoa)

作为一个警示性说明,在解释神经轨迹时,重要的是要理解从高维群体活动中提取它们的步骤和假设。对于具有显式动态模型的方法,其参数首先适合一组(训练)试验。然后,通过在动态模型和噪声(测试)数据之间进行统计权衡,可以提取低维轨迹。因此,一个特定的低维轨迹可能反映了动态模型和数据的结合。例如,GPFA中的动态模型是静态的,鼓励轨迹平滑,而LDS和NLDS中的动态模型通常是非静态的,鼓励轨迹遵循特定的动态模式。基于这一原因,我们推荐首先采用简单的方法,例如对平滑的、试验平均数据应用PCA,或对单次试验数据应用GPFA,这可以指导选择一个有方向性的动态模型,如LDS或NLDS。在所有情况下,提取的轨迹应谨慎解释,考虑到动态模型所鼓励的结构类型。

如果希望得到仅是数据投影的轨迹(不需要与动态模型进行统计权衡),可以使用正交投影(类似于PCA)在使用涉及动态模型的方法识别低维空间后,提取低维轨迹。然后,提取的轨迹只是数据的投影,没有受到动态模型的限制,但这种权衡是放弃了由动态模型提供的轨迹去噪。这种方法是为了研究神经群体动态的旋转结构而开发的。

  • 带有因变量的方法

在许多实验环境中,高维发放率空间中的每个数据点都有一个或多个相关的因变量标签。这些因变量可能对应于实验参数(例如,刺激身份)、被试的行为(例如,决策身份)或时间索引。降维的一个可能目标是将数据投影,使得这些因变量的差异得到保留,这与前面描述的所有方法不同,后者是以无监督的方式发现群体活动中的结构。如果每个数据点属于G组中的一组(例如,实验条件),则可以使用线性判别分析(LDA)找到一个低维投影,使G组得到很好的分离。LDA识别出一组有序的G-1方向,使得组间方差相对于组内方差最大化。考虑一个有D=2个神经元和G=2组的例子(图4b,上部)。当数据点投影到s1轴时,两组很好地分离开了。

图4 两个神经元(D=2)的PCA、LDA和混合降维的概念图示。(a)PCA找到捕捉数据中最大方差的方向(s1轴),通过投影到s1轴(底部)显示。(b)LDA找到最能分离两组点的方向(s1轴)。可以在投影到s1轴(底部)中看到分离。(c)混合降维(使用参考文献16中描述的方法)找到解释点颜色方差的方向(s1轴,顶部)和解释点大小方差的正交方向(s2轴,未显示)。可以在投影到s1轴(底部)中看到颜色的组织结构。请注意,这些图示是使用相同的数据点(点)创建的,不同方法的使用(利用不同的数据特征,如组成员关系(b)或颜色和大小(c))产生了不同的s1方向和不同的投影。

图四b-c: LDA和Dmixed维方法举例。

如果每个数据点有多个因变量(例如,刺激身份和决策身份),可能希望“去混”不同因变量的效果,使每个投影轴(即潜变量)捕捉单个因变量的方差。这通常有助于通过赋予投影轴外部可测量变量的意义来定位用户在低维空间中的位置。神经科学文献中使用了三种密切相关的方法,我们统称为混合降维:线性回归的变体、协方差差异法和概率扩展法。考虑一个有D=2个神经元和每个数据点有两个属性(点大小和点颜色)的例子(图4c)。将混合降维应用于这些数据产生了方向s1,它最优地解释了点颜色的方差,和解释点大小方差的正交方向s2(未显示)。当数据点投影到s1时,可以看到颜色的组织结构。通过投影到正交的s2轴,可以看到类似的大小组织结构。请注意,这两个属性沿正交轴变化(图4c),尽管在真实数据中不一定如此。从方法上讲,当因变量取连续值(而不是几个离散值)时,应使用线性回归的变体,而当因变量的值没有明显排序(例如,不同的刺激类别)时,应使用协方差差异法

  • 非线性降维方法

到目前为止介绍的大多数方法都定义了潜变量和观测变量之间的线性关系(图4)。通常,数据可能位于高维空间中的低维非线性流形上。根据非线性的形式,线性方法可能需要比数据的实际维数更多的潜变量。识别非线性流形的两种最突出的方法是Isomap和局部线性嵌入(LLE)。与线性方法一样,非线性方法产生的低维嵌入也应谨慎解释。几种非线性方法使用局部邻域来估计流形的结构。由于群体响应通常不会均匀地探索高维空间(随着神经元数量的增加,这个问题呈指数增长),局部邻域可能仅包含同一轨迹上时间相邻的点。因此,轨迹之间的差异在低维嵌入中可能会被放大,应相应地进行解释。为了获得高维空间的更均匀采样,有必要大幅增加标准任务范式的丰富性和多样性(例如,呈现的刺激或引发的行为)。此外,非线性降维方法在存在噪声的情况下通常很脆弱,这限制了它们在单次试验群体分析中的使用。这些警告表明,对于大多数分析,线性降维是一个合理的起点。在进行非线性方法之前,应该确保高维空间的采样足够密集,以便局部邻域涉及不同轨迹(或实验条件)的数据点,并且在单次试验分析的情况下,非线性方法对神经元的类似泊松发放变异性具有鲁棒性。

图五: isomap应用举例

  • 实际应用

根据所提出的科学问题,首先应使用上述指南选择适当的降维方法。然后,可以执行必要的数据预处理(例如,取尖峰计数,跨试验平均和/或时间平滑),并将所选方法应用于群体活动。这一步骤包括找到潜在维数,估计模型参数(如果适用),并将高维数据投影到低维空间中(见脑机接口基础理论3:如何简化复杂大脑信号?大规模神经元信号降维应用举例)。这将产生群体活动的低维表示。本节提供了数据预处理、估计和解释潜在维数、运行所选降维方法以及可视化低维投影的实际指南。我们指出了特定于群体活动分析的注意事项和潜在陷阱,以及与高维数据分析相关的一般陷阱。

  • 数据预处理

数据应预处理以确保降维输入合理。存在一些典型的陷阱。首先,应确保神经元之间的协变不是由于琐碎的(即非生物学的)原因,否则可能严重混淆任何降维方法。例子包括电极之间的电耦合,这会导致神经元之间产生正相关,以及将单个神经元的响应人为地拆分为两个(无论是由于光学记录中神经元的接近还是电极记录中的尖峰分类),这会导致神经元之间产生负相关。其次,通常应排除发放率低的神经元(例如,每秒不到一个尖峰),因为任何神经元的几乎零方差可能会导致某些方法的数值不稳定性。第三,对于PCA,可以考虑标准化(即z评分)每个神经元的活动,因为PCA可能会被具有最高调制深度的神经元主导。对于大多数其他降维方法,这不太成问题,因为潜变量对每个神经元活动的尺度不变。考虑到这些因素,可以通过取分箱尖峰计数、跨试验平均和/或时间核平滑来预处理数据。

  • 估计和解释维数

许多降维方法需要为低维投影选择维数(K)。维数可以看作是群体活动在高维发放率空间中探索的方向数(见脑机接口基础理论3:如何简化复杂大脑信号?大规模神经元信号降维应用举例)。在科学上,维数是群体活动复杂性的衡量标准,可能暗示了潜在的电路机制。例如,低维度可能表明只有少数共同驱动因素负责群体活动。另一方面,更高的维数可能为下游神经元从记录的群体中读取信息提供优势。

最基本的估计维数的方法是选择一个低维投影解释的方差的截止值,并选择K使得超过该截止值。鉴于截止值通常是任意的,交叉验证可能更受欢迎,用以确定多少维度可以泛化解释留出的数据。对于概率方法(例如FA、GPFA、LDS和NLDS),可以确定使交叉验证数据似然最大化的维数。或者,对于所有线性方法和某些非线性方法,可以计算交叉验证的留神经元预测误差来代替数据似然。另一种方法是评估线性分类器可以实现的二元分类数。总体而言,估计的维数可能受到估计方法的选择、包含的神经元数量、实验设置的丰富性和给定数据集中的数据点数量的影响。

这些考虑表明,关于维数的陈述最好是相对的,而不是绝对的

  • 计算时间

尽管对每种方法的计算时间进行详细分析超出了本文的范围,但我们将讨论一些经验法则。对于线性方法,有两个步骤:估计模型参数,然后将数据投影到低维空间。对于估计模型参数,使用单一矩阵分解的方法(例如PCA和LDA)往往比使用迭代算法(例如期望最大化)或子空间识别方法(例如FA、GPFA、LDS和NLDS)更快。涉及动态模型的方法(例如GPFA、LDS和NLDS)通常需要比不涉及动态模型的方法(例如FA)更多的计算。相对于估计模型参数,将数据投影到低维空间的第二步对于所有线性方法来说通常都很快。为了估计潜在维数,交叉验证通常计算量很大,因为它需要对模型参数进行m×n次拟合,其中m是交叉验证折数,n是候选潜在维数的数量。随着记录的神经元数量不断增加,计算效率将在神经科学中的降维使用中变得越来越重要

  • 分析高维数据时的潜在陷阱

在分析多变量数据时,重要的是要记住,来自二维或三维空间的直觉可能在高维空间中不成立。例如,可以问两个不同的低维空间在高维空间中是否有相似的方向,通过比较高维空间中向量之间的角度来评估。随着维数的增加,两个随机选择的向量将变得越来越正交。因此,正交性的评估应该相对于角度的随机分布进行,而不是来自低维空间的直观预期。另一个例子是,LDA分离两类训练数据的能力随着数据维数的增加而提高(对于固定数量的数据点)。在足够高的维数下,任何固定数量的数据点都可以被任意好地分离。

脑界漫游指南
一个探讨类脑计算与脑机接口技术的科普知识圈,让您深入了解前沿科技,带您踏上一段奇妙的智能之旅,探索脑科技的未来!