TPAMI 2024 | 多视角张量谱聚类通过协同正则化

文摘   2024-10-27 19:00   辽宁  

点击下方“计算机书童”卡片,每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

Multiview Tensor Spectral Clustering via Co-Regularization

多视角张量谱聚类通过协同正则化

Hongmin Cai; Yu Wang; Fei Qi; Zhuoyao Wang; Yiu-ming Cheung


摘要

基于图的多视角聚类将多视角数据编码为样本的亲和性,以寻找共识表示,有效克服了不同视角之间的异质性。然而,传统的亲和性度量随着特征维度的扩大而趋于崩溃,这给估计揭示跨视角和内部关系的统一对齐带来了挑战。为了解决这一挑战,我们提出通过共识表示的协同正则化来实现多视角统一聚类。首先,通过流行的二元亲和性和最近的高阶亲和性来编码样本亲和性,以全面描述HDLSS数据的空间分布。其次,通过协同正则化来对齐多视角低维表示,学习融合共识表示。融合表示的学习在流形空间中通过高阶特征值问题建模,以保持原始数据的内在联系和互补相关性。通过流形最小化设计的数值方案可有效解决高阶特征值问题。在八个HDLSS数据集上的实验表明,与最新的13种基准方法相比,我们提出的方法是有效的。

关键词

  • 高阶亲和性

  • 聚类

  • 融合亲和性

  • 流形优化

  • 张量

  • 谱图

I. 引言

聚类是无监督学习中的一个关键主题。聚类的目标是将未标记的数据划分为不同的子组。传统的聚类方法已经得到了广泛的研究,并在生物信息学、计算机视觉等领域得到了广泛应用。在现实世界的场景中,多视角数据的普遍采用是由来自不同来源或多个特征提取器的数据获取驱动的。因此,如何无缝整合异质数据成为了多视角聚类领域的重点。

近年来,研究人员提出了不同的策略来整合不同视角中的互补相关性,旨在提高聚类性能。一种直观的方法是直接将不同视角的数据连接为向量,随后将传统的单视角方法应用于连接的数据。然而,这种方式忽略了多视角数据之间的异质性和尺度差异。基于图的多视角聚类方法被提出来对齐亲和图以实现统一表示。直观上,异质多视角数据的协调可以通过采用相同尺度的亲和性来实现,从而减少不同视角之间的差异。为了实现多视角聚类,需要对多个视角的图进行联合分析,以提取共识和互补相关性。

HDLSS(高维低样本量)数据的聚类性能受到集中效应(也称为“维度灾难”)的阻碍。在高维特征空间中,成对距离的崩溃给依赖于成对亲和性的聚类算法带来了巨大挑战,阻碍了准确聚类的实现。



为了解决从多视角数据,特别是HDLSS数据中提取共识相关性和准确揭示关系的关键问题,我们提出了通过张量谱嵌入上的流形对齐的协同正则化多视角聚类(CRMATS)方法。我们的方法提供了一个统一的多视角聚类框架,通过引入多阶亲和性来准确描述视角内部样本关系。每个视角的低维表示在流形空间上协同正则化,旨在最小化测地距离并实现对齐。

本文的主要贡献总结如下:

  1. 为了精确揭示HDLSS数据的视角内部空间相关性,采用了高阶亲和性的引入,促进了复杂样本交互的捕捉,有效消除了每个视角内的集中效应。

  2. 为了有效整合具有异质相关性的多视角数据,采用了协同正则化学习和流形约束来对齐各自的低维表示,有效利用了HDLSS数据的跨视角空间互补性。

  3. 为了提高计算效率,利用基于奇异值分解的方法解决了流形空间上的二次问题。

II. 多视角张量谱聚类的背景

符号

本文中,我们使用粗体书法、全大写字母和小写字母分别表示张量、矩阵和向量,即。对于矩阵,第列表示为的迹表示为表示单位矩阵。的Frobenius范数的平方表示为。Khatri-Rao和Kronecker乘积分别表示为。对于三阶张量,我们将的第个前切片表示为

A. 基于张量的多视角聚类方法

基于张量的聚类技术通过张量利用多视角数据的高阶表示,从而在执行聚类分析之前阐明视角之间的复杂关系。在此过程中,大多数早期的工作依赖于张量分解技术。例如,Yu等人将原始数据堆叠成张量,并应用基于张量的分解以获取捕获高阶关系的因子矩阵。类似地,Nie等人提出了一种通过张量分解的协同聚类方法,以学习低秩逼近来发现高阶关系。沿着这种思路,Guo等人利用张量对数Schatten-范数来获得更紧凑的低秩结构,从而探索互补信息并描述多个视角之间的高阶相关性。与此同时,Ji等人采用张量分解生成一致和互补的张量,同时优化张量秩的逼近,以探索一致张量中的高阶一致性。类似地,Li等人将成对的亲和性堆叠成张量,并使用超图诱导正则化进行张量分解,使其能够学习一致的表示,从而保持高阶相关性并提高性能。
上述方法要求确保数据关系可以通过成对亲和性准确描述,这在HDLSS(高维低样本量)数据中很难成立。此外,利用张量来表示视角之间的高阶信息并没有充分利用样本之间的高阶关系。

B. 重新审视经典的谱聚类

谱聚类是一种经典的方法,它利用二元亲和性从原始数据中学习一个最优的低维嵌入,以用于聚类。给定一个数据矩阵,其中是样本数,是特征维度,谱聚类的目标是通过将聚类问题重新表述为图切割的最小成本问题,将这个样本划分为个子组。该方法的关键步骤是通过计算二元亲和性矩阵来构建相似性图。具体地,元素计算为,其中是成对度量。度矩阵的第个对角元素表示为。然后,Laplacian矩阵定义为:
谱聚类通过最小化以下目标模型来寻求低维嵌入:
公式(1)可以通过求解Laplacian矩阵的主特征向量等效地解决,因此退化为标准的特征值问题。此外,该公式还可以视为图切割中最大划分问题的一个表述,如文献[28]所述。或者,可以定义一个归一化的二元亲和性矩阵。谱聚类也可以流行地表达为一个最大化问题:
然后,可以对获得的嵌入执行类似于k-means的聚类任务。

C. 张量谱聚类

模型(2)的核心是最大化聚类内的亲和性,从而在图切割后保持每个子图的体积。在我们之前的工作[22]中,我们引入了一种归一化亲和熵测量,它可以有效地使用任意数量的样本来评估亲和性的体积。
定义1:总归一化相似度:令为属于数据集的样本组,为一个阶相似度张量。中样本的总归一化相似度定义如下:
其中,表示归一化的阶亲和性张量。令样本被划分为组,即,则结果聚类的归一化关联性(NAssoc)定义为:
其中,表示聚类的基数。
定义2:mode-乘积
一个阶张量与矩阵的mode-乘积,记为,其表达式为:
表示潜在表示,其中,如果,否则为零。
为了获得最优的样本分配,追求公式(4)中归一化关联性的最大化。这可以通过代数操作实现,从而将问题重新表述为如下形式:
由于最大归一化关联性问题是NP难问题,有必要使用松弛技术使问题更具可操作性。一种技术是将二元分配矩阵松弛为正交矩阵,其中。这种松弛减少了严格的二元分配要求,并将问题简化为:
其中,表示的第列。

D. 协同正则化多视角聚类

在多视角聚类中,学习共识表示是捕捉局部视角特定结构的常见方法。基于这一假设,协同正则化学习用于对齐不同视角的低维表示,减少噪声或错误的影响,并提高共识表示的质量。给定个样本、个特征和个视角的多视角数据,可以构造每个视角的相应亲和性并投影到低维空间以获得表示。相应的策略是对齐不同的低维表示并获得共识表示。这种对齐本质上是通过最小化流形上的测地距离来建立共识表示,测地距离的度量可以是:
基于这些原则,协同正则化学习过程可以表述为:
其中,是第个视角的成对亲和性。为了应对来自不同视角的噪声或错误的负面影响,引入了来控制退化视角的影响,从而得出了带有流形约束的最终协同正则化模型:
其中,用于衡量第个视角的权重。

III. 通过协同正则化实现多视角张量谱聚类

现有的多视角方法主要依赖于线性空间,导致它们在分析具有复杂结构的多维数据时表现不足。幸运的是,流形可以被概念化为嵌入在高维欧几里得空间中的低维光滑表面,从而提供了一种框架,使我们能够有效捕捉和理解高维数据中的复杂结构。沿着这一思路,Khan等人引入了基于流形的方法,有效捕捉复杂结构,从而显著提高了聚类性能。这些技术能够表示空间结构,使它们在分析HDLSS数据时特别有利。受这些基于流形的工作的启发,可以通过结合高阶亲和性来开发统一的张量聚类模型,从而减轻HDLSS数据中的集中效应。
为了增强HDLSS任务中低维表示的区分能力,我们施加了一个限制,将嵌入限制在流形空间上。本文中,为了展示我们框架在处理奇数阶和偶数阶亲和性方面的有效性,我们引入了三阶和四阶亲和性。因此,提出了一个结合高阶亲和性和流形约束的模型:
其中,为Stiefel流形,分别是三元和四元亲和性张量,用于量化样本三元组和四元组之间的相似度。

A. 基于张量谱嵌入的流形对齐协同正则化多视角聚类

通过整合多阶亲和性,公式(11)在流形空间上实现了低维表示。在此基础上,引入带有流形约束的协同正则化步骤,以处理HDLSS聚类中的集中效应并提取异质相关性。所提出方法的目标是通过结合公式(11)和(10),有效利用HDLSS数据中的跨视角相关性。提出了基于张量谱嵌入的流形对齐协同正则化多视角聚类(CRMATS)方法:
约束条件为:
其中,是张量亲和性的归一化展开形式,计算如下:
其中,是对角矩阵,其对角元素分别通过计算的列和的Khatri-Rao乘积的平方根获得。是一个对角矩阵,其对角线上的元素是每行和的平方根的倒数。矩阵是三阶和四阶亲和性张量的展开形式。张量亲和性定义为:
对于,其中表示样本之间的距离,为缩放常数。然而,公式(12)中的计算涉及高阶多项式函数,可能导致数值困难。为了解决这个问题,加入松弛变量来近似公式(12)中的项。此外,我们引入来平衡亲和性项和协同正则化项。最终模型可以表示为:
约束条件为:
公式(16)旨在融合多种亲和性,以产生对噪声和集中效应具有鲁棒性的共识表示。然后,通过应用谱聚类来完成聚类任务,最终获得聚类分配。

B. 求解CRMATS的数值方案

为了解决CRMATS问题,采用了一种高效的交替方向最小化策略。使用增广拉格朗日方法,公式(16)的对应函数定义如下:
其中,是拉格朗日乘子,为惩罚参数。我们的目标是通过将划分为几个子问题来最小化它。我们通过交替考虑以下变量并在保持其他变量不变的情况下解决每个变量。

第一步:求解与变量相关的子问题

当保留相关项时,公式(17)可以表示为:
在公式(18)中,我们遇到了一个二次项和一个一阶项。通过结合流形约束,(18)可以简化为每个视角内的二次优化问题。为了解决这个问题,我们引入了一个通用的Stiefel流形。每个视角的二次项和一阶项分别表示为
其中,是一个对称矩阵。为了解决问题,可以将其松弛为:
其中。参数是一个任意常数,使得为正定矩阵。通过对应的偏导数可以得到上述问题的闭式解:
然后我们有以下公式:
其中,。显然,由于,因此。这样,当矩阵时,达到最大值。因此,的最优解为:
算法 1提供了流形上二次优化算法的简洁描述。关于其收敛性的详细分析,我们参考在线提供的补充材料A部分。一旦我们为子问题导出了目标函数,就可以使用算法1来获得的解。由于我们在流形上施加了正交约束,可微函数的梯度可以表示为:
其中。因此,公式(18)中的梯度为:
公式(24)和算法 1可以通过迭代更新

第二步:求解与变量相关的子问题

忽略与无关的项,增广拉格朗日函数可以简化为:
目标函数的梯度为:
通过将梯度设为零,并且为对称矩阵且其对角线元素不为零,可以获得如下隐式解:

第三步:求解与潜在表示相关的子问题

当保留与相关的项时,得到以下子问题:
公式(28)实际上是一个具有特定核的标准k-means问题。通过对该特定矩阵进行特征值分解,可以获得

第四步:求解与相关的子问题

通过定义,并结合Cauchy-Schwarz不等式,的最优解可以表示为:

第五步:更新乘子

它们的公式如下:
其中,表示当前迭代次数。
这五个步骤将迭代更新,直到收敛或满足停止准则:
算法2详细列出了CRMATS求解过程的完整概述,是深入理解该方法论的宝贵参考。CRMATS的收敛性证明在在线补充材料的A部分中进行了详细阐述。

IV. 实验

在本节中,我们对八个HDLSS数据集进行了全面的实验研究,以展示CRMATS的有效性。所有实验均在安装了Intel 2.30-GHz CPU的64位Windows操作系统PC上,使用Matlab 2020a实现。

A. 比较数据集和方法

为了验证我们方法的有效性,实验中使用了八个数据集,包括六个真实数据集和两个HDLSS合成数据集:Syndata1和Syndata2。Syndata1包含120个样本,分为两类,每类包含60个样本。每个样本从三个视角描述。为了验证我们方法在HDLSS数据上的鲁棒性,我们扩展了维度和视角数量,并减少了Syndata1上的样本量,生成Syndata2。具体来说,Syndata2包含90个样本,分为三类,每个样本从四个视角描述。每个合成数据子类都是从均值为2、标准差为0.5的独立同分布正态分布中生成的。
此外,我们在六个公共基准数据集上评估了CRMATS的有效性,包括Coil-20[40]、MSRC_v1[41]、Yale[42]、BBCSport[43]、3Sources[44]和Reuters[44]。为了展示我们方法在HDLSS数据集上的有效性,我们随机从这些数据集中选择样本进行实验。数据集的更多详细信息如表I所示,我们的方法与其他多视角聚类方法进行了比较。比较方法的详细信息如下:
  1. 可扩展多视角子空间聚类 (SMSC) [45] 在锚学习后构建潜在图。
  2. 纯图引导的多视角子空间聚类 (PGSC) [46] 通过利用每个亲和图的稀疏性和连通性来学习共识图。
  3. 鲁棒多视角谱聚类 (RMSC) [12] 考虑到矩阵的低秩性和稀疏性,在分解后学习通用图。
  4. 基于低秩张量的近似学习 (LTBPL) [42] 执行概率亲和性以恢复低秩性和高阶相关性。
  5. 通过低秩对称亲和图的多视角子空间聚类 (LSGMC) [44] 在视角之间追求一致的低秩结构。
  6. 图学习中的多样性度量:结构化多视角聚类的统一框架 (CDMGC) [47] 在一个统一的框架中利用了多视角的一致性和多样性。
  7. 多视角聚类的协同正则化核k-means (Co-reg) [39] 结合不同视角的相似性和潜在表示进行聚类。
  8. 通过协同训练鲁棒表示的多视角聚类 (CoMSC) [48] 寻找共识矩阵和互补信息。
  9. 高效的多视角图聚类 (EMGC) [49] 通过超级节点相似度最小化模块找到一致的聚类指标矩阵。
  10. 拓扑流形上的多视角聚类 (MVCT) [50] 将多个亲和图整合为具有拓扑相关性的共识图。
  11. 解耦的多视角聚类的张量方法 (T-UMC) [51] 通过耦合表示矩阵探索高阶关系。
  12. 通过增强的张量核范数的多视角子空间聚类 (WTSNM) [52] 研究了Schatten 范数以解决最小化问题。
  13. 具有增强张量秩的高阶互补多视角聚类 (HCETR) [26] 采用张量秩来寻找高阶一致性。

B. 聚类性能

聚类性能使用一些常用的度量进行评估,包括准确率(ACC)、归一化互信息(NMI)、纯度和F分数[32]。较大的值表示较优的性能。因此,最佳结果以粗体显示。考虑到聚类问题并未包括数据中存在的组的数量,我们进一步使用Calinski-Harabasz指数(CHI)来评估聚类结果的质量。CHI通过评估类间方差与类内方差的比率来衡量聚类结果的紧凑性和分离性[53]。较高的CHI值表示更好的聚类结果。在我们的评估中,使用五个度量进行综合评估,每个度量代表聚类结果的特定属性。表II和表III展示了我们的方法与其他多视角聚类方法在八个基准数据集上的聚类性能。此外,我们还报告了每个数据集的真实标签与特征之间的CHI值。为确保稳健性,每个算法重复20次以获得均值。然后,我们使用Student's t检验测试结果的统计显著性,p值以括号表示。

1. 在合成数据集上的实验

实验旨在评估我们方法在Syndata1和Syndata2上的稳定性,结果总结在表II和表III中。值得注意的是,我们的方法在Syndata1上的NMI表现显著优于其他方法。具体来说,与Co-reg、CoMSC、LTBPL、LSGMC、MVCT、T-UMC、WTSNM和HCETR相比,我们观察到NMI的改善分别为37.95%、41.34%、58.90%、67.53%、23.37%、42.26%、47.04%和21.67%。对于表III中的结果,CRMATS的结果与真实标签对齐,表现出2.13的稳定值。关于Syndata2,我们的方法比Co-reg、CoMSC、LTBPL、LSGMC、MVCT、T-UMC、WTSNM和HCETR的表现分别提高了73.42%、66.89%、22.23%、63.25%、18.63%、33.54%、52.09%和36.19%。此时,表III中的评价结果为1.86,超越了其他对比方法的结果。
为了评估共识表示的区分能力,我们使用t-SNE将潜在表示投影到二维空间进行可视化。选择Syndata2作为代表合成场景,该数据集具有最高维度。在使用t-SNE可视化原始数据视角时(图2(a)-(d)),可以明显看出,Syndata2中的大多数样本混合在一起,缺乏清晰的分离。相反,我们的方法通过共识表示成功分离了子类别,没有任何重叠(图2(e))。为了进一步验证CRMATS的有效性,我们对相似性热图进行了分析,以评估组间的差异。在图2(f)-(i)中,原始样本的亲和性热图没有清晰的边界和块结构。然而,图2(j)显示,应用CRMATS后低维嵌入的亲和性清晰地显示出边界,表明该方法能够缓解潜在的偏差。结果表明,与传统的成对亲和性、低秩性和基于张量的方法相比,融合不同阶亲和性在充分捕捉合成数据结构方面具有更好的表现。

2. 在真实数据集上的实验

为了进一步验证CRMATS在真实场景中的有效性,我们评估了其在多个基准数据集上的性能,包括Coil-20、Yale、MSRC_v1、BBCSport、3Sources和Reuters。详细信息和相应结果如表I、II和III所示。在Coil-20数据集上,与LTBPL、LSGMC、MVCT、CoMSC、Co-reg、T-UMC、WTSNM和HCETR相比,CRMATS的表现显著更优,NMI聚类结果分别超出29.12%、21.27%、82.64%、63.11%、8.94%、25.56%、58.76%和39.59%。同样地,在Yale数据集上,CRMATS的表现比Co-reg、CoMSC、LTBPL、LSGMC、MVCT、T-UMC、WTSNM和HCETR分别提高了15.99%、39.47%、22.20%、19.96%、28.60%、12.23%、2.30%和20.11%。与其他替代方法如SMSC、RMSC、PGSC、CDMGC和EMGC2F相比,CRMATS的性能也明显更高,分别超出32.39%、1.58%、77.91%、18.66%和17.31%。此外,CRMATS在BBCSport、MSRC_v1、3Sources和Reuters上也表现出色。特别是在MSRC_v1数据集上,CRMATS的NMI结果达到93.90%,是第二佳表现者。此外,CRMATS在BBCSport上的NMI结果达到了100.00%,超越了T-UMC的82.81%。对于3Sources数据集,CRMATS的NMI结果为87.46%,比第二佳方法T-UMC高出16.18%。同样地,在Reuters数据集中,CRMATS的NMI结果为77.38%,比第二佳方法EMGC2F高出11.39%。表III展示了CRMATS与对比方法在数据集上的CHI结果。值得注意的是,在BBCSport数据集中,CRMATS的结果与真实标签完全一致。在Coil-20、Yale、MSRC_v1、3Sources和Reuters数据集中,分别得到了349.00、58.37、12.87、9.52和4.40的CHI结果。这些结果为CRMATS在其余对比数据集上的出色表现提供了强有力的证据,进一步验证了表II中的趋势。
为了直观展示我们方法在Coil-20上的有效性,我们通过t-SNE展示了原始数据和共识表示的空间分布。此外,图4展示了通过我们方法学习到的相应热图和共识表示。这些可视化结果为我们方法的优越性提供了有力的支持。在基于成对亲和性的可视化中(图3(a)-(c)),大多数样本混杂在一起,难以准确区分不同的子组。然而,我们的方法生成了具有更好分离度和更少重叠的共识表示,从而提高了聚类性能。
通过对亲和性热图的比较,进一步验证了我们方法的有效性。在Coil-20数据集中,原始样本的每个视角的亲和性热图(图4(a)-(c))显示出模糊的边界,缺乏清晰的块结构。然而,在应用我们的方法并从共识表示生成亲和性矩阵后,边界变得清晰。这一点在共识表示的t-SNE可视化中得到了支持,其中大多数样本与其对应的子类别正确聚类,且在热图的对角线上观察到明显的块(图3(d)和4(d))。
总的来说,CRMATS在所有真实数据集上的聚类表现优越,如表II和III所示。此外,我们对CRMATS中的视角随机性和资源消耗进行了分析,详见在线补充材料的B部分和C部分。
基于实验结果,CRMATS在处理HDLSS数据方面展示了若干优势。首先,我们的方法有效利用了高阶和低阶亲和性,全面捕捉了HDLSS数据的空间结构。其次,我们的协同正则化方法通过在流形空间上学习共识图并结合跨视角相关性,避免了次优的聚类结果。最后,通过在流形空间上学习共识表示,我们考虑了原始数据样本之间的复杂联系,从而提高了聚类性能。

C. 收敛性分析

为了求解优化问题,提出了一种交替最小化算法。关于CRMATS的收敛性,我们在在线补充材料的A部分提供了相应的理论证明。在本小节中,我们对具有不同背景的基准数据集的目标值进行了比较,以消除随机性,并清楚地展示在图5中。我们展示了50个周期的目标值。在前5次迭代中,每个基准数据集的目标值急剧下降,之后随着更多迭代的进行保持稳定,表明CRMATS在几次迭代后稳步收敛。CRMATS的快速收敛归因于交替最小化算法,它分别更新每个变量。此外,通过结合协同正则化技术并在流形空间上利用高阶亲和性,我们提出的方法能够有效捕捉数据的内在结构。因此,我们的方法表现出快速收敛性,突显了其在优化多视角HDLSS聚类问题中的有效性。

D. 超参数敏感性分析

我们研究了超参数集对聚类性能(以NMI为度量)的影响,结果如图6所示。注意,公式(16)包含两部分:亲和性项和协同正则化项。我们分别为每部分设置超参数,分别表示为。我们使用超参数组合,并在四个基准数据集上评估性能。
根据图6,在某些情况下,聚类性能受的影响。例如,Syndata1和Yale的NMI(图6(a)和(c))随着的降低而下降。此外,随着的增加,NMI变化不大。虽然CRMATS的性能随不同组合而变化,如图6(b)和(d)所示,CRMATS在基准数据集上仍优于对比方法,表明我们模型的稳定性。此外,图6中展示的结果为CRMATS在超参数选择上的鲁棒性提供了经验依据。我们的方法在多个数据集上在不同的设置下始终优于对比方法,表明其对特定超参数选择的不敏感性及其在广泛的超参数值范围内实现优良性能的能力。图6中展示的结果表明,CRMATS在多视角聚类任务中的有效性和鲁棒性,进一步验证了该方法的实用性和多功能性。

E. 消融分析

在本小节中,我们对提出的CRMATS方法进行了消融研究,以调查不同阶亲和性及其组合所发挥的作用。为了评估多阶亲和性的意义,进行了以下消融研究。首先,移除使方法退化为传统的Co-reg方法。该变体称为CRMATS-L2。随后,每个高阶亲和性单独应用,分别生成方法CRMATS-L3和CRMATS-L4。在多亲和性情况下,我们将成对组合。例如,CRMATS-L23是的组合。每种消融方法的聚类性能使用与前面实验相同的基准数据集和度量进行评估。
图7展示的实验结果表明,在多视角聚类任务中,结合多阶亲和性的重要性和有效性。首先,我们的方法在以下数据集上实现了最佳性能,表明其在捕捉数据底层结构方面的有效性。其次,单亲和性实验表明高阶亲和性(CRMATS-L3、CRMATS-L4)补充了传统成对亲和性的固有信息。例如,在Syndata1和BBC数据集上,CRMATS-L3的表现优于CRMATS-L2。最后,二阶、三阶和四阶亲和性的融合在性能上明显优于任何两阶融合(例如CRMATS-L23、CRMATS-L24、CRMATS-L34)。这一观察表明,每个亲和性阶数的加入有助于内部信息的增强,从而带来渐进的改进。

V. 结论

在本文中,我们提出了一个统一的多视角聚类框架,该框架通过引入多阶亲和性准确描述视角内部样本关系,在流形空间上对视角的潜在表示进行对齐。通过采用交替最小化策略和奇异值分解,提高了CRMATS的效率。此外,提出了一组新的评估指标,以全面评估CRMATS在捕捉数据底层结构方面的性能,随后在聚类任务中考虑类内相似性和类间差异性。实验结果表明,CRMATS在八个HDLSS数据集上相较于其他流行方法具有显著的有效性。
尽管我们的方法有效解决了高维数据聚类中的集中效应,并在基准数据集上超越了若干基线方法,但仍存在潜在的改进方向。首先,我们通过高阶亲和性提高HDLSS聚类结果的策略在计算上需要更多的时间和内存成本。此外,现有的高阶亲和性方法在处理复杂的图数据时仍然有限。为了解决这些限制,我们考虑引入深度图神经网络进行高维学习。深度神经网络可以利用GPU计算单元来减少每个小批次的内存成本。此外,图神经网络使我们能够从高维数据中提取更多潜在的高阶相关性。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 计算机书童 小编


计算机书童
为大家分享计算机、机器人领域的顶会顶刊论文
 最新文章