AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

科技   2024-12-22 23:03   北京  

©PaperWeekly 原创 · 作者 | 黄新磊

单位 | 大湾区大学信息科学与技术学院

研究方向 | 空间多组学,图学习


本文提出了一个新的空间多组学解析框架,PRAGA,通过构建动态图结构和基于贝叶斯高斯混合模型的动态原型对比学习,实现在无人工标注和测序点类型数量先验的场景下对空间多模态组学数据的综合编码解析,并在五个空间多组学数据集上展现出最优的定性和定量结果。

论文题目:

PRAGA: Prototype-aware Graph Adaptive Aggregation for Spatial Multi-modal Omics Analysis

论文链接:

https://arxiv.org/abs/2409.12728

代码链接:

https://github.com/Xubin-s-Lab/PRAGA

论文录用:

The 39th Annual AAAI Conference on Artificial Intelligence (AAAI 2025)



引言

空间分辨转录组学被《Nature》杂志评为 “Method of the Year”。这一技术将单细胞基因表达水平与其空间位置相结合,从而揭示不同细胞类型在复杂组织中的空间异质性。

最近,研究人员将视角进一步扩展到空间多模态组学,旨在综合考虑不同层次的组学信息,全面解析基因调控与微环境之间的关系,并结合空间信息深入理解复杂组织。


空间多模态组学面临的一个主要挑战是如何将不同模态的组学特征与相应的空间信息有效地编码到一个统一的潜在空间中。目前,已有方法主要通过构建 K 近邻(KNN)图来建模测序点之间的特征与空间位置的相关性,并通过图神经网络(GNN)生成一致的综合表示。

然而,这样构建的模型仍存在一些不可忽视的问题。从技术角度来说,当前的单细胞测序技术不可避免地引入了由生物学变异及其他不可控因素造成的扰动,这些扰动可能会掩盖一些关键的语义关系,导致 KNN 图对测序点间相关性的不完全建模。

为了解决这一问题,作者提出了一种组学特定的动态图架构,通过学习跨模态的知识来去除扰动噪声,从而揭示更多潜在语义关系。


此外,实际应用中,测序点的注释和类型数量通常是未知的。这导致模型难以学习到测序点类别相关的知识。为了解决这一问题,作者提出了一种基于贝叶斯高斯混合模型的动态原型对比学习方法。

受益于贝叶斯高斯混合模型在开放贝叶斯环境中对聚类数的自适应能力,作者提出的动态原型对比学习可以自适应地感知细胞类型的数量,并优化可学习的图架构,进一步揭示测序点之间的潜在相关性。


总体来说,本文提出了一种新颖的空间多组学解析框架——PRototype-Aware Graph Adaptive Aggregation(PRAGA)。PRAGA 通过学习自适应的组学图来建模空间邻域以及测序点之间的潜在语义关系。
此外,本文还提出了一种动态原型对比学习方法,使得模型对测序点类别数量表现出鲁棒性。大量的定性和定量实验结果表明,PRAGA 显著优于现有最先进方法。本文的主要贡献总结如下:
  • 提出了一个新颖的空间多模态组学解析框架 PRAGA,用于聚合多模态组学数据及其对应的空间位置信息。
  • 关注 KNN 无法捕捉的潜在语义关系,提出了动态组学图结构来学习这些语义关系。
  • 提出了可学习的空间聚合图结构,能够自适应地聚合特征和空间信息,从而获得组学特定的编码。
  • 考虑到实际场景中常常缺乏生物学先验,提出了动态原型对比学习方法,通过自适应地感知测序点类型数量来优化模型。



方法
2.1 模型架构
对于输入的包含 M 个模态的组学数据,作者首先在每个模态内部构建一个模态特异的可学习图结构来建模测序点间的语义相关性。为了保证图结构的初始稀疏性和对潜在语义关系的捕获能力,模态特异图 由 K 临近图(K-Nearest Neighbor)进行初始化,并在训练过程中迭代更新:

其中 F 表示测序点特征,A 表示由 K-临近算法构建的邻接矩阵,下标 m 表示模态索引。


进一步地,作者将测序点的空间坐标同样进行 K 临近图建模,并设置可学习权重来融合模态特异图和空间信息,获得空间聚合图:
其中 是可学习参数, 表示基于测序点空间坐标构建的 K-临近图的邻接矩阵。


对于每个模态,作者使用一层图卷积网络做为编码器,基于模态特征 F 和空间聚合图进行模态特异编码:

其中 表示图编码器中的可学习参数矩阵。


在获得所有模态(例如 RNA,ADT,ATAC)的模态特异编码后,作者拼接所有模态特异编码,并使用一个多层感知机实现综合编码:

2.2 模型训练

该模型由三个损失进行训练:重建损失,同质性损失和动态原型对比学习损失。

1)重建损失

为了在综合编码中尽可能保留每个模态的信息,作者使用一层图卷积网络作为解码器,基于空间 K-临近图对综合编码进行解码,重建每个模态的特征。重建损失被计算为原模态特征与重建特征的均方误差:
其中 表示每个模态的重建损失权重,作者在附录中验证了 PRAGA 在不同的模态重建损失权重的组合下的性能变化以及对重建损失权重取值的不敏感性。

2)同质性损失

由于邻接图结构的剧烈变化会增加训练过程的不稳定性,作者利用指数移动平均(Exponential Moving Average)构建一个参考图

其中下标 e 表示训练轮数, 为控制指数移动平均速度的超参数。基于参考图 ,作者使用 F 范数构建同质性损失来约束可学习图结构的变化程度:

3)动态原型对比学习损失

为了克服人工标注缺失和测序点类别数量未知对模型优化的阻碍,作者利用贝叶斯高斯混合模型构建动态原型对比学习损失。

对于综合表示 Z,作者首先设定一个初始聚类数量 C(实验证明 PRAGA 对 C 的取值并不敏感,因此仅需要一个大致的预估值即可),利用高斯混合模型将 Z 分成 C 个簇。其中第 c 个簇的均值和样本数量定义为 。作者将每个簇再次尝试划分成两个子簇,并用分割标准判定该簇是否需要被分割成两个子簇:
其中 为伽马函数,L() 是以 Normal Inverse Wishart(NIW)分布为先验的边界似然函数,v 和 k 为 NIW 的超参数。若簇的分割标准大于 1,则该簇被进一步分割成两个子簇,每个簇至多只进行一次分割。

相似地,作者依据合并标准来判定两个簇(簇 i 和簇 j )是否需要合并:
若两个簇的合并标准大于 1,则将两个簇进行合并,每个簇至多只进行一次合并。在分割和合并操作完成后,作者计算所有簇的均值作为原型开展对比学习:



实验

3.1 定性实验

作者首先在缺乏人工标注的小鼠脾脏(SPOTS)和胸腺组织(CITE)数据集上开展定性实验,可以观察到对比最先进的空间多组学解析方法 SpatialGlue,作者提出的 PRAGA 整合的同类测序点在全局上呈现出更紧密的分布。

3.2 定量实验

作者在人类淋巴结数据集,小鼠脑部组织数据和模拟三组学数据集上进行定量验证。实验结果表明 PRAGA 的性能显著优于基线方法。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
 最新文章