撰文│刘 琦
编辑│毕紫娟 陈莉
审校│汤红明
适应性免疫系统是人体防御机制中至关重要的一环,解析T淋巴细胞的功能对于疾病诊治具有重要启示。随着单细胞转录组及TCR配对测序技术的发展,研究者得以从多模态视角深入解析T细胞对病原体和重大疾病(如肿瘤)的复杂应答机制。如何整合免疫细胞的多模态组学数据并对免疫系统进行数字化解码,是该领域的重要科学问题。
针对单细胞转录组和TCR配对数据,已有的多模态分析方法提供了更为全面的T细胞和TCR克隆型视图。然而,当前研究尚无为免疫系统全景化解析提供系统和可扩展的分析框架。同时,单细胞转录组和TCR配对测序的数据低质性也为免疫细胞多模态整合带来了巨大挑战。因此,领域内亟待开发普适、有效的计算模型,对多模态场景下的免疫组学数据进行有效整合和表征,以一种统一的视角来解决诸多免疫数字解码相关的下游任务。
T细胞转录组和TCR配对测序通常存在测序样本稀缺、数据模态缺失、数据噪音大等低质数据特点,为其有效整合和解析带来巨大挑战。面向上述挑战,UniTCR通过创新性地设计了双模态对比学习模块(Contrastive learning module)和单模态信息保持模块(Modality preservation module),从而在低质数据场景下,巧妙地将TCR序列与基因表达谱嵌入至同一隐空间,同时保留各自的模态属性。其中,双模态对比学习模块通过将TCR序列和基因表达谱进行隐空间嵌入,生成融合了基因表达信息的TCR嵌入表征并融合了TCR信息的表达谱嵌入表征。而单模态信息保持模块则可以在训练的过程中保持各单一模态内部的模态属性,有效地防止了低质数据场景下的过拟合,提升了模型在数据低质场景下的泛化性能,从而可以实现低质数据场景下的TCR序列和基因表达谱的有效整合和表征,进而面向免疫数字解码的多个相关下游任务提出了一个统一、可拓展的AI解析策略。
研究团队将UniTCR应用于四种典型的免疫数字解码场景:
▶单模态分析:在保持各模态内在属性的前提下,UniTCR分别将TCR序列信息整合至基因表达谱表征中,并将基因表达谱信息整合至TCR序列表征中,从而生成新的嵌入表征。研究结果表明,相较于基于传统的单一模态数据分析(例如基于T细胞转录组分析及基于TCR序列的分析),UniTCR生成的嵌入表征可以用于识别更加精细尺度下的T细胞亚群和TCR克隆型,这些细胞亚群和克隆型均无法通过单一模态进行有效识别,从而进一步揭示了免疫细胞的功能异质性。
综上所述,UniTCR提出了一种低质跨模态场景下的免疫组学有效整合和表征的AI框架,以赋能诸多免疫数字解码相关的下游任务分析,为从多组学、多模态视角系统理解免疫系统的复杂性和异质性提供了一个统一的AI解析策略。
刘琦教授课题组长期致力于组学数据的AI智能解析和精准干预,进行数据驱动的精准医学研究和转化。该论文第一作者是同济大学高溢骋、董科竟博士,通信作者是刘琦教授和严钢教授。项目受到国家自然科学基金,上海市人工智能专项基金及国家重点研发计划BT&IT专项资助。
《医学参考报》干细胞与再生医学专刊
感谢大家的支持!
扫码关注
【20】全球干细胞临床研究现状与展望
【21】医疗机构加强干细胞临床研究风险防控的策略探讨
征稿链接
相关链接