Nat. Commun. | 利用TE位点两侧邻近读数，MATES提高TE定量准确性

学术 2024-11-30 06:01 韩国

DRUGAI

今天为大家介绍的是来自加拿大麦吉尔大学Jun Ding团队的一篇论文。可转移元素（TEs）对遗传多样性和基因调控起着关键作用。当前的单细胞定量方法通常将多重比对的读数比对到“最佳比对”或“随机比对”位置，并在亚家族层面进行分类，忽略了对准确的、特定位点TE定量的生物学需求。此外，现有方法主要针对转录组数据设计，限制了它们在其他单细胞数据模式中的适应性。为了解决这些挑战，作者引入了MATES，这是一种深度学习方法，能够利用TE位点两侧的邻近读数比对上下文，精确地将多重比对的读数分配到特定的TE位点。当应用于各种单细胞组学数据时，MATES比现有方法表现出更好的性能，提高了TE定量的准确性，并有助于为特定细胞群体识别标志性TEs。这一发展为通过TE的视角探索单细胞异质性和基因调控提供了有效的转座子定量工具，适用于单细胞基因组学研究群体。

可转移元素（TEs），也被称为转座子或跳跃基因，构成哺乳动物基因组的重要组成部分，在基因调控、基因组进化和细胞间异质性中发挥着关键作用。虽然一些TEs仍然活跃并在我们的基因组中跳跃，但大多数已经积累了突变和退化，无法继续活跃转座。因此，许多TEs保留在基因组中，作为调控元件。这些非编码功能包括基因表达调控和长链非编码RNA（lncRNAs）的形成，而这些lncRNAs参与了影响基因表达和细胞功能的重要调控网络。尽管TEs在这些方面发挥着重要作用，但由于TEs具有重复序列和高拷贝数，导致多重比对的测序读数难以量化，因此我们对单细胞层面特定位点的TEs了解有限。

与整体测序相比，在单细胞基因组学中研究TEs对于理解它们的动态调控以及它们对细胞异质性的贡献非常重要。这种方法揭示了TEs复杂的表达模式及其对转录图谱的显著影响。TEs在不同细胞中的活性变化增加了基因调控和细胞动态的复杂性，这在正常发育和癌症等疾病状态中都至关重要。

最近，单细胞测序技术的进展扩大了分析范围，涵盖了多种模式，不再局限于传统的转录组学。这些进展使得在单个细胞中可以分析不同的细胞组分，例如表观基因组以及转录组。进一步的发展中，像10x Genomics的Multiome这样的单细胞多组学方法，甚至可以同时对同一细胞的转录组和表观基因组进行分析。这种双模式分析在有关单细胞多组学技术前沿和应用的综述中得到了重点介绍，展示了其对分子细胞生物学的重大影响，以及在单细胞水平解读复杂生物过程的潜力。尽管有这些进展，目前用于TE定量的方法主要是为单细胞转录组学设计的，在处理其他模式的数据时（如单细胞转座酶可接触染色质测序，scATAC-seq）存在局限。这些方法也缺乏对多组学数据集中TE的联合定量和分析的全面解决方案。因此，迫切需要能够准确比对多重比对TE读数，并在不同模式下进行位点级定量的方法，这凸显了单细胞基因组学和多组学研究中，特别是通过TE视角，所面临的挑战和机会。这些进展还必须扩展到非哺乳动物物种，在这些物种中，TE动态在理解更广泛的生物现象中发挥着关键作用。

模型部分

图 1

MATES是一种专门为单细胞数据集中不同模式下的TE位点级定量设计的工具。该方法涉及几个关键步骤。首先，将原始读数映射到参考基因组，识别出唯一映射到TE位点的读数（唯一读数）和映射到多个TE位点的读数（多重比对读数）（图1a）。接着，计算每个TE位点的覆盖向量，表示该位点周围唯一读数的分布（上下文）。然后将每个TE区域（位点）细分为长度为W（例如10个碱基对）的较小区间。根据区间内唯一和多重比对读数的百分比，将这些区间分类为唯一主导区（U）或多重主导区（M）（图1b）。具体的超参数选择请参见方法部分。

第三步，使用自动编码器（AE）模型来学习表示TE位点唯一读数覆盖向量的潜在嵌入（Vu），这指示了特定TE位点周围的比对上下文。模型还输入了TE家族的独热编码信息（Ti）。第四步，通过多层感知器回归器，使用学习到的潜在嵌入（Vu）和TE家族嵌入（Ti）来预测特定TE位点的多重比对比率（α）。模型的总损失由两个部分组成（L1和L2）。前者是自动编码器的重构损失，而后者反映了TE上相邻小区间之间实际读数覆盖的连续性。由于基因组的相邻性，处于多重主导区（M）的最终读数覆盖应接近其相邻的唯一主导区（U）。

最后，一旦训练了用于预测每个TE位点多重比对比率的模型，作者就可以利用它来计算落入特定TE位点的读数总数，提供TE位点级的概率定量（图1c）。通过将TE定量与单细胞数据中的常规基因定量（例如基因表达或基因可及性）结合，即文中所提到的“基因+TE表达”，可以更准确地对细胞进行聚类，并识别出综合的生物标志物（基因和TE），以表征得到的细胞群体（细胞亚群）。MATES凭借先进的功能，能够有效处理各种单细胞数据模式。它的应用提供了对TE在不同数据集中的作用、细胞聚类以及潜在TE生物标志物的深入见解（图1d）。

除了分析能力之外，MATES还提供了位点级TE可视化和解释功能。该工具支持生成全面的bigwig文件和互动基因组查看器（IGV）图，使研究人员能够直观地探索和解释TE位点在基因组中的读数分配情况（图1e）。这种能力解锁了TE与其位点附近基因之间潜在相互作用的研究，大大增强了我们对TE动态及其对基因调控和细胞功能影响的理解。

需要注意的是，除特别说明的情况外，本文中提到的“TE”是指通过RepeatMasker识别出的重复元件。这让作者可以在研究中提供对基因组重复序列的全面概览。在讨论“更严格”的TE定义时，已具体说明了包含哪些TE亚家族。

MATES在小鼠的10x单细胞RNA-seq数据中识别出2C样细胞及其特定位点

图 2

为了展示MATES在单细胞RNA-seq数据中对TE定量的精确性，作者将其应用于小鼠的10x单细胞化学重编程数据集中。通过这一分析，识别出了2C样细胞（2CLCs）的特征性TEs。通过使用MATES对TE表达进行定量，作者将TE计数矩阵与基因表达谱整合，进行了综合聚类和可视化分析，如图2a、b所示。研究揭示了一个独特的2CLCs亚群（聚类17），该亚群位于重编程的第II阶段和第III阶段之间。值得注意的是，MATES检测到了2CLCs群体，并识别出了它们的特征性基因标记，尤其是Zscan4d和Zscan4c，这些基因在过渡阶段的聚类中具有显著特征。此外，MATES还识别出特定的TE标记MERVL-int和MT2_Mm，这些标记在2CLC聚类中富集，进一步证实了先前研究将这些TEs视为2CLCs定义标记的结果。这些发现突显了MATES捕捉细胞群体及其重要生物标记（基因和TEs）的能力，提供了对重编程过程中细胞动态的深入理解。

接下来，作者进行了以TE为中心的分析，以进一步验证MATES在TE表达定量中对细胞聚类和生物标志物发现的独特作用（图2c、d）。在定量TE表达时，作者特别注意排除TE与其邻近基因之间的重叠区域，以防止基因表达数据的潜在信息泄露。这次以TE为中心的分析专注于TE表达，成功识别出2CLC细胞群体。此外，这一分析不仅确认了之前关于2CLC群体的发现，还再次验证了与之相关的TE标志物MERVL-int和MT2_Mm的相关性，如图2c、d所示。这表明作者的细胞聚类和生物标志物发现并不仅仅依赖于传统的基因表达分析。相反，MATES独立进行的TE定量提供了一致的细胞聚类结果，并准确识别出特定细胞群体的标志性TEs。

为了更清晰、定量地展示基于TE的聚类准确性，作者包括了混淆矩阵，并计算了调整兰德指数（ARI）和归一化互信息（NMI）分数，以突出TE定量分析与传统基因表达分析结果之间的相似性。仅基于TE表达的聚类结果与基于基因表达的结果进行了对比。主要聚类，例如代表SIII_D12和2CLCs的聚类1和聚类12，均被TE单独聚类有效捕获。这些TE聚类与基因表达聚类高度一致，ARI中位数为0.397（P < 1 × ）和NMI中位数为0.496（P < 1 × ），表明强烈的一致性。此外，通过专注于仅由多重比对读数驱动的TE表达聚类，MATES展示了其处理这些具有挑战性读数的能力，并精确识别出与特定发育阶段高度一致的标志物。

MATES不仅识别了2CLCs和不同重编程阶段细胞群体的特征基因和TE标记（图2e），还在将多重比对读数精确对准特定位点方面表现出色，这是当前方法面临的难题。例如，scTE只能将多重比对读数分配给亚基因（同一亚家族的TE），无法明确分配到特定基因组位点。而SoloTE虽然能在位点级别定量唯一比对到TE的读数，但它只保留多重比对读数的最佳比对结果，并在亚家族级别上进行定量。相比之下，MATES通过利用每个TE位点学习到的多重比对率（α），以概率方式将多重比对读数分配到基因组中的TE位点。通过这一策略，作者能够在位点级别精确定量TE表达，尤其是在分析2CLC细胞的多重比对读数时表现出色（图2f，g）。与MT2_Mm和MERVL-int相关的多重比对读数与基因Zscan4c和Zscan4d紧密对应，而与Zscan4c和Zscan4d位点紧密对齐的MT2_Mm和MERVL-int相关的总读数明显高于其他对照位点（图2g）。这种对应关系与Zhu等人发现的Zscan4c的激活与内源性逆转录病毒MT2_Mm/MERVL-int的激活之间的相关性一致。

需要注意的是，图g中以橙色高亮显示的基于唯一读数的位点定量代表SoloTE策略。该策略在位点级别处理唯一读数，而多重比对读数则在亚家族级别处理。因此，SoloTE在位点级别只使用了唯一读数，这可能导致无法捕捉到像Zscan4c和Zscan4d这样重要位点的读数，揭示了其潜在的局限性。此外，与通常用于现有方法的亚家族级别TE定量相比，位点特异的TE定量显著提高了聚类的准确性，这在图2h中得到了清晰展示，强调了精确的位点级TE定量的巨大优势。有关更多展示MATES在这10x单细胞RNA-seq数据中有效性的结果，请参见补充图S1。

MATES在人类胶质母细胞瘤的Smart-Seq2全长单细胞RNA-seq数据中定量了与疾病相关的TE表达

图 3

为了展示MATES的跨平台适用性，作者测试并将该工具应用于Smart-Seq2全长测序平台的另一个单细胞RNA-seq数据集，重点分析了一个人类胶质母细胞瘤数据集。通过结合MATES的TE表达定量与传统基因表达分析，作者能够准确定位胶质母细胞瘤微环境中的不同细胞群体，如UMAP图所示（图3a、b）。观察到某些TE的表达模式与重要的胶质瘤基因标记（如EGFR）和TE标记（如HUERS-P1-int和HERVK-int）相关联，同时还发现与免疫细胞基因标记（如CD74）及TE标记LTR2B相关的表达（图3b）。这些关联表明，TE可能与胶质母细胞瘤中的肿瘤异质性和免疫反应相关的过程有关。进一步研究有必要探索其中是否存在因果关系及其潜在机制。将基于TE的细胞分型与基因表达数据结合，揭示了基因与TE之间的详细相互作用。这一整合展示了TE为基础的聚类如何补充基因表达分析，从而提高了细胞异质性研究的分辨率。

为了进一步展示MATES的精确性，作者还基于MATES定量的TE计数矩阵进行了单独的细胞聚类。虽然仅使用TE进行分析的聚类准确性可能不如结合分析，但需要强调的是，TE定量包含生物信息，能够与传统的基因表达分析产生一致的结果。具体来说，作者系统地将仅使用TE的结果与基因表达聚类结果进行了比较，发现两者存在显著的相似性。Leiden聚类的0和1对应免疫细胞，而聚类的2、3和4对应肿瘤细胞。ARI（中位数为0.105，P = 1.03 × ）和NMI（中位数为0.161，P = 7.60 × ）的得分表明TE表达聚类与基因表达聚类之间存在弱但显著的对应关系。混淆矩阵进一步将TE聚类与基因聚类和细胞类型进行了比较，显示TE聚类0与主要由免疫细胞组成的基因聚类0和1显著重叠，而TE聚类2与主要由肿瘤细胞组成的基因聚类4和5一致。这表明基于TE的聚类可以准确捕捉所有主要细胞群体，并识别它们相关的TE标志物（图3c，d）。图点图（图3e）不仅展示了特定标志基因、TE和细胞类型之间的关联，还量化了它们的相对表达水平，为数据分析增加了更深入的维度。

除了分析上述亚家族级别的TE表达外，MATES的位点级TE定量提供了更全面的细胞景观视图（图3f-h）。这种方法有助于识别出与之前在亚家族级别确定的标志性TE相对应的高表达TE位点。值得注意的是，即使是同一个TE亚家族，例如LTR2B，不同的位点也可能表现出不同的表达模式（图3h，i），这凸显了精确的位点特异性TE定量的重要性。

位于chr3∣104522003∣104522491∣LTR2B（染色体∣起点∣终点∣TE）的LTR2B位点是免疫细胞中特异高表达的TE标记，它靠近CD166基因，暗示了潜在的调控相互作用。CD166在免疫细胞的粘附和功能中起关键作用，可能通过LTR2B的调控元件受到其影响。TEs能够通过提供启动子、增强子和转录因子结合位点来影响附近基因的表达，促进快速和动态的基因表达变化，这对免疫反应至关重要。此外，TEs是表观遗传修饰的靶点，进一步调控附近基因，增强免疫细胞的适应性。要完全理解它们之间的相互作用，还需要进一步的实验分析。

此外，与亚家族级别的定量相比，位点特异的TE定量显著提高了细胞聚类的准确性，如图3j所示（P = 5.48 × ），这凸显了其在分析细胞异质性、理解TE功能中的关键作用，并显示出其相对于传统亚家族级别分析的优越性。有关识别出的肿瘤细胞和免疫细胞的顶级TE位点标记及其附近相互作用基因的信息。

作者的结果验证了MATES在处理全长单细胞RNA-seq数据时的稳健性，强调了其在不同测序平台的单细胞RNA-seq数据集中进行深入细胞分析的有效性。虽然一些现有的方法（例如scTE）可以适应处理全长单细胞RNA-seq数据，但它们的性能往往不尽如人意，这突显了MATES在高效处理和解释这些数据集方面的价值。

编译|黄海涛

审稿|王梓旭

参考资料

Wang, R., Zheng, Y., Zhang, Z., Song, K., Wu, E., Zhu, X., ... & Ding, J. (2024). MATES: a deep learning-based model for locus-specific quantification of transposable elements in single cell. Nature Communications, 15(1), 8798.

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

孙大文院士在《Chemical Engineering Journal》发文：太赫兹超材料携手深度学习，助力食品检测新突破！

智能饮食：通过基于Grounding DINO的膳食辅助应用程序推进健康信息学

湖南大学生物学院罗宵/信科院曾湘祥教授联合招聘“AI+Genomics方向”博士后

J. Pharm. Anal. | 化学自然语言引导的扩散式类药分子编辑：DiffIUPAC的魔法之旅

Nat. Comput. Sci. 评论 | 利用深度学习打造优化配体的创新之路

NeurIPS 2024 | DePLM: 用扩散去噪过程帮助大模型进行蛋白质优化

Nat. Commun. | 用预测表型取代观察表型，ML-GPS扩展基因-表型对新关联

中南大学王建新教授团队提出BANDRP模型，通过基于分子指纹和多组学的双线性注意力网络进行药物反应预测

Nat. Commun. | 避免耗时的自洽场迭代，DeepH-hybrid推动从头计算方法领域发展

Nat. Comput. Sci. | 精确属性控制，湖大、西电从头药物设计AI方法，登Nature子刊

Nat. Methods | 基于单细胞RNA测序的植入前小鼠和人类胚胎深度学习模型

Nat. Commun. | 计算速度远远优于DFT，NewtonNet推导ab initio海森矩阵用于过渡态优化

Nat. Commun. | 整理大规模扰动谱整合图，PRNet成功预测233种疾病的药物候选物

华东师范大学联合发布中医药领域多模态大模型：数智岐黄2.0

Nat. Commun. | 利用TE位点两侧邻近读数，MATES提高TE定量准确性

Nat. Methods | SurfDock：利用表面信息的扩散生成模型实现蛋白质-配体复合物结构精准预测

Nat. Commun.｜准确性达93.7%！高度自动化临床mNGS检测可快速识别病毒性呼吸道病原体

打破专利封锁，踏出中国小核酸药物未来之路！

Nat. Commun. | 疾病相关蛋白难成药，sChemNET探究microRNA疗法

Science | 在“放松”序列空间中实现可扩展的蛋白设计

PNAS | UBC大学团队发现AlphaFold-Multimer能够准确捕捉蛋白IDR区域的相互作用

Cell | 蛋白质-蛋白质相互作用的发现及其在健康与疾病中的重要意义

Chem. Sci. | 设计蛋白-蛋白相互作用界面的深度学习模型

Nat. Commun. | ClickGen: 一种基于模块化反应和强化学习对可合成化学空间定向探索的生成式AI模型

Nat. Commun. | 将合成与筛选速度提升6倍！！浙江大学提出最新全自动高通量系统

招聘 | 德克萨斯大学西南医学中心王涛实验室生物信息学与计算生物学博士后研究员

受限原料合成目标产物，MIT Coley团队提出解决方案

Trends Pharmacol. Sci. | 利用计算科学推进PROTAC药物发展

Nat. Comput. Sci. | 前瞻性分析：牛津大学团队展望小分子药物发现的未来

Brief. Bioinform. | 基于肿瘤免疫微环境数学建模和强化学习的免疫检查点抑制剂（ICI）联合化疗决策优化

Nat. Methods | 新算法利用空间转录组数据构建肿瘤的“空间进化图谱”

Artif. Intell. Chem. | 人工智能推动化学发展的二十种方式

报告免费领取 | 热门减肥增肌靶点调研及非临床研究策略报告

Nat. Biotechnol. | 透视疾病突变：揭示蛋白质相互作用网络中的全组学级别扰动

英伟达发布BioNeMo平台，加速全球生物制药与科学产业数字化升级

Boltz-1：让生物分子交互建模更普及

Nat. Mach. Intell. | 蛋白质语言模型也能预测热稳定性？滑铁卢大学团队亲测！

从理想变为现实，从中国走向世界：国产AI药物发现软件MolProphet的成长故事

Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

Trends Pharmacol Sci. | 计算策略的集成与联用推动抗菌肽智能研发

Nat. Commun. | 使用CADD针对AcpS设计全新抗生素家族，实验效果显著！

美国佛罗里达大学计算机系/药物化学系AI制药课题组诚招全奖博士

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

《卫生健康行业人工智能应用场景参考指引》发布，推动“人工智能+”在卫生健康领域创新发展

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

J. Chem. Inf. Model. | 基于MoE的解离动力学模型助力设计“长效药”

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Protenix: AlphaFold3的再现 – ByteDance AML AI4Science团队

Google DeepMind 开源 AlphaFold 3

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉