当单细胞测序遇上Long-Reads

文摘   2024-12-17 15:17   美国  

分子生物学的“中心法则”指出,生物信息从DNA(以基因形式)通过转录过程流向RNA,再通过翻译过程从RNA流向蛋白质。然而,科学家逐渐认识到这一过程并非完全线性。基因与其最终产物之间并非总是简单的一对一关系。通过选择性转录起始/终止位点、多聚腺苷酸化位点以及/或者可变剪接位点,同一个基因可以被调整以产生多样化的mRNA序列或异构体(isoforms),而这些异构体具有不同的编码蛋白质的能力 。在哺乳动物基因组中,至少70%的基因具有多个多聚腺苷酸化位点,超过50%的基因具有选择性转录起始位点,几乎所有基因都经历选择性剪接……这些分子过程极大地增加了哺乳动物基因组编码的转录本、蛋白质及功能的种类。更具体地说,人类仅有约20,000个蛋白质编码基因,但科学家估计存在将近150,000种转录本异构体 。

关键问题是,这些异构体及其编码的蛋白质是好是坏,抑或是问题的根源?

在许多生物系统中,异构体的多样性尚未得到充分研究,但已有证据表明,异构体可以在支持多种神经功能以及细胞发育和分化(如胚胎造血过程)中发挥积极作用。然而,异构体表达的失调也与人类疾病密切相关。15%的人类遗传性疾病和癌症被报告与选择性剪接有关。剪接因子是骨髓增生异常综合征(一类骨髓癌症)中最常见的突变基因。异构体比例的变化(通常由选择性剪接失调引起)也可能驱动疾病。例如,Tau蛋白病是一类与错误选择性剪接MAPT基因(微管相关蛋白tau)导致的Tau蛋白异构体比例失衡相关的神经退行性疾病,其中包括阿尔茨海默病。稀有的肾病Frasier综合征与一种突变有关,该突变阻止了Wilms’肿瘤基因WT1某种异构体的合成 。这些例子表明,科学家不仅需要识别转录本异构体,还需准确测量其丰度,并以能够提供有意义生物背景的分辨率进行分析。这种深入的洞察可以阐明独特异构体对生理状态的贡献,更好地理解疾病机制,并发现潜在的治疗靶点。

虽然单细胞测序在识别细胞亚群方面发挥了关键作用,帮助研究人员开发针对各种癌症和免疫疾病的更精确治疗方法,这些疾病需要从细胞层面了解患者的遗传信息。然而,大多数单细胞测序平台目前仍局限于短读长测序,这种方法无法覆盖完整的RNA转录本,从而导致研究人员丢失在不同剪接异构体和模糊序列中包含的重要数据。
现在的单细胞转录组测序技术(scRNA-seq)已经很成熟了,然而目前的scRNA-seq的文库主要通过二代测序平台,比如Illumina, MGI, AVITI等。拿最普遍的10x Genomics平台的文库举例,其文库结构如下:

通常的测序策略为(PE150)或2x150,更准确的来说,为28+90+10+90。总所周知,有很多基因的不同转录本具有细胞类型特异性表达的特点,而常规的短读长测序实际上是把所有的转录本合并为一个基因的表达,这掩盖了不同转录本之间的差异性。那么能否结合单细胞测序和LongRead技术的优点,实现单细胞分辨率的LongRead转录组测序呢?答案是肯定的。

LongRead技术的主要平台目前主要集中在ONT和Pacbio公司,两个平台都针对单细胞LongRead测序推出了针对性的试剂盒。

下面主要介绍下Pacbio公司针对10x-scRNA-seq推出的Kinnex scRNA-seq的技术。其主要基于2023年Aziz等人发表于nature biotechnology杂志的文章:High-throughput RNA isoform sequencing using programmed cDNA concatenation。此技术multiplexed arrays isoform sequencing (MAS-ISO-seq)基于10x单细胞3’试剂盒和ISO-seq技术开发(见下图,在cDNA两端连接SMRTbell),通过连接多个cDNA分子(通过PCR引入反向互补adaptor,通过User酶处理产生单链反向互补片段),可提高通量及文库长度(更适合Longread平台)。

MAS-ISO-seq:

ISO-seq:

商业化的Kinnex scRNA-seq试剂盒:

Kinnex scRNA-seq工作流程如下

Kinnex scRNA-seq实验流程如下:

参考文献:

  1. Ray T, et al. Comprehensive identification of mRNA isoforms reveals the diversity of neural cell-surface molecules with roles in retinal development and disease. Nat Commun 11: 3328 (2020). doi: 10.1038/s41467-020-17009-7

  2. Reyes A and Huber W. Alternative start and termination sites of transcription drive most transcript isoform differences across human tissues. Nucleic Acids Res 46: 582–592 (2018). doi: 10.1093/nar/gkx1165

  3. Jiang W and Chen L. Alternative splicing: Human disease and quantitative analysis from high-throughput sequencing. Comput Struct Biotechnol J 19: 183–195 (2021). doi: 10.1016/j.csbj.2020.12.009

  4. Gupta I, et al. Single-cell isoform RNA sequencing characterizes isoforms in thousands of cerebellar cells. Nat Biotechnol 36: 1197–1202 (2018). doi: 10.1038/nbt.4259

  5. Hardwick S, et al. Single-nuclei isoform RNA sequencing unlocks barcoded exon connectivity in frozen brain tissue. Nat Biotechnol 40: 1082–1092 (2022). doi: 10.1038/s41587-022-01231-3

  6. Joglekar A, et al. A spatially resolved brain region- and cell type-specific isoform atlas of the postnatal mouse brain. Nat Commun 12: 463 (2021). doi: 10.1038/s41467-020-20343-5

  7. https://pages.10xgenomics.com/rs/446-PBO-704/images/10x_LIT000194_Application_Note_enGlobal_Long_Read_Sequencing_Letter_digital.pdf

  8. https://www.10xgenomics.com/blog/single-cell-and-spatial-assays-meet-long-read-sequencing

  9. Khafaji, A.M., Smith, J.T., Garimella, K.V. et al. High-throughput RNA isoform sequencing using programmed cDNA concatenation. Nat Biotechnol (2023).


科研这点事儿
科普分子生物学知识,关注前沿生物技术,聚焦表观遗传学。