转录噪声对RNA-Seq实验中基因和转录本表达量估计的影响

学术   2025-02-02 22:57   湖北  

最近在网上冲浪看各位大牛的博客文章,积累创作素材,看到一篇有意思的文章,这篇文章虽然已经发表了好几年,但是依然被一位大牛拿出来进行了探讨。分享给大家。

文章标题:Effects of transcriptional noise on estimates of gene and transcript expression in RNA sequencing experiments

杂志:Genome Res

发表时间:2021 Feb

doi: 10.1101/gr.266213.120

文章核心主题

大多数关于基因表达分析计算方法的研究都是使用模拟数据来评估这些方法的准确性。这些模拟通常包括从已知基因生成的、具有不同表达水平的reads。然而,直到现在,这些模拟都没有包括来自噪声转录本(noisy transcripts)的 reads,这些噪声转录本可能包含错误的转录(erroneous transcription)、错误的剪接(erroneous splicing)以及其他影响活细胞中转录过程的因素。

在本研究中,作者研究了在RNA-Seq实验中,实际水平的转录噪声对不同算法组装和定量基因及转录本能力的影响

评价指标

作者通过将之前从GTEx数据集中计算得到的转录组组装划分为四种不同的生物学和技术变异类型,来研究这些变异。这四种类型包括:

  • (1)已知转录本
  • (2)由于内含子保留导致的错误转录本(“内含子噪声 intronic noise”)
  • (3)由于使用错误的剪接位点导致的错误转录本(“剪接噪声 splicing noise”)
  • (4)由于基因间区转录导致的错误转录本(“基因间区 intergenic”)

GTEx数据集与与模拟数据比较

GTEx数据集是基于CHESS数据库(Pertea等人,2018年)构建的转录组组装结果,与模拟数据进行比较。

  • (A)每种组织中观察到的注释位点和基因间区位点的数量分布
  • (B)每个样本中观察到的注释位点和基因间区位点的数量分布
  • (C)每个样本中代表每种噪声类型的转录本数量分布
  • (D)在典型样本中,来自真实异构体与噪声异构体的表达量比例。仅包括既有注释转录本又有噪声转录本表达的位点。
  • (E)模拟样本中来自噪声转录本的总表达量比例

作者发现大多数已知基因在典型组织的至少一个样本中都有表达(图1A)。相比之下,无论是已知位点还是异构体,在典型样本中活跃表达的比例都不到一半(图1B、C)。与噪声转录本相比,已知转录本更有可能出现在同一组织的多个样本中(约26%),而噪声转录本的比例则较低(基因间噪声为1.8%,内含子噪声为0.5%,剪接噪声为1.4%)。因此,尽管GTEx数据集中总体上噪声转录本的数量要多得多,但在特定组织的层面上,噪声转录本的数量通常低于真实转录本的数量(图1B、C)。

noisy transcription对转录本水平丰度估计的影响

模拟数据:应用模拟方法,作者创建了一个由三种组织组成的数据集,每种组织包括10个样本。

  • (A) 每个样本中假阳性(FP)观测值的数量分布,分别在有噪声(棕色)和无噪声(蓝色)的情况下
  • (B) 在有噪声和无噪声的情况下,分配给假阳性观测值的表达水平
  • (C) 每个样本中假阴性(FN)观测值的数量分布
  • (D) 在有噪声和无噪声的情况下,假阴性观测值的表达水平

在考虑的所有方法中,引入噪声表达均导致被错误识别为表达的转录本数量一致增加(图2A)

StringTie2 在无噪声时具有最少的假阳性(FP)数量(μ = 18,844;FPR = 7%),并且其FP数量增加最少,平均值上升至23,494(约25%增加;FPR = 8%)。

相比之下,Salmon 在无噪声时的FP数量略高(μ = 21,546;FPR = 8%),但在有噪声时,其FP数量大幅增加了约70%(μ = 36,677;FPR = 13%)。

kallisto 在无噪声数据中的FP数量最高(μ = 34,316;FPR = 12%),而在加入噪声后,它产生了最多的假阳性(FP)转录本,平均超过51,000(约50%增加;FPR = 18%)。

平均而言,这些方法在模拟样本中报告了相似的FP转录本集合,Salmon 和 kallisto 之间的相似性更高。

noisy transcription 对基因水平丰度估计的影响

  • (A)每个样本中假阳性(FP)基因的数量分布,即报告的基因位点中没有实际转录本表达的基因数量
  • (B)每个样本中假阴性(FN)基因的数量分布,即模拟数据中至少有一个转录本表达的基因位点,但程序未能报告任何表达的基因数量
  • (C)分配给基因的 read 数量的变化百分比,作为该基因位点未注释转录本表达比例的函数

结果发现

噪声的引入会导致这些算法在定量表达能力上出现系统性误差,包括对转录本丰度水平的系统性低估以及假阳性基因和转录本数量的大幅增加,以及无比对的计算方法有时会遗漏相对低水平表达的转录本。

友情宣传:

生信入门&数据挖掘线上直播课2025年1月班

时隔5年,我们的生信技能树VIP学徒继续招生啦

满足你生信分析计算需求的低价解决方案

生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
 最新文章