转录噪声对RNA-Seq实验中基因和转录本表达量估计的影响

学术 2025-02-02 22:57 湖北

最近在网上冲浪看各位大牛的博客文章，积累创作素材，看到一篇有意思的文章，这篇文章虽然已经发表了好几年，但是依然被一位大牛拿出来进行了探讨。分享给大家。

文章标题：Effects of transcriptional noise on estimates of gene and transcript expression in RNA sequencing experiments

杂志：Genome Res

发表时间：2021 Feb

doi: 10.1101/gr.266213.120

文章核心主题

大多数关于基因表达分析计算方法的研究都是使用模拟数据来评估这些方法的准确性。这些模拟通常包括从已知基因生成的、具有不同表达水平的reads。然而，直到现在，这些模拟都没有包括来自噪声转录本（noisy transcripts）的 reads，这些噪声转录本可能包含错误的转录（erroneous transcription）、错误的剪接（erroneous splicing）以及其他影响活细胞中转录过程的因素。

在本研究中，作者研究了在RNA-Seq实验中，实际水平的转录噪声对不同算法组装和定量基因及转录本能力的影响。

评价指标

作者通过将之前从GTEx数据集中计算得到的转录组组装划分为四种不同的生物学和技术变异类型，来研究这些变异。这四种类型包括：

（1）已知转录本
（2）由于内含子保留导致的错误转录本（“内含子噪声 intronic noise”）
（3）由于使用错误的剪接位点导致的错误转录本（“剪接噪声 splicing noise”）
（4）由于基因间区转录导致的错误转录本（“基因间区 intergenic”）

GTEx数据集与与模拟数据比较

GTEx数据集是基于CHESS数据库（Pertea等人，2018年）构建的转录组组装结果，与模拟数据进行比较。

（A）每种组织中观察到的注释位点和基因间区位点的数量分布
（B）每个样本中观察到的注释位点和基因间区位点的数量分布
（C）每个样本中代表每种噪声类型的转录本数量分布
（D）在典型样本中，来自真实异构体与噪声异构体的表达量比例。仅包括既有注释转录本又有噪声转录本表达的位点。
（E）模拟样本中来自噪声转录本的总表达量比例

作者发现大多数已知基因在典型组织的至少一个样本中都有表达（图1A）。相比之下，无论是已知位点还是异构体，在典型样本中活跃表达的比例都不到一半（图1B、C）。与噪声转录本相比，已知转录本更有可能出现在同一组织的多个样本中（约26%），而噪声转录本的比例则较低（基因间噪声为1.8%，内含子噪声为0.5%，剪接噪声为1.4%）。因此，尽管GTEx数据集中总体上噪声转录本的数量要多得多，但在特定组织的层面上，噪声转录本的数量通常低于真实转录本的数量（图1B、C）。

noisy transcription对转录本水平丰度估计的影响

模拟数据：应用模拟方法，作者创建了一个由三种组织组成的数据集，每种组织包括10个样本。

(A) 每个样本中假阳性（FP）观测值的数量分布，分别在有噪声（棕色）和无噪声（蓝色）的情况下
(B) 在有噪声和无噪声的情况下，分配给假阳性观测值的表达水平
(C) 每个样本中假阴性（FN）观测值的数量分布
(D) 在有噪声和无噪声的情况下，假阴性观测值的表达水平

在考虑的所有方法中，引入噪声表达均导致被错误识别为表达的转录本数量一致增加（图2A）

StringTie2 在无噪声时具有最少的假阳性（FP）数量（μ = 18,844；FPR = 7%），并且其FP数量增加最少，平均值上升至23,494（约25%增加；FPR = 8%）。

相比之下，Salmon 在无噪声时的FP数量略高（μ = 21,546；FPR = 8%），但在有噪声时，其FP数量大幅增加了约70%（μ = 36,677；FPR = 13%）。

kallisto 在无噪声数据中的FP数量最高（μ = 34,316；FPR = 12%），而在加入噪声后，它产生了最多的假阳性（FP）转录本，平均超过51,000（约50%增加；FPR = 18%）。

平均而言，这些方法在模拟样本中报告了相似的FP转录本集合，Salmon 和 kallisto 之间的相似性更高。

noisy transcription 对基因水平丰度估计的影响

（A）每个样本中假阳性（FP）基因的数量分布，即报告的基因位点中没有实际转录本表达的基因数量
（B）每个样本中假阴性（FN）基因的数量分布，即模拟数据中至少有一个转录本表达的基因位点，但程序未能报告任何表达的基因数量
（C）分配给基因的 read 数量的变化百分比，作为该基因位点未注释转录本表达比例的函数

结果发现

噪声的引入会导致这些算法在定量表达能力上出现系统性误差，包括对转录本丰度水平的系统性低估以及假阳性基因和转录本数量的大幅增加，以及无比对的计算方法有时会遗漏相对低水平表达的转录本。

友情宣传：

生信入门&数据挖掘线上直播课2025年1月班

时隔5年，我们的生信技能树VIP学徒继续招生啦

满足你生信分析计算需求的低价解决方案

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

miRNA体外诊断试剂盒可靠吗？

转录噪声对RNA-Seq实验中基因和转录本表达量估计的影响

物种Beta多样性PCoA分析

Benchmarking：新鲜出炉的单细胞自动化癌细胞注释

nature communications 杂志同款三元图：Ternary plots

ggplot2（r包）绘制基因棒棒糖图

画出像烟花一样的单细胞umap图，原因竟然是？

G3viz（r包）绘制基因棒棒糖图

Omni-ATAC：更新和优化的ATAC-seq协议（NatProtoc）

GenVisR（r包）介绍：基因组可视化工具

生信技能树2025年展望

春节期间单细胞转录组数据分析全免费

再牛叉的技术也无法解决你网络问题（但是政策可以啊）

Python应该要会一点吧

绘制NC杂志同款高颜值小提琴图

maftools（r包）绘制棒棒图等

IF10+杂志文章只用统计学显著的差异基因做GSEA就合理吗？

trackview（r包）包绘制基因棒棒图

公众号已经接入人工智能大模型啦！

如何使用 uniprot ID 进行 KEGG 和 GO 富集？

如何对应两个不同单细胞数据集的分群结果？

python单细胞学习笔记-day6

综述：ATAC-Seq 数据分析工具大全

北京大学—统计基因组与遗传流行病学、功能与单细胞多组/AI方向诚聘博士后

python版本的功能富集分析：GSEApy

在这里看有哪些配色，2500+种！一键复制超方便

给你的单细胞umap图加个cell杂志同款的圈

python单细胞学习笔记-day5

喜大普奔，从此就没有了四青人才！

掌握Python，解锁单细胞数据的无限可能

python单细胞学习笔记-day4（续）

这种作者只提供了每组多个重复样本合并后数据的怎么办

年度总结 | 2024年Nature Communications计算生物学方法论文精选

高颜值复杂热图绘制小技巧

housekeeper基因在肿瘤与正常样本中会发生显著差异表达吗？

65款单细胞亚群注释工具你用过几款？

一种很新的功能富集结果展示方法

100篇！华大时空组学Stereo-seq助力生命科学成果大爆发

单个基因在单细胞里面如何分析呢？

三种方式下载GEO芯片注释文件GPL

单基因绘制组间差异箱线图及ROC曲线

线粒体基因缺失之谜

python单细胞学习笔记-day4

顶刊 Science 文献两分组差异结果比较图复现

KEGG富集结果7大分类展示

5种方式美化你的单细胞umap散点图

python单细胞学习笔记-day3

顶刊Cell中这幅mRNA和蛋白质表达相关性图的生物学意义是什么？

python单细胞学习笔记-day1

python单细胞学习笔记-day2

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉