Genome Biology综述:在大规模组学研究中评估和缓解批次效应

2024-12-27 14:23   湖北  
标题:Assessing and mitigating batch effects in large-scale omics studies
作者:复旦大学人类表型组研究院郁颖
期刊:《Genome Biology》
影响因子:10.1
时间:2024
论文地址:https://link.springer.com/article/10.1186/s13059-024-03401-9
一、摘要
背景:批次效应指与生物学研究目标无关的技术性变化误差。
问题:不校正则会使得技术误差掩盖生物信号,带来错误的结论;过度校正则可能会消除真实的生物学信号,阻碍生物学发现。
意义:评估和缓解批次效应能确保组学数据的可靠性和可重复性,最小化技术误差对生物学解释的影响。
本文工作
  1. 强调了批次效应的负面影响,指出其是大规模组学研究中亟待解决的问题。
  2. 归纳了批次效应的来源,评估与校正批次效应的工具方法,以及为解决该问题国际联盟做出了哪些努力。
三、批次效应的危害、产生原因、来源
3.1 危害
1. 导致错误的结论:一方面,会干扰原始的真实生物学信号;另一方面,降低下游应用分析结果的统计效应的可靠性。当批次变量和生物学研究目标高度相关的时候(confounded design),这一危害更加突出,可能会找出一些和批次相关的变量。
2. 降低可重复性:大部分研究的结果不可重复,带来被撤稿的风险。
3.2 原因
批次效应的根本原因可以部分归因于组学数据中数据表示的基本假设。在生物医学研究中,样本中分析物的浓度或丰度(C)至关重要,测量技术旨在提供这些信息。在定量组学分析中,绝对仪器读数或强度(I)(如FPKM、FOT或峰面积)——无论应用了何种样本归一化方法——通常被用作C的替代。

这基于这样的假设:在任何实验条件下,I与C之间存在线性且固定的关系(f,或灵敏度),表现为I = f(C)。然而,在实际中,由于不同实验因素的差异,关系f可能会波动

这些波动使得I在不同批次之间本质上具有不一致性,从而导致组学数据中不可避免的批次效应

3.3 来源
四、评估批次效应校正效果
4.1 总体流程
比较校正前和校正后的数据包含两种方法,第一种是直观法(用图的形式直观比较,4.2),第二种是定量法(用某些指标量化比较,4.3)。
4.2 直观评估:可视化
  1. 降维图:如果校正了批次效应,则样本按照细胞类型聚集,而非批次聚集。
  2. 层次聚类热力图:如果校正了批次效应,则样本按照细胞类型聚集,而非批次聚集。
  3. 相对对数表达值(RLE)图:如果校正了批次效应,则同一类型不同批次样本的RLE高度基本是一致的。
  4. PVCA图:如果校正了批次效应,则批次不是最主要的表达值方差来源。
  5. 绘制某个基因在不同批次中表达值的变化,观察是否存在系统性偏差。
4.3 定量评估
  1. 基于距离的度量:计算样本之间的逐对距离,以衡量跨批次的样本相似性。单细胞转录组的评估指标包括Alignment score、k-nearest neighbor batch- effect test (kBET)、Local inverse Simpson’s index (LISI)、Shannon Entropy。
  2. 基于聚类的度量:计算与批次效应相关的聚类准确性和相似性。单细胞转录组的评估指标包括ARI、ASW等。
  3. 差异表达:根据真值集计算混淆矩阵的指标。
  4. 预测模型:基于现有数据构建预测模型,应用到其他批次的数据上。

五、现有的批次效应校正工具
六、联盟的努力
许多联盟已经致力于制定标准并建立基准技术,这些工作也在批次效应评估和校正方面取得了改进。特别是,联盟的合作对于识别批次效应的原因和来源、开发和评估可靠的 BECA 方法以及为数据分析制定最佳实践和指南具有重要意义。包括MAQC/SEQC联盟和多组学中华家系项目。


七、总结
7.1 挑战
  1. 评估和量化批次效应对数据的影响
  2. 批次效应校正方法在不同数据集和实验条件下的泛化能力
  3. 软件和算法的选择
  4. 宏基因组学(微生物组)研究中,由于其组成结构和稀疏计数数据的特性,批次效应校正带来了独特的挑战
  5. 批次效应不仅限于定量组学数据,还会影响定性数据,例如突变、可变剪接事件、RNA 编辑事件等
7.2 结论
批次效应是组学数据分析中的常见挑战,特别是在样本以批次处理或在较长时间内处理的大规模研究中。评估和减轻批次效应对于确保组学数据的可靠性和可重复性,以及最大限度地减少技术变异对生物学解释的影响至关重要。随着数据规模的不断增长,我们预计实验设计和批次效应校正方法(BECAs)的重要性也将日益增加,并在研究和临床中的大规模应用中成为核心。通过在数据生成阶段采用“比率”尺度量化多组学数据,并以通用参考物质作为多组学分析的基线,有望从根本上消除令人困扰的批次效应。

ChatGPT批次效应是组学数据分析中的常见挑战,特别是在样本以批次处理或在较长时间内处理的大规模研究中。评估和减轻批次效应对于确保组学数据的可靠性和可重复性,以及最大限度地减少技术变异对生物学解释的影响至关重要。随着数据规模的不断增长,我们预计实验设计和批次效应校正方法(BECAs)的重要性也将日益增加,并在研究和临床中的大规模应用中成为核心。通过在数据生成阶段采用“比率”尺度量化多组学数据,并以通用参考物质作为多组学分析的基线,有望从根本上消除令人困扰的批次效应。

AIBioPioneer
分享人工智能,生物信息与植物生理的点点滴滴
 最新文章