【领域新动态】慧眼识金——如何从海量基因检测数据中挖掘致病变异

学术   2024-02-22 16:51   上海  

随着分子生物学和基因工程技术的快速发展,基因检测技术已成熟应用在医疗领域,也有越来越多的医院开展了基因检测项目。而基因检测的数据分析过程一直充满挑战。实现从海量数据中准确找出疾病相关的致病变异,既需要成熟稳定的分析平台,也需要解读人员能够慧眼识金。


繁事可简,万事有方。今天我们就以经典的二代测序分析流程为例,来分享基因检测数据分析的经验。




三级分析流程




二代测序的数据分析流程通常被界定为三级分析。


一级分析是将原始荧光信号转化成序列信息的过程;二级分析是过滤低质量原始序列,通过序列比对及变异识别,获得待分析样本的所有变异信息的过程;三级分析是对变异进行注释、筛选、遗传解读和出具报告的过程(图1)。

图1 二代测序数据分析流程示意图


一级分析



一级分析的过程基本是在测序仪上自动完成,获得的结果以FASTQ文件形式储存。文件中包含了荧光信号转化后的原始碱基信息和质控信息,也就是常说的二代测序“原始数据”


根据测序原理的不同,可能还会涉及不同类型的信号识别,但大多数测序仪都带有一级分析能力。


二级分析



首先,去除低质量序列,将过滤后的原始序列比对到参考基因组上。其中,比对过程需要将每个序列在整个基因组范围内进行匹配分析,如果出现串联重复序列、同源序列、多态性位点极多的序列、测序质量差的序列等特殊序列将极大地增加比对难度。


然后,各个序列按照染色体位置进行排序,获得的结果以BAM文件形式储存。


最后,基于BAM文件,经过多步质控后,软件通过识别目标序列中与参考基因组不一样的碱基,获得待分析样本的所有变异信息,即VCF文件。该文件中包含了样本所携带变异的基因组位置信息、参考基因组信息、等位基因的碱基信息和变异的质控信息。


这是分析流程中耗时较长且计算成本最高的步骤。


三级分析



包括变异的注释、筛选,遗传解读和出具报告。


变异的注释依赖于公共数据库和本地数据库针对特定变异已收录和预测的信息,例如该变异是否被报道过、人群携带率是否很高、是否被做过功能验证、软件预测是否有害、已报道患者的表型和本次受检者的表型是否相似等。


基于以上注释信息,进行表型驱动型分析或基因驱动型分析,逐一筛选可能的候选变异。结合受检者及家系表型进行遗传解读分析,出具临床报告


这是分析流程中人工参与最多的一步,也是最能体现解读人员专业水平的步骤。 




数据分析案例拆解




接下来,我们通过一个案例来逐步拆解展示以上的三级分析。


受检者因右室心肌病待排来我院就诊,为鉴别诊断,临床医生建议患者进行了全外显子组测序(WES)基因检测。在获得原始FASTQ数据后,通过我科自建的生物信息分析流程,将原始序列比对到hg19参考基因组上(图 2)。下图中各个序列有序排列在基因组上,红框标注的即为一条原始序列。


图2 IGV软件可视化展示受检者数据序列比对信息


基于比对结果,比较实测序列和参考序列的不同,可进一步识别变异信息。详见下图(图3):12号染色体的32655272位置,参考基因组碱基为G,检测数据中一半序列检出C碱基,一半序列检出G碱基。因此,该位置将会被变异识别软件分析为chr12: 32655272 G>C杂合变异。


图3 IGV软件可视化展示受检者数据变异信息


在变异识别步骤后,从患者基因数据库中共检出117509个变异。我们接着对所有变异进行注释,并基于注释信息进行变异过滤筛选。最终,结合受检者主诉表型,我们在PKP2基因上发现1个杂合移码变异c.2035_2038delACAG(图4),该变异位于PKP2基因的第10号外显子区。变异使其编码的蛋白自第679位氨基酸开始发生移码,导致提前出现终止密码子,预测发生无义介导的mRNA降解(NMD)(PVS1)。


图4 受检者候选致病变异信息


根据ESP数据库、千人数据库、gnomAD数据库分析,该变异位点的最高人群频率为0(PM2_Supporting)。Clinvar和HGMD等相关数据库中暂无该变异相关报道。综合受检者的临床症状、相关疾病特点以及基因变异结果,根据ACMG基因变异解读指南[1],该变异与受检者临床表型存在相关性,现有证据支持判断为疑似致病变异


当然,我们所有的分析和解读结果,最终都会体现在检测报告上。根据《临床单基因遗传病基因检测报告规范》[2],我们为受检者出具了详细的临床报告(图5)。临床医生和受检者均可从报告中获得全面的检测结果解读信息,为患者后续的精准诊疗提供了强有力的证据支持。


图5 受检者WES基因检测报告示例




总结




目前,二代测序基因检测已广泛应用于多种遗传性疾病的辅助诊疗领域。如何从受检者的海量基因组数据中,快速准确找出解释其疾病发生相关的致病变异,需要行业专业人士不断地探索。希望今天的分享能够为大家以后的基因检测数据分析工作提供帮助。


复旦大学附属中山医院检验科

已开展多项遗传病基因检测,包括WES和个性化Panel,能够为患者提供准确的鉴别诊断依据,对疾病的诊疗预防具有重要价值。

为保证项目的规范开展以及检测结果的准确解读,我科配备了各类专业人员,包括检验技术人员、生信分析人员、遗传学博士以及临床医师。在确保每一份检测结果准确性的同时,协助临床为患者提供全面、系统的个性化遗传咨询服务



参考文献:
1. Richards S, Aziz N, Bale S, Bick D, Das S, Gastier-Foster J, et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 2015;17(5):405-24.

2. 临床单基因遗传病基因检测报告规范:T/SZGIA 4-2018[S]. 2018.

复旦大学附属中山医院检验科
关注临床检验新技术新项目,传播专家观点、业界动态,讨论学科建设、专业发展;项目临床意义深入介绍,分享案例分析、结果解释,沟通临床医护、服务患者。搭建集知识更新、同行交流及科普大众、临床服务于一体的检验医学信息平台。
 最新文章