基因组组装评估这几年发表了很多软件,无非从准确性、完整性和连续性等三个方面来评估。
如今T2T组装已成为新的黄金标准,但目前缺乏一个通用的标准来验证基因组组装是否达到T2T水平。传统的评估指标,如N50、auN及其衍生指标,容易达到其理论最大值,且易受到手工校正影响,如直接去除缺口,造成这些指标值虚高,难以高效区分近似T2T与真正T2T的质量差异。因此,在T2T时代,迫切需要一种高精度、能够真实反映基因组组装连续性的质量评估工具。
近期,浙江大学张国捷团队在生物信息学权威期刊Bioinformatics上发表了方法学文章“GCI: a continuity inspector for complete genome assembly”,2021级本科生陈泉宇为该论文第一作者。团队开发了基于长读长数据比对的基因组连续性检测工具GCI(Genome Continuity Inspector),可在单碱基分辨率下检测潜在组装缺口,并通过GCI Score量化组装完整水平。
GCI的工作流程包括严格的reads比对和过滤,通过修剪比对两端的碱基来排除可能的剪切比对,并增强检测潜在组装间隙的敏感性。GCI得分的计算考虑了策划组装的连续性N50值和组装数量,以及理论上T2T组装的连续性N50值和组装数量。即使连续性N50值已经饱和,组装数量也可以用来量化不同组装之间的连续性差异。对于真正的T2T组装,不会检测到问题或间隙,因此策划的连续性N50将等于理论最大值(染色体N50),组装数量将等于染色体数量,从而产生100分的GCI得分。
研究者们使用GCI对几个高质量的基因组组装进行了评估,包括人类、鸡、拟南芥和水稻的基因组。结果表明,GCI得分在评估高质量基因组的连续性方面具有更高的灵敏度。例如,在人类基因组CHM13的评估中,GCI得分有效地捕捉了rDNA间隙填充带来的连续性改进,而传统的N50和auN指标则无法反映这种改进。此外,GCI在模拟数据集上的表现也优于其他工具,如CRAQ和T2T-polish,显示出更高的精确度、召回率和F1分数。
总的来说,GCI是一个强大的工具,它通过整合来自多个测序平台的长读段比对,提供了一种新的策略来评估基因组组装的质量。GCI得分为基因组组装的连续性提供了一个量化的指标,有助于区分接近T2T组装和真正的T2T组装,对于推动基因组组装领域的发展具有重要意义。
GCI工具源码:https://github.com/yeeus/GCI
原文链接:https://doi.org/10.1093/bioinformatics/btae633
点击文末 阅读原文,查看文章链接。