NAR | 西南大学王翊团队开发了一种基于深度学习的方法AutoHiC能够自动准确地组装染色体水平的基因组

学术   2024-09-19 15:14   河南  


iNature

高通量染色体构象捕获(Hi-C)技术的应用使染色体水平组装的构建成为可能。然而,在装配过程中,错误的纠正和序列对染色体的锚定仍然是重大的挑战。

2024年9月17日,西南大学王翊作为通讯作者Nucleic Acids Research 在线发表题为A deep learning-based method enables the automatic and accurate assembly of chromosome-level genomes的研究论文,该研究开发了一种基于深度学习的方法,AutoHiC,通过提高连续性和准确性来解决染色体水平基因组组装的挑战。

传统的Hi-C辅助脚手架通常需要手工改进,但AutoHiC利用Hi-C数据进行自动化工作流程和迭代错误纠正。当对来自300多个物种的数据进行训练时,AutoHiC显示出稳健的平均错误检测准确率超过90%。基准测试结果证实了其对基因组邻接性和纠错的显著影响。AutoHiC的创新方法和综合结果构成了自动化错误检测的突破,为推进基因组学研究提供了更准确的基因组组装。

基因组学对于理解基因功能和物种间的进化关系至关重要。染色体水平的基因组序列信息对这些领域的科学进步至关重要。这一目标至关重要,因为它为揭示生物系统的原理和研究潜在疾病的分子机制提供了基础。长读测序技术的出现推动了基因组组装的最新进展,例如PacBio的单分子实时测序(SMRT)和牛津纳米孔技术(ONT)。这些技术进步通过提供超过传统边界的读取长度,克服了传统下一代测序(NGS)方法的局限性。这些因素导致了全面和连续基因组组装的显著增加。然而,尽管取得了这些进展,由于目前的读取长度无法跨越整个染色体,实现染色体水平上的组装仍然是一个具有挑战性的目标。
在基因组组装过程中,高通量染色体构象捕获(Hi-C)测序已成为不可缺少的工具。该技术结合了接近连接和测序,通过利用相邻contigs之间增加的Hi-C连锁对的密度,寻求将contigs支架成染色体水平的组装。包括Lachesis、3D-DNA、SALSA、YaHS、instaGRAAL、EndHiC和AllHiC在内的许多工具已经开发出来。然而,这些工具都有其局限性,并受到各种影响。有些需要预先指定染色体数目,这给用户带来了挑战。此外,这些工具的输出中的错误通常需要手动纠正,从而延长了流程并引入了人为错误的可能性。这种对人工干预的依赖阻碍了全自动基因组组装的实现,特别是在以Hi-C数据的染色体水平准确性为目标时。
图形摘要(图源自Nucleic Acids Research 
除了主要的基因组研究计划,,迫切需要大规模的高质量染色体水平基因组组装的自动化。然而,传统的装配方法与不断增长的数据集的规模和复杂性作斗争,并面临着与算法准确性和人力资源可用性相关的挑战。深度学习已经成为生命科学中不可或缺的一部分,在数据分析和处理方面做出了重大贡献。Transformer架构是一种设计用于处理长序列的基于注意力的模型,它在语言处理方面取得了显著的成功,并在图像分析、基因表达和蛋白质折叠等各个领域显示出多功能性。尽管引入了DeepC、EagleC、VEHiCLE、DeepLoop和hicGAN等软件,但Hi-C数据在识别装配错误方面的潜力仍未得到充分开发。大数据集为深度学习提供了有效利用Hi-C数据的机会。

研究介绍了AutoHiC,一种可扩展且计算效率高的基于深度学习的Hi-C装配纠错方法。通过利用来自大约300个物种的50多万张Hi-C图像的全基因组染色质接触数据,AutoHiC可以自动纠正组装错误,提高基因组组装的连续性和准确性。通过对调整前和调整后接触热图的对比分析,证明了AutoHiC识别和纠错算法的有效性。我们的研究结果表明,AutoHiC优于其他软件,以提高基因组的连续性。通过将调整后的基因组序列与端粒到端粒(T2T)参考基因组序列进行比较,证实了AutoHiC调整的准确性,后者与T2T基因组序列高度一致。此外,为了确定AutoHiC的广泛适用性,研究对各种物种进行了测试,包括那些具有大基因组,众多染色体和多倍体的物种。结果证实了AutoHiC在不同的基因组组装场景中是适用和有效的。

总之,AutoHiC使用深度学习和Hi-C数据来自动化染色体水平的基因组组装,并提高准确性。它检测和纠正Hi-C组装中的错误,补充人工管理工作并简化染色体水平基因组的组装。研究希望AutoHiC能够推动基因组学研究,加深对三维基因组结构和功能的理解。

参考消息:
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkae789/7759145

END

内容为【iNature】公众号原创,

转载请写明来源于【iNature】


微信加群


iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群(16个PI群及64个博士群),同时更具专业专门组建了相关专业群(植物,免疫,细胞,微生物,基因编辑,神经,化学,物理,心血管,肿瘤等群)。温馨提示:进群请备注一下(格式如学校+专业+姓名,如果是PI/教授,请注明是PI/教授,否则就直接默认为在读博士,谢谢)。可以先加小编微信号(love_iNature),或者是长按二维码,添加小编,之后再进相关的群,非诚勿扰。



投稿、合作、转载授权事宜

请联系微信ID:13701829856 或邮箱:iNature2020@163.com



觉得本文好看,请点这里!

iNature
专注前沿科学动态,传递科普信息。
 最新文章