在这项研究中,作者开发了一种基于深度学习的方法AutoHiC,以应对高通量染色体构象捕获(Hi-C)技术在构建染色体级别基因组装配时面临的误差修正和序列锚定的挑战。传统的Hi-C辅助scaffold构建通常需要人工调整,而AutoHiC利用Hi-C数据实现自动化工作流和迭代错误修正。在300多个物种的数据训练下,AutoHiC展示了超过90%的错误检测准确率。基准测试结果确认了其在改善基因组连贯性和错误修正方面的显著影响。AutoHiC的创新方法和综合结果标志着在自动化错误检测领域的突破,预示着未来将提供更准确的基因组组装,从而推动基因组学研究的进展。
ps:这是一篇工具类的文章,好用就是他最好的结果。
工作流
工具地址:https://github.com/Jwindler/AutoHiC
仓库中也有示例代码,大家感兴趣可以试着跑一下
主要结果
AutoHiC管道(pipeline)概述
AutoHiC的管道概述包括三个主要步骤,以实现染色体级别基因组组装和错误修正。输入——处理——输出
(1)用户需准备现有的contig数据、Hi-C测序数据及Hi-C实验中使用的限制酶信息。
(2)AutoHiC利用深度学习和Hi-C数据,以自动化的方式进行组装错误的检测和修正,从而提升组装的连贯性和准确性。
在完成错误修正后,AutoHiC会生成一个新的组装文件,该文件以空格分隔的文本编码一系列操作指令,如分配、改变顺序和方向,以及将序列锚定到染色体。用户可使用提供的脚本(run-asm-pipeline-post-review.sh)创建基于这个新组装文件的修正基因组序列文件。AutoHiC的迭代策略允许在高质量的scaffold组装下,通常仅需一次迭代便能全面修正所有识别出的错误,从而显著增强算法的准确性和可靠性。
(3)AutoHiC的组装结果报告提供了用户对基因组的全面理解,包括对修正效果的详细评估,内容涵盖基因组总结统计、错误修正过程的详细信息及错误变化的跟踪。此报告是理解基因组质量和错误修正结果的重要工具,展示了AutoHiC在复杂基因组数据集上的有效性和广泛适用性。
ps:pipeline,直译为管道,其实在工具类文章中,指的是“流程”的意思。
AutoHiC输出报告
(1)基因组概述统计:这一部分包含如N50、L50、Hi-C锚定率、scaffold数量和GC含量等基因组统计信息,帮助用户了解修正后基因组的基本特征。
(2)组装热图比较:通过比较错误修正前后的基因组组装热图,这一部分展示了AutoHiC修正对基因组组装可靠性的提升效果。
(3)错误修正过程细节:这一部分详细探讨了修正过程中识别的错误,包括错误类型、尺寸和位置坐标等信息。
(4)补充数据:最后一部分记录和跟踪在修正过程中错误的变化情况,为进一步分析提供了重要资料。
AutoHiC 的模型
AutoHiC模型是一个基于深度学习的双阶段目标检测网络,旨在自动检测和纠正基因组组装中的错误。该模型通过利用Hi-C(挂载?)热图图像,能够准确识别错误类型及其位置。具体来说,AutoHiC的检测模块负责处理挂载图像,提取与组装错误相关的特征。这一模型设计使得在整个组装过程中,尽可能降低人工干预的需求,从而提高了组装的效率和准确性。
在实验中,AutoHiC模型通过对300多个物种的训练,展示了其错误检测准确率超过90%的优异表现。模型的性能通过多个基准测试进行了验证,结果表明,AutoHiC在改进基因组连贯性和精确度方面表现优越,尤其是在复杂基因组数据集上显示出广泛的适用性。
AutoHiC算法的原理
AutoHiC算法的原则主要体现在其深度学习框架和数据处理方法上。该算法使用了基于Swin Transformer网络的结构,能够处理来自Hi-C实验的数据以识别基因组组装中的错误。具体而言,AutoHiC的输入是三通道组装图像,输出则是检测到的错误类型及其对应的位置。算法的设计利用了丰富的基因组组装数据,通过建立有效的特征提取机制,从而自动检测和纠正组装中的错误,以提升基因组组装的连贯性和准确性。
此外,AutoHiC在处理过程中,通过对接触热图图像的分析和比较,进一步验证了其错误检测和修正的有效性。模型的训练采用了来自300多个物种的丰富数据集,显示出其在复杂基因组数据上的广泛适用性。在实际应用中,AutoHiC可以在多个迭代过程中整合不同的错误检测结果,从而提高最终基因组组装的质量,并减少人工干预的需求。
AutoHiC的性能评估
AutoHiC模型使用预留的测试数据集进行验证,确保其在组装错误检测和染色体检测方面的有效性。训练过程中,模型的准确度和损失率在200个训练轮次内得以显著改善,表现出良好的收敛性和适应性。
此外,AutoHiC的性能通过与其他方法的比较进行了基准测试,结果表明,AutoHiC在提高基因组的连贯性方面优于其他方法。在五个物种的测试中,AutoHiC表现出色,在某些物种中如C. elegans、D. rerio和H. sapiens取得了最高的N50值。然而,在A. thaliana和D. melanogaster的组装中,AutoHiC的表现相对较差,这促使对其额外调查与分析。
最终结果显示,AutoHiC显著提升了基因组组装的准确性,尤其在处理复杂基因组数据集时表现卓越,展示了其广泛的适用性和潜力。这表明AutoHiC能够有效地纠正基因组错误并提升整体组装质量,从而为未来的基因组学研究提供可靠的工具和方法。
AutoHiC在提高基因组连续性方面优于其他方法
AutoHiC在提高基因组连贯性方面的表现明显优于其他方法。研究中通过与多个竞争性工具(如3D-DNA、SALSA2、YaHS和Pin_hic)进行比较,重点评估了AutoHiC提升基因组连贯性的能力。为了评估效果,研究选择了五种代表性的模式生物:C. elegans、A. thaliana、D. melanogaster、D. rerio和H. sapiens,这些生物涵盖了植物和动物领域的研究。
主要的评估指标包括N50和L50值,它们分别表示组装的连贯性和所需的contig数量。结果显示,与其他软件相比,AutoHiC提高了数据的连贯性,具体表现为与Contig相比,AutoHiC的提升约为18倍,与SALSA2相比提升约为7倍(AutoHiC improved the contiguity of the data by approximately 18-fold (compared to Contig) and 7fold (compared to SALSA2))。此外,研究还通过QUAST工具进行评估,发现AutoHiC所组装的基因组在校正后的scaffold数量接近染色体数量,表明了其在连贯性方面的显著进步。
AutoHiC结果的验证
关于AutoHiC结果的验证,文章中讨论了通过多个步骤确保其有效性和可靠性。首先,AutoHiC的模型使用预留的测试数据集进行验证,以评估其在组装错误检测和染色体识别方面的表现。具体而言,研究展示了AutoHiC的训练结果,包括在200个轮次内模型的准确度和损失率的变化,证明了其有效学习过程和收敛性。
此外,验证过程还包括与其他基准工具的比较,特别是评估AutoHiC在基因组连贯性和准确性方面的表现。这通过使用QUAST软件和MUM&Co进行的精确测量以及对比分析得以实现。结果表明,AutoHiC能够有效地纠正基因组误组装,从而显著提升组装的连贯性和准确性,这一结果得到了多种物种的数据支持。
扩展 AutoHiC 到复杂基因组
AutoHiC在复杂基因组的扩展应用方面展现了其强大的适应性和实用性,文章结果中详细阐述了这一点。为了全面评估AutoHiC的性能,研究团队将其应用于一系列不同的复杂基因组,包括极大基因组(如Schistocerca americana,9 Gb)和具有大量染色体的物种(如Chiloscyllium punctatum,2n = 104),以及一些具有多倍体特征的植物,比如Arachis hypogaea(四倍体)。这些应用案例充分证明了AutoHiC在处理各类基因组装配时的有效性,尤其是在面对高复杂度和大规模的基因组时。
此外,AutoHiC通过高效的错误检测和修正流程,成功处理了这些复杂基因组的数据,使得最终的组装结果在准确性和连贯性上均有显著提升。这种能力表明AutoHiC不仅适用于简单的基因组组装任务,更能扩展到更具挑战性的复杂基因组装配情境,展示了其广泛的应用前景。
文献来源
Zijie Jiang, Zhixiang Peng, Zhaoyuan Wei, Jiahe Sun, Yongjiang Luo, Lingzi Bie, et al. A deep learning-based method enables the automatic and accurate assembly of chromosome-level genomes. Nucleic Acids Research. 2024;:gkae789.