组会论文|arXiv:具有双图的可扩展端粒到端粒组装，适用于二倍体和多倍体基因组

文摘 2023-11-08 11:02 湖南

Scalable telomere-to-telomere assembly for diploid and polyploid genomes with double graph

Submitted on 6 Jun 2023

原文链接：https://arxiv.org/abs/2306.03399

Abastract

本文开发的软件为：HiFiasm（UL）

目前构建基于长读长测序的T2T haplotype-resolved genome assemblies还需要大量的计算资源；
本文作者提出了一个de novo assembly algorithm，这个算法可结合多种测序技术，实现 population-wide T2T assemblies；
作者用22个人类和2个植物基因组，证明了这个算法比现有的方法降低了一个数量级的计算资源，且能产生更加优质的组装结果。
作者的算法是目前实现多倍体基因组haplotype-resolved assembly的唯一方法。

通讯作者介绍

Background

High-Fidelity (HiFi) long reads的出现，使高质量的haplotype-resolved assembly成为常规流程。

然而，HiFi reads往往因不够长而难以解析long exact repeats。ONT具有 ultra-long reads，精度相对较低，但长度是HiFi reads 的5-10倍。

T2T consortium已经证明，结合 HiFi and ultra-long reads可以完美地构建CHM13人类单倍型基因组。

2023年发表的Telomere-to-telomere assembly of diploid chromosomes with Verkko，对CHM13进行完整人类基因组组装，文中提出的Verkko是实现二倍体样本T2T自动化组装的第一次努力。当trio infomation可用时，它可以产生high-quality assembly。

verkko缺点：

Verkko在没有亲代数据的情况下不能对单个二倍体样本进行phasing，从而导致组装不完整。
Verkko可能在较低的读取覆盖率下产生相对碎片化的组装，
Verkko不能产生多倍体样本的单倍型分辨组装。
Verkko是计算密集型的，这使得将Verkko应用到大量样本上的非常costly。

Results

Hifiasm(UL)总体流程

为了高效地进行二倍体和多倍体样本的near T2T assembly，作者开发了Hifiasm(UL)，它集成了PacBio HiFi、ONT ultra-long, Hi-C reads and trio data，并一次生产high-quality assembly。

不同于与Verkko based on the multiplex de Bruijn graph ，Hifiasm(UL) represents sequences with two string graphs(图1A)。

The first string graph是从HiFi reads(图1B)构建的，与original hifiasm graph1相同。

The second string graph 是由缩减表示的ultra-long reads构建的(图1B-D)。

然后，Hifiasm(UL)将这两个图合并，以产生最终组装图(图1E)。

图1：Hybrid assembly with PacBio HiFi and ONT ultra-long reads

使用人类基因组评估Hifiasm(UL)和Verkko

1、样本选择

为了在a population scale上比较Hifiasm(UL)和Verkko，作者使用源于Human Pangenome Reference Consortium(HPRC)的22个人类样本对这两种方法进行评估。

其中11个样本选自HPRC的第一年数据集，其余11个样本选自第二年数据集(表1)。

作者对所有22个样本进行了trio assembly，但只对 11 个Year-2 samples进行了Hi-C-based single-sample assembly。

作者总共整合了132个assembled haplotypes，用于综合评估Hifiasm(UL)和Verkko。

【Verkko自身用于 trio binning assembly。由于它没有软件内Hi-C phasing，作者使用了Hi-C phasing approach, gfase与Verkko相结合来进行single-sample phased assembly。】

表1：人类数据样本统计表

2、不同assemblies的比较

在assembling HPRC Year-1 samples时，用的数据是较低coverage的HiFi and ultra-long 数据, 这时hifiasm (UL) 可以生成更连续的assemblies(图2B)。
Verkko 没能为 Year-1 samples生成T2T contigs （图3）

说明，Hifiasm(UL)在提高组装连续性方面得到了稳定的改进。

图2：不同assemblies的比较

(a) 11个人类样本的组装长度。

(b) 代表人类样本组装连续性的contig N50。

图3：不同assemblies的T2T contigs数量

Verkko没能实现在给定Hi-C数据的情况下将所有contigs分配给特定的单倍型。由于这些未分配的contigs，Verkko assemblies与Hifiasm(UL)相比missed更多的常染色体基因，因此不太完整(图4)。
对于样本HG01099和HG03710，Verkko产生了明显更多的重复基因(图4)。
作者使用hifiasm (UL) 组装所有 Year-2 samples ，使用云计算收集了Verkko的三个样本，并记录了成本。Hifiasm(UL)的 cost-effective是Verkko的8-15倍。Hifiasm(UL)的低计算成本对于population-scale的T2T组装项目尤其重要。（图5）

图4：不同assemblies的problematical Genes情况

图5：云计算成本

使用非人基因组评估Hifiasm(UL)和Verkko

拟南芥(A.thaliana Col-0)是一种近交系植物有 5 条长染色体，2 号和 4 号染色体的短臂上有大量核糖体 DNA (rDNA)。基因组大小大约为125兆碱基对（Mb）。

不同组装方法，组装出结果如下：

Hifiasm (UL) 恰好产生 5 个长度至少500 kb的contigs 。其中三个是对应于第1、3和5号染色体的T2T contigs。Verkko只产生了一个与5号染色体对应的T2T contig(图6A)。

目前的根据Busco评估，Verkko assembly相对不太连续(图6B)，也不太完整(图6C)。

Verkko和Hifiasm(UL)组装都是更连续的hifiasm HiFi-only assembly，表明了 ultra-long reads重要性。

图6：拟南芥与马铃薯基因组组装情况

(a)不同植物基因组组装结果的telomere-to-telomere contigs 数量.

(b)不同植物基因组组装结果在去除少于 500kbcontigs后的Contig N50。

(c)不同植物基因组组装结果的problematical Genes情况

多倍体基因组评估Hifiasm(UL)和Hifiasm(HiFi)

作者组装了同源四倍体马铃薯基因组。马铃薯的染色体：4*12=48条染色体，基因组大小约1G。

由于Verkko不支持多倍体定相，因此仅进行 hifiasm (UL)和hifiasm(HiFi) 的比较。

通过利用后代的额外遗传图谱信息，hifiasm(UL)和 hifiasm(HiFi)都可以基于polyploidy graph-binning approach (Methods)组装四种单倍型。

ultra-long reads 的整合不仅显着增加了assembly连续性，而且还提高了所有单倍型的完整性(图6B)。

对于多倍体基因组组装，我们当前算法的主要限制是它需要来自后代的遗传图谱信息。

为了解决这个问题，作者使用Hi-C phasing实施了an experimental single-sample approach，将上述方法应用于同源四倍体马铃薯数据集，产生了四个单倍型组件，但是四个Hi-C phased haplotype assemblie是不平衡的，其中一个组装体比其他组装体大20%。

Method

Hifiasm(UL)如何结合ultra-long reads

与HiFireads构建backbone graph

1）ultra-long reads解决contained read问题：

目前contained read 的问题仍然不清楚，并且可能潜在地影响graph的完整性。

图7

Read h11 and h12 是由read h3覆盖的两个contained reads 。

在building graphs时，the string graph 删除了所有的 contained reads ，这样的话可能会在string graph中引入断点。

例如，read h12 对于一种单倍型(蓝色)是critical read，但对于另一单倍型(橙色)则是不必要的contained read。

如图7所示。移除读取h12不会影响橙色的单倍型，但会导致蓝色单倍型的中断。

如何识别关键的contained reads并将它们保留在string graph中？

当a HiFi read缺乏足够的informative variants以将其与reads originating from other repeat copies区分开时，作者将其视为a critical contained read (read h12 ).

当ultra-long reads比对到HiFi reads时，就可以知道contained read属于哪个单倍型，再决定它的保留位置。（如图8的h12被保留）

图8

2）The ultra-long-to-HiFi read alignment 也可以用来避免 the incorrect graph cleaning.

由于HiFi读取的长度有限，一些节点可能具有多条边，这使得组装者很难确定需要保留的真实边的数量。

例如，Hifiasm和HiCanu使用 a length-based strategy，该策略优先考虑overlap最长的边，并且通常会移除其他较短的边，这可能导致对真实边的过度切割或保留不相关的边。

通过利用the ultra-long-to-HiFi read alignment, hifiasm (UL) 能够确定每条边支持的超长读取的数量，从而提供额外的信息以防止错误的图形清理(图8)。

ultra-long reads构建integer graph

1. Mapping ultra-long reads into the integer space.

如图1C，对于一个ultra-long read，通过比对到HiFi reads，将ultra-long read的碱基转化为HiFi reads的路径。（仅保留节点标识符，忽略所有对齐细节和碱基对。）

意义：

完全避免expensive all-versus-all base-level read comparison；
确保ultra-long graph的精度与HiFi graph相当。
通过在 integer space中分析，graph的构建过程既高效又简单。

2. Calculating overlaps among ultra-long integer sequences.

鉴于上一步，hifiasm (UL) 只需要在 integer space中进行精确的overlap。

注意，这一步骤比传统的全对全不精确配对比对的速度要快得多。

3. Constructing an integer graph.

integer graph也是一种string graph，其中每个节点都是一个integer sequence。Hifiasm(UL)利用ultra-long integer sequences及其overlaps来构建integer graph(图1D)。

4. Producing integer contigs.

A contig 对应于non-branching path in the string graph.

给定integer graph中的一个contig , hifiasm (UL) 通过串联相应路径内的节点子序列来产生其序列(图1D)。

这些 integer contigs可以解析the initial HiFi graph中复杂结构的路径。

通过双图合并构建assembly graph

1）Hifiasm(UL)首先删除同时出现在initial HiFi graph和ultra-long integer contigs中的所有节点；

2）合并剩余节点并与ultra-long integer contigs 进行 overlap。

如图1E所示：在 final assembly graph中，除h7外的所有节点都来自ultra-long integer contigs。这是因为除节点h7外的所有节点都存在于initial HiFi graph(图1B)和ultra-long integer contigs(图1D)中。

Conclusion

作者本文中提出的混合组装算法Hifiasm(UL)，为在population-scale上进行T2T基因组组装提供了一种ultra-fast and robust 的解决方案。
作者预计，在未来几年，Hifiasm(UL)将成为众多大型T2T组装项目中的极具竞争力的de novo assembler，同时将有助于更全面地了解复杂的基因组区域。

感谢阅读！

由于作者水平有限，

论文解读难免存在不准确，欢迎批评指正。

作者：徐嘉潞

计算基因组学

分享计算基因组学与生物信息学相关的知识，研究进展等