组会论文 | nature biotechnology(IF=46):用 Verkko 进行二倍体染色体的端粒到端粒组装

文摘   科学   2023-09-22 10:17   芬兰  

文献通讯作者介绍:

Adam M. Phillippy  Sergey Koren来自美国国立卫生研究院的国家人类基因组研究所他们近期合作发表的文章:

Rhie A, Nurk S, Cechova M, Hoyt SJ, Taylor DJ, Altemose N, Hook PW, Koren S, Phillippy AM. The complete sequence of a human Y chromosome. Nature. 2023 Aug 23.

Rautiainen M, Nurk S, Walenz BP, Logsdon GA, Porubsky D, Rhie A, Eichler EE, Phillippy AM, Koren S. Telomere-to-telomere assembly of diploid chromosomes with Verkko. Nat Biotechnol. 2023 Feb 16.

Nurk S, Koren S, Rhie A, Rautiainen M, et. al. The complete sequence of a human genome. Science. 2022 Apr;376(6588):44-53.

Miga KH, Koren S, Phillippy AM. Telomere-to-telomere assembly of a complete human X chromosome. Nature. 2020 Sep;585(7823):79-84. doi: 10.1038/s41586-020-2547-7. Epub 2020 Jul 14. 

01  Abstract

二倍体基因组的完整组装是构建全基因组数据库的关键一步。

第一个真正完整的T2T人类基因组序列已经组装成功,通过ONT ultra-long readultra-long readsPacBio HiFi reads手动构建的高分辨率assembly graph

作者的 Verkko 就是对上述的过程进行了改进并自动化,

Verkko 用于组装完整的二倍体基因组,是一个iterativegraph-based pipeline

Verkko输出结果:得到两个单倍型的phased, diploid assembly,同时其中许多染色体能够实现T2T

文章中Verkko复杂二倍体基因组组装:在 HG002 人类基因组上运行 Verkko46 条二倍体染色体中有 20 条以 99.9997% 的准确度无间隙组装。

原文链接:https://www.nature.com/articles/s41587-023-01662-6

02  methods

2.1 Verkko overview

1 verkko pipline overview

verkko pipline关键组件,包括 Canu MBG GraphAligner Rukki

verkko流程简要介绍:

Homopolymer压缩(例如,对于所有n > 1A 1 …A n变为 A 1  )可以简化组装过程。整个 Verkko 管道在Homopolymer压缩序列上运行,这些序列在最终Consensus阶段恢复。压缩后,LA 读数被纠错并用于构建 Multiplex de Bruijn graph

然后将 UL 读数与该图对齐,以修补覆盖范围差距并进一步解决重复和单倍型。

使用来自额外亲本的单倍型特异性标记来识别单倍型路径。

Verkko 的最终输出是父本和母本单倍型的分阶段二倍体组装,以及高度准确和解析的组装图。

verkko pipline详细的内容在Method 2.2-2.6进行介绍

2.2 Error correction and homopolymer compression

homopolymer compression

所有homopolymers都被压缩为单个碱基。然后以全部对全部的方式比对读数并进行比较。

Error correction

如果一个 read的位置被多个比对的 reads覆盖,并且大多数其他reads在该位置上存在差异,则该read 中的位置被认为是错误的并被纠正。

如果2个以上的 other reads支持该碱基,则保持不变。校正后的homopolymer-compressed  LA 读数用于pipeline的所有下游阶段,并且仅在最终consensus stage恢复。

2.3 Microsatellite compression

例如,基因组序列ACGACGACG由重复3次的ACG单元组成,可能会被误称为ACGACGACGACG,其中包含一个额外的单元拷贝。作者扩展了 MBG 来执行微卫星压缩以掩盖这些错误。

微卫星单元定义为在序列中重复的 2-6 bp 的单个序列。

原理 微卫星单元 >>>> 字符

homopolymer 压缩类似,并且紧接着homopolymers压缩进行。

每个微卫星重复单元都由一个独特的字符表示,然后任何串联重复的字符都会像homopolymers一样合并在一起。

微卫星单元与字符表:每个可能的微卫星重复单位大小最多为 6 bp,都有自己的字符。每当一个单元重复至少两次时,就会在读数中检测到微卫星,并由三个属性编码:单元序列、单元重复次数和突出来的那一段序列。

ACGACGACGTC   ->      ACG    3    TC       

给定一个单位长度n,有n 4^n 个可能的微卫星特征。考虑到所有可能的大小为2 6 个核苷酸的单位,字母表中的字符少于 2^16 characters,因此每个字符都可以用 16-bit integer表示。

2.4 Multiplex de Bruijn graph

solid triplet的确定:

给定k聚体大小k ,长度为k的所有节点都可能是可解析的并被考虑在内。穿过节点的路径用于查找潜在可解析节点的跨越三元组。

对于所有可能可解析的节点,确定支持每个生成三元组的reads 数。

给定解析覆盖阈值t,如果跨越三元组的读取支持至少为t,它被认为是一个solid triplet

默认情况下,如果潜在可解析节点的任何边未被solid triplet覆盖,则该节点将被标记为不可解析。

此后,将第一个节点和第三个节点长度为 ksolid triplet标记为无法解析的将被删除。

resolvable nodes触及的每条边创建edge-node

如果边触及一个可解析节点,则该边节点的长度为k  +  1,包含resolvable nodes的整个序列和后继节点的一对碱基对,并且在新创建的edge-node和不可解析节点之间添加一条边节点。

如果边连接两个可解析节点,则边节点的序列就是包含这两个节点的路径的序列。

边缘节点根据实体三元组连接。边缘节点根据实体三元组连接。给定一个实体三元组 (n1, n2, n3),在边节点 (n1, n2) (n2, n3) 之间添加一条边。

非分支路径被折叠成单个节点。

2.5 Graph resolution with UL reads

UL 读数与 LA 图对齐后,它们用于填补空白并解决重复问题。

第一步是连接 LA 图中由于覆盖间隙或错误而断开连接的节点。

第二步,在图中识别唯一节点并根据 UL 读取路径进行连接。

第三步,使用 UL 读取路径运行与 MBG 使用的算法相同的 Multiplex de Bruijn 图算法,以进一步解析图。

第一步 连接 LA 图中由于覆盖间隙或错误而断开连接的节点:

首先,在图中检测tips(两侧都没有边的节点)。

如果a UL read 比对上一个tip的末端和另一个tip的起始端,则这个ULread fill 了这两个tipsgap 区域。

GAP有正有负(图2

正:{Ns}.

负:则从tip复制序列,并将边缘标记为具有适当的重叠。

2 Gap的正负情况示例图

第二步,在图中识别唯一节点并根据 UL 读取路径进行连接:

识别唯一节点:

≥100 kb 的节点的平均 LA 读取覆盖率作为阈值

将所有节点与该平均覆盖率进行比较,任何长且接近平均覆盖率的节点都被标记为唯一。

任何接近平均覆盖范围的节点,无论长度如何,如果路径一致,都将被标记为唯一。

(如果接触节点的 UL 读取路径至少有 80% 相同(彼此的前缀或后缀相同),则该节点被视为路径一致。)

气泡链分为单副本、两副本或多副本。一份链的核心节点被标记为唯一。

对于双副本链,如果一个气泡有两条路径,其覆盖率大致相等,接近链覆盖率的一半,则气泡节点被标记为唯一。多副本链将被忽略。

根据 UL 读取路径进行连接

UL 读取将用于查找它们之间的 bridging paths

桥连接两个唯一的节点,中间没有唯一的节点。UL alignmentssubpathscollectedbridges and inconsistent bridges

每对唯一节点之间具有最多读取支持的路径被视为consensus bridge path。保留覆盖范围至少为consensus  path一半的所有路径,并丢弃所有其他覆盖范围较低的路径

两个bridges 只共享一个节点端点,则它们被视为inconsistent

如果an inconsistent bridges的读取支持少于另一个的一半,则认为它是错误的并被删除。

如果两个bridges的覆盖范围都不是另一个的两倍,则它们都被保留。

2.6 Haplotype reconstruction

Rukki用于从标记的组装图中提取单倍型通过分析图节点内的单倍型特异性maker进行二倍体基因组的单倍型解析组装。

目前,Rukki主要针对trio-based的单倍型重建,使用从亲本 Illumina 读取中识别的parent-specific k-mers作为单倍型标记。

Rukki 首先根据相应单倍型标记的普遍性(出现频率)将图节点标记为母本(maternal)或父本(paternal),如果标记存在歧义,则将它们保持未标记状态。

如果一个图节点的长度超过了一个特定的阈值(大于500千碱基),我们就将其称为长节点,它seed heuristic extension of the haplotype paths

为了使扩展过程对虚假交叉单倍型节点更加稳健,每次将长节点s纳入路径时,Rukki 都会分析其邻域以尝试识别下一个长节点候选者 t

为此,Rukki 考虑了由长节点所限定的子图,其中 s 是其中的一个源节点。

如果子图中所有的源节点和 sinks 都被标记,并且在当前路径的单倍型中只存在一个与之兼容的源节点和 sinks ,那么相应的汇聚节点会被标记为下一个长节点候选者 t

如果找到了符合条件的汇聚节点 t,则以优先考虑连接源节点 s 和汇聚节点 t 的任何路径上的节点。

03 results

完整的二倍体基因组组装:

在用 HG002 人类样本上运行Verkko

数据: HiFi+ONT reads

Hi-CTrio信息投到Verkko图上,并将其与其他软件组装结果进行比较。

使用Quast将结果与最近完成的HG002 ChrXChrY进行比较,并用reference-free methods评估了组装质量和精度(1,表2):

长度:Verkko 生产了兆碱基级的 phase blocks

当添加 Hi-C trio 信息时,与 Hifiasm 相比,Verkko 装配的错误更少(Hi-C 的错误少 3.7 倍,trio 的错误少 2.6 倍)。

Verkko 使用 ONT 序列填补了该组装中的 48 HiFi GAP

Verkko 在使用trio 时比 Hifiasm 具有更高的Hamming error,但在使用 Hi-C ,VerkkoHamming error较低。

当前的 Hi-C trio不能纠正初始组装中的Hamming error,因此不能低于 Verkko 单元的 0.13% Hamming error

Verkko Hifiasm 组装都高度完整,Verkko 恢复了稍多的多拷贝基因,但代价是单个单倍型内的错误重复率稍高(表 2)。

当使用 Hi-C 数据时,这种效应最为明显,因为与trio相比,单倍型错误分配或缺乏分配的比率更高。

1 quality and completeness of HG002 diploid assemnlies

2 Asmgene analysis on the haplotype-resolved assemblies.

用全覆盖HG002数据集(105×HiFi85×ONT UL)生成迄今为止该基因组最连续的组装:

trio + Verkko assemblycontig NG50 size 大小几乎是 Hi-C+ Verkko assembly 两倍(表2 )。

尽管起始 HiFi 覆盖范围较高,但 Verkko ONT 数据填补了 102 HiFi 空白。

着丝粒重复阵列的复杂区域内更加准确的组装,例如chr10verrk与最近发表的HG002chr10父本单倍型的结果比较中,verkko的着丝粒区域没有混杂大量的母本 markers,同时是0gap的。相比之下已发表的结果中有4gaps.(图3)。

3  最近已发表的父本chr10HG002二倍体组装(上)和同一染色体的 Verkko assembly(下)的 IGV

HG002 46 条染色体中,Verkko+trio information:Verkko将其中 27 条解析为single scaffolds。其中,20 T2T完全组装而成,没有间隙.这比之前的 HG002 benchmark assembly(包括 19 个完整scaffolds和仅 1 个完整contig)有了显着改进。

Verkko+ Hi-C:Verkko 就能够将 9 条染色体解析成single scaffolds,其中 7 条是无间隙的。

使用来自同一样本的 Strand-seq 数据评估了Verkko trio assembly,以检测组装中的倒置和易位:

确认了 18 个杂合倒位,范围从 6 kb 4.1 Mb(中位数 237 kb),每个单倍型占 9 Mb(图4 )。

这包括在之前的 HG002 组件中未正确解析的三个医学相关区域。

Verkko 的组装改进了人工审核的参考基因组,利用了 Verkko 方法来验证了在 T2T 组装 ChrY 时发生的一个倒位错误(图5)。

4  The Verkko trio assembly的母本和父本单倍型中杂合倒位的大小与该大小倒位的计数。

5  Strand-seq alignments与校正前的reference  chrY (顶部)和Verkko trio chrY assembly (底部)。

04 Discussion

Verkko 利用 LA reads and UL reads 的互补性来生成比单独使用其中一种时更连续和更准确的组装。结合 Hi-C trio 信息,Verkko 可以在足够的测序覆盖范围内为染色体子集生成完整的、单倍型解析的支架。

Verkko 解析完整单倍型的能力,可以更好地理解大型、复杂的结构变异、表型和疾病之间的关系,开创了全面基因组分析的新时代。

使用建议:

对于完整的二倍体基因组组装,我们目前建议使用数据:

50× genomic coverage of LA reads

50× in UL reads >100 kb

50× of parental short reads.

在没有TRIO的情况下,Hi-CStrand-Seq可以用于chromosome-scale phasing

verkko受限的情况:

1Verkko的运行时间比仅支持HiFiassembler.

2Verkko的一个假设,即它假定DNA测序数据的覆盖是均匀的。也就是说,在整个DNA序列中,不同区域的测序覆盖度相似。如果遇到了非均匀的覆盖(例如在复杂的环境中,包含了多个不同的生物体的DNA),那么使用Verkko进行组装可能结果不准,可以进行进一步的改进或开发。

3Verkko是一种模块化 pipeline ,可适应不同的技术或特定组件的替代。例如,Verkko可与其他LA读取技术兼容,例如ONT ‘duplex’ sequencing。此外,Verkko生成的图在本质上与LJA中的图相似,因此LJA图也应可以被用作基础,而不不一定是基于最小化的稀疏De Bruijn(MBG)

然而,VerkkoUL解析和单倍型遍历方法是使用基于高保真的MBG图开发的,可能需要针对不同数据类型和工具的特点进行调整。

4verkko是在 LA and UL read resolution之后使用trioHi-C 信息。

因此,在图构建过程中引入的switch errors不会被后续阶段纠正。

未来的版本可以将单倍型信息与图构建结合起来,或者可以根据单倍型标记破坏错误的图节点。


感谢阅读!

由于作者水平有限,

论文解读难免存在不准确,欢迎批评指正。


作者:徐嘉潞

计算基因组学
分享计算基因组学与生物信息学相关的知识,研究进展等