文献通讯作者介绍:
Adam M. Phillippy 与 Sergey Koren来自美国国立卫生研究院的国家人类基因组研究所,他们近期合作发表的文章:
Rhie A, Nurk S, Cechova M, Hoyt SJ, Taylor DJ, Altemose N, Hook PW, Koren S, Phillippy AM. The complete sequence of a human Y chromosome. Nature. 2023 Aug 23.
Rautiainen M, Nurk S, Walenz BP, Logsdon GA, Porubsky D, Rhie A, Eichler EE, Phillippy AM, Koren S. Telomere-to-telomere assembly of diploid chromosomes with Verkko. Nat Biotechnol. 2023 Feb 16.
Nurk S, Koren S, Rhie A, Rautiainen M, et. al. The complete sequence of a human genome. Science. 2022 Apr;376(6588):44-53.
Miga KH, Koren S, Phillippy AM. Telomere-to-telomere assembly of a complete human X chromosome. Nature. 2020 Sep;585(7823):79-84. doi: 10.1038/s41586-020-2547-7. Epub 2020 Jul 14.
01 Abstract
二倍体基因组的完整组装是构建全基因组数据库的关键一步。
第一个真正完整的T2T人类基因组序列已经组装成功,通过ONT ultra-long readultra-long reads与 PacBio HiFi reads手动构建的高分辨率assembly graph。
作者的 Verkko 就是对上述的过程进行了改进并自动化,
Verkko 用于组装完整的二倍体基因组,是一个iterative,graph-based pipeline。
Verkko输出结果:得到两个单倍型的phased, diploid assembly,同时其中许多染色体能够实现T2T。
文章中Verkko复杂二倍体基因组组装:在 HG002 人类基因组上运行 Verkko,46 条二倍体染色体中有 20 条以 99.9997% 的准确度无间隙组装。
原文链接:https://www.nature.com/articles/s41587-023-01662-6
02 methods
2.1 Verkko overview
图1 verkko pipline overview
verkko pipline中关键组件,包括 Canu 、 MBG 、 GraphAligner 和 Rukki 。
verkko流程简要介绍:
●Homopolymer压缩(例如,对于所有n > 1,A 1 …A n变为 A 1 )可以简化组装过程。整个 Verkko 管道在Homopolymer压缩序列上运行,这些序列在最终Consensus阶段恢复。压缩后,LA 读数被纠错并用于构建 Multiplex de Bruijn graph。
●然后将 UL 读数与该图对齐,以修补覆盖范围差距并进一步解决重复和单倍型。
●使用来自额外亲本的单倍型特异性标记来识别单倍型路径。
●Verkko 的最终输出是父本和母本单倍型的分阶段二倍体组装,以及高度准确和解析的组装图。
verkko pipline详细的内容在Method 2.2-2.6进行介绍
2.2 Error correction and homopolymer compression
homopolymer compression:
所有homopolymers都被压缩为单个碱基。然后以全部对全部的方式比对读数并进行比较。
●如果一个 read的位置被多个比对的 reads覆盖,并且大多数其他reads在该位置上存在差异,则该read 中的位置被认为是错误的并被纠正。
●如果2个以上的 other reads支持该碱基,则保持不变。校正后的homopolymer-compressed LA 读数用于pipeline的所有下游阶段,并且仅在最终consensus stage恢复。
2.3 Microsatellite compression
例如,基因组序列ACGACGACG由重复3次的ACG单元组成,可能会被误称为ACGACGACGACG,其中包含一个额外的单元拷贝。作者扩展了 MBG 来执行微卫星压缩以掩盖这些错误。
微卫星单元定义为在序列中重复的 2-6 bp 的单个序列。
原理: 微卫星单元 >>>> 字符
与homopolymer 压缩类似,并且紧接着homopolymers压缩进行。
每个微卫星重复单元都由一个独特的字符表示,然后任何串联重复的字符都会像homopolymers一样合并在一起。
微卫星单元与字符表:每个可能的微卫星重复单位大小最多为 6 bp,都有自己的字符。每当一个单元重复至少两次时,就会在读数中检测到微卫星,并由三个属性编码:单元序列、单元重复次数和突出来的那一段序列。
ACGACGACGTC -> ACG 3 TC
给定一个单位长度n,有n 4^n 个可能的微卫星特征。考虑到所有可能的大小为2 到 6 个核苷酸的单位,字母表中的字符少于 2^16 个characters,因此每个字符都可以用 16-bit integer表示。
2.4 Multiplex de Bruijn graph
solid triplet的确定:
给定k聚体大小k ,长度为k的所有节点都可能是可解析的并被考虑在内。穿过节点的路径用于查找潜在可解析节点的跨越三元组。
对于所有可能可解析的节点,确定支持每个生成三元组的reads 数。
给定解析覆盖阈值t,如果跨越三元组的读取支持至少为t,它被认为是一个solid triplet。
默认情况下,如果潜在可解析节点的任何边未被solid triplet覆盖,则该节点将被标记为不可解析。
此后,将第一个节点和第三个节点长度为 k的solid triplet标记为无法解析的将被删除。
为resolvable nodes触及的每条边创建edge-node:
●如果边触及一个可解析节点,则该边节点的长度为k + 1,包含resolvable nodes的整个序列和后继节点的一对碱基对,并且在新创建的edge-node和不可解析节点之间添加一条边节点。
●如果边连接两个可解析节点,则边节点的序列就是包含这两个节点的路径的序列。
●边缘节点根据实体三元组连接。边缘节点根据实体三元组连接。给定一个实体三元组 (n1, n2, n3),在边节点 (n1, n2) 和 (n2, n3) 之间添加一条边。
●非分支路径被折叠成单个节点。
2.5 Graph resolution with UL reads
将 UL 读数与 LA 图对齐后,它们用于填补空白并解决重复问题。
第一步是连接 LA 图中由于覆盖间隙或错误而断开连接的节点。
第二步,在图中识别唯一节点并根据 UL 读取路径进行连接。
第三步,使用 UL 读取路径运行与 MBG 使用的算法相同的 Multiplex de Bruijn 图算法,以进一步解析图。
第一步 连接 LA 图中由于覆盖间隙或错误而断开连接的节点:
首先,在图中检测tips(两侧都没有边的节点)。
如果a UL read 比对上一个tip的末端和另一个tip的起始端,则这个ULread fill 了这两个tips的gap 区域。
GAP有正有负(图2):
正:{Ns}.
负:则从tip复制序列,并将边缘标记为具有适当的重叠。
图2 Gap的正负情况示例图
第二步,在图中识别唯一节点并根据 UL 读取路径进行连接:
识别唯一节点:
●将≥100 kb 的节点的平均 LA 读取覆盖率作为阈值。
●将所有节点与该平均覆盖率进行比较,任何长且接近平均覆盖率的节点都被标记为唯一。
●任何接近平均覆盖范围的节点,无论长度如何,如果路径一致,都将被标记为唯一。
●(如果接触节点的 UL 读取路径至少有 80% 相同(彼此的前缀或后缀相同),则该节点被视为路径一致。)
●气泡链分为单副本、两副本或多副本。一份链的核心节点被标记为唯一。
●对于双副本链,如果一个气泡有两条路径,其覆盖率大致相等,接近链覆盖率的一半,则气泡节点被标记为唯一。多副本链将被忽略。
根据 UL 读取路径进行连接
UL 读取将用于查找它们之间的 bridging paths:
●桥连接两个唯一的节点,中间没有唯一的节点。UL alignments的subpaths被collected为 bridges and inconsistent bridges。
●每对唯一节点之间具有最多读取支持的路径被视为consensus bridge path。保留覆盖范围至少为consensus path一半的所有路径,并丢弃所有其他覆盖范围较低的路径
●两个bridges 只共享一个节点端点,则它们被视为inconsistent。
●如果an inconsistent bridges的读取支持少于另一个的一半,则认为它是错误的并被删除。
●如果两个bridges的覆盖范围都不是另一个的两倍,则它们都被保留。
2.6 Haplotype reconstruction
Rukki用于从标记的组装图中提取单倍型,通过分析图节点内的单倍型特异性maker进行二倍体基因组的单倍型解析组装。
目前,Rukki主要针对trio-based的单倍型重建,使用从亲本 Illumina 读取中识别的parent-specific k-mers作为单倍型标记。
Rukki 首先根据相应单倍型标记的普遍性(出现频率)将图节点标记为母本(maternal)或父本(paternal),如果标记存在歧义,则将它们保持未标记状态。
如果一个图节点的长度超过了一个特定的阈值(大于500千碱基),我们就将其称为“长节点”,它用做seed heuristic extension of the haplotype paths。
为了使扩展过程对虚假交叉单倍型节点更加稳健,每次将长节点s纳入路径时,Rukki 都会分析其邻域以尝试识别下一个长节点候选者 t。
为此,Rukki 考虑了由长节点所限定的子图,其中 s 是其中的一个源节点。
如果子图中所有的源节点和 sinks 都被标记,并且在当前路径的单倍型中只存在一个与之兼容的源节点和 sinks ,那么相应的汇聚节点会被标记为下一个长节点候选者 t。
如果找到了符合条件的汇聚节点 t,则以优先考虑连接源节点 s 和汇聚节点 t 的任何路径上的节点。
03 results
完整的二倍体基因组组装:
在用 HG002 人类样本上运行Verkko 。
将Hi-C和Trio信息投到Verkko图上,并将其与其他软件组装结果进行比较。
使用Quast将结果与最近完成的HG002 ChrX和ChrY进行比较,并用reference-free methods评估了组装质量和精度(表1,表2):
●长度:Verkko 生产了兆碱基级的 phase blocks。
●当添加 Hi-C 或 trio 信息时,与 Hifiasm 相比,Verkko 装配的错误更少(Hi-C 的错误少 3.7 倍,trio 的错误少 2.6 倍)。
●Verkko 使用 ONT 序列填补了该组装中的 48 个 HiFi GAP。
●Verkko 在使用trio 时比 Hifiasm 具有更高的Hamming error,但在使用 Hi-C 时,Verkko的Hamming error较低。
●当前的 Hi-C 或trio不能纠正初始组装中的Hamming error,因此不能低于 Verkko 单元的 0.13% Hamming error。
●Verkko 和 Hifiasm 组装都高度完整,Verkko 恢复了稍多的多拷贝基因,但代价是单个单倍型内的错误重复率稍高(表 2)。
●当使用 Hi-C 数据时,这种效应最为明显,因为与trio相比,单倍型错误分配或缺乏分配的比率更高。
表1 quality and completeness of HG002 diploid assemnlies
表2 Asmgene analysis on the haplotype-resolved assemblies.
用全覆盖HG002数据集(105×HiFi,85×ONT UL)生成迄今为止该基因组最连续的组装:
●trio + Verkko assembly的contig NG50 size 大小几乎是 Hi-C+ Verkko assembly 两倍(表2 )。
●尽管起始 HiFi 覆盖范围较高,但 Verkko 用 ONT 数据填补了 102 个 HiFi 空白。
●着丝粒重复阵列的复杂区域内更加准确的组装,例如chr10中verrk与最近发表的HG002chr10父本单倍型的结果比较中,verkko的着丝粒区域没有混杂大量的母本 markers,同时是0gap的。相比之下已发表的结果中有4gaps.(图3)。
图3 最近已发表的父本chr10的HG002二倍体组装(上)和同一染色体的 Verkko assembly(下)的 IGV
在 HG002 的 46 条染色体中,Verkko+trio information:Verkko将其中 27 条解析为single scaffolds。其中,20 个T2T完全组装而成,没有间隙.这比之前的 HG002 benchmark assembly(包括 19 个完整scaffolds和仅 1 个完整contig)有了显着改进。
Verkko+ Hi-C:Verkko 就能够将 9 条染色体解析成single scaffolds,其中 7 条是无间隙的。
使用来自同一样本的 Strand-seq 数据评估了Verkko trio assembly,以检测组装中的倒置和易位:
确认了 18 个杂合倒位,范围从 6 kb 到 4.1 Mb(中位数 237 kb),每个单倍型占 9 Mb(图4 )。
这包括在之前的 HG002 组件中未正确解析的三个医学相关区域。
Verkko 的组装改进了人工审核的参考基因组,利用了 Verkko 方法来验证了在 T2T 组装 ChrY 时发生的一个倒位错误(图5)。
图4 The Verkko trio assembly的母本和父本单倍型中杂合倒位的大小与该大小倒位的计数。
图5 Strand-seq alignments与校正前的reference chrY (顶部)和Verkko trio chrY assembly (底部)。
04 Discussion
Verkko 利用 LA reads and UL reads 的互补性来生成比单独使用其中一种时更连续和更准确的组装。结合 Hi-C 或 trio 信息,Verkko 可以在足够的测序覆盖范围内为染色体子集生成完整的、单倍型解析的支架。
Verkko 解析完整单倍型的能力,可以更好地理解大型、复杂的结构变异、表型和疾病之间的关系,开创了全面基因组分析的新时代。
使用建议:
对于完整的二倍体基因组组装,我们目前建议使用数据:
50× genomic coverage of LA reads
50× in UL reads >100 kb
50× of parental short reads.
在没有TRIO的情况下,Hi-C或Strand-Seq可以用于chromosome-scale phasing 。
verkko受限的情况:
1、Verkko的运行时间比仅支持HiFi的assembler长.
2、Verkko的一个假设,即它假定DNA测序数据的覆盖是均匀的。也就是说,在整个DNA序列中,不同区域的测序覆盖度相似。如果遇到了非均匀的覆盖(例如在复杂的环境中,包含了多个不同的生物体的DNA),那么使用Verkko进行组装可能结果不准,可以进行进一步的改进或开发。
3、Verkko是一种模块化 pipeline ,可适应不同的技术或特定组件的替代。例如,Verkko可与其他LA读取技术兼容,例如ONT ‘duplex’ sequencing。此外,Verkko生成的图在本质上与LJA中的图相似,因此LJA图也应可以被用作基础,而不不一定是基于最小化的稀疏De Bruijn图(MBG)。
然而,Verkko的UL解析和单倍型遍历方法是使用基于高保真的MBG图开发的,可能需要针对不同数据类型和工具的特点进行调整。
未来的版本可以将单倍型信息与图构建结合起来,或者可以根据单倍型标记破坏错误的图节点。
感谢阅读!
由于作者水平有限,
论文解读难免存在不准确,欢迎批评指正。
作者:徐嘉潞