这几天,如果说游戏圈最火的是《黑神话:悟空》,那么测序圈最火的一定是飓风,CycloneSEQ这个飓风,就是华大智造马上要商业化推出的那款纳米孔测序仪。
早在今年六月初,华大智造就宣布要商业化兄弟公司华大序风研发生产的纳米孔测序产品。一直以来,大家对于这款纳米孔测序仪有很多猜测,关于其技术路线、实现方式等有各种小道消息。
几天前,华大序风联合华大智造等在bioRxiv上挂网了预印本文章,主动曝光了自家开发的纳米孔测序技术平台CycloneSEQ,不藏着掖着了,也不用外界再来猜测了...
犹如其名字一样,人们惊呼测序飓风来袭,ONT的竞争者终于来了,一时间引发海外测序社群中众多热议和讨论。
海外群体一边震惊地问“他们什么时候开始做纳米孔测序的”,另一边惊喜地发现,在纳米孔测序上,中国公司这次带着独特的创新而来。作为短读长测序领域的强势崛起者,在长读长测序领域,华大智造也正在迎头赶上。
CycloneSEQ 实现了在单张芯片上进行长时间测序(107 小时)的高产量(>50 Gb)。在人类基因组 DNA 测序中,CycloneSEQ 能够产生 N50 33.6 kb和模态97.0% 准确率的长读长。
在这篇名为《单分子纳米孔测序平台》的预印本文章中,华大团队详细介绍了其纳米孔测序平台CycloneSEQ的几项独特创新与改进,包括全新的马达和孔蛋白、NLC纳米孔局部化学测序、碱基调用算法、高密度测序芯片设计等。
单链 DNA穿过纳米孔阻碍离子流动所产生的电流变化,提供了识别不同DNA碱基的纳米孔信号,通过检测这些电流波动,并借助机器学习算法进行分析,便可测定DNA序列。这样的纳米孔测序原理经学术界和工业界的不断验证开发,已经被牛津纳米孔技术公司等所应用并商业化。
纳米孔、控速马达蛋白、承载纳米孔的膜、测序文库构建等构成了纳米孔测序的化学基础,而测序芯片与信号采集专用集成电路(ASIC)等整合的硬件、用于监控分析DNA读数的生信软件则构成了纳米孔测序的实施主体。在发表的研究中,华大展示了他们对这其中多个元素的创新开发思路。
首先,在最关键的孔蛋白和马达蛋白上,通过在深海宏基因组数据库中进行全面的序列和结构搜索,他们发现了许多具有新序列和结构的蛋白。这些新发现的蛋白质与已知的孔蛋白或解旋酶(马达蛋白)表现出较低的序列同源性(约 35%-50%),通过AlphaFold3 预测的结构表明,它们与已知结构相比表现出显著的结构新颖性。
AlphaFold3 结构预测解旋酶(上)和孔蛋白(下)的示意图
通过广泛的实验筛选和突变工程,他们候选了马达蛋白BCH-X(实现了约380 bp/s的测序速度)和孔蛋白BCP-Y(可以高效嵌入膜中,在不同电压下呈现低噪声的开孔电流)。BCP-Y与BCH-X结合,可以促进ssDNA转位和测序,测序电流信号具有较高的信号复杂度和良好的信噪比。
解旋酶 BCH-X 与孔蛋白 BCP-Y 偶联产生的单个 DNA 链的代表性纳米孔测序电流信号
其次,在测序方法优化上,华大引入了新的纳米孔局部化学 (NLC) 测序。纳米孔内或附近的局部化学环境会影响到测序的性能和准确性,如局部的离子浓度、pH 值的变化和其他分子种类的存在与否等等,本质上这改变了核酸分子在测序过程中的速度和行为。
NLC化学在纳米孔的每一侧创建了一个不对称的化学环境。由于马达蛋白特别是使用的解旋酶需要镁离子和 ATP 才能正确解开 DNA 双螺旋,华大团队利用镁离子创建了这个不对称的化学环境。具体来说,在顺式侧,测序缓冲液不含镁离子 (Mg2+),而反式侧的电解质含有 20 mM Mg2+。
纳米孔局部化学 (NLC) 测序方法示意图,图下为Mg2+ 离子浓度分布
当在顺式侧引入文库分子(dsDNA 和解旋酶的混合物)时,由于缺乏 Mg2+,DNA 双螺旋无法正确解开。而在施加跨膜电位(U = 180 mV)后,Mg2+离子从反式侧运转到顺式侧,在顺式侧的孔附近产生Mg2+局部浓度梯度。这样,纳米孔入口附近被电场捕获的文库分子就在被Mg-ATP激活的解旋酶作用下开始被测序。
与传统纳米孔测序电流轨迹相比,NLC测序产生了非常相似且看起来更为丰富的特征电流值。
还有在碱基调用算法上,华大团队采用了预训练加微调的开发思路,将Facebook开发用于语音任务的预训练模型wav2vec 2.0用于碱基调用。语音数据和纳米孔产生的电信号数据从形式上来看有着异曲同工之处。本质上,预训练模型从大量未标记数据中学习 “理解”数据,然后微调使用预训练的权重来快速收敛并提高下游任务的准确性。
在标记数据有限的情况下,这样的算法提供了一种相对低成本却高准确率的方法。对人类和其他物种数据的实验表明,这种预训练使模型能够跨物种推广,当然在涵盖多物种的多样化数据集上进行预训练可进一步降低错误率并加速收敛。
最后,华大团队改进了纳米孔测序的芯片设计。每个传感芯片本质上是一个微井阵列,微井中铺有膜(华大这里是用了脂质分子双层膜),蛋白孔被插入均匀形成的膜阵列中,每个微井的底部都与微电极连接,电极可精确测量核苷酸序列通过孔引起的离子电流中断。
华大在测序芯片上使用了高密度纳米孔阵列,优化了纳米孔之间的距离,每个微井间距 200 μm(因此最大纳米孔密度约为每平方毫米 28.9 个)。他们也设计了微井壁结构,以最大限度地增加每个孔内的电解质缓冲液体积,从而延长测序运行时间。除此之外,他们还缩减了微井的直径,最小化孔径(直径≤76 μm)最终能减少膜面积,而较小的膜面积可实现较低的膜电容(≤20 pF)和降低的噪声,从而提高测序的信噪比。
最终,CycloneSEQ的流通池由上样处理液体的微流控芯片、一个含有纳米孔的阵列芯片、一个信号采集专用集成电路(ASIC)和一个带有表面贴装元件的印刷电路板组成。
基于这样的设计,华大CycloneSEQ可以支持超过四天的连续测序,并具有一致的开孔电流,在单个流通池上对大肠杆菌基因组进行了 107 小时的测序(这里不使用缓冲液重新冲洗或文库清洗),累计产生了 53.4 Gb 数据。
在测序流程上,待测序的样本通过裂解、核酸提取等方法处理,提取出长链DNA分子。然后对这些DNA分子进行修复和接头连接。随后将流动池安装在CycloneSEQ测序仪的插槽中,进行芯片自检,系统会指示芯片是否符合质量标准以及每个芯片上有效纳米孔的数量。之后按照特定顺序将测序试剂和待测序的文库分子依次加入芯片的端口,通过软件启动测序过程。一旦开始测序,与测序仪搭配的高性能工作站便可开始碱基调用过程。
那么CycloneSEQ的测序性能到底怎么样?华大在这篇文章中也给出了一些数据。
首先是标准品HG002的WGS测序,平均读取长度为 19.2 kb,N50为 33.6 kb(可以理解为读取中有一半的序列长度大于该值),平均碱基质量值主要在 12 到 16 之间。关于准确率,读取的模态准确率为97.0%,总体每碱基错误率为 3.94%,其中最常见的错误类型是删除,其次是错配和插入。
在HG002基因组的变异识别上,华大使用了内部生物信息学工具 LRAPmut 和 LRAPsv进行变异识别。对于SNP,在 30x测序深度下实现了 0.992 的精度和 0.990 的召回率;对于indel,在 30x覆盖率下实现了 0.955 的精度和 0.890 的召回率;对于SV,在 40x覆盖率下实现了 0.948 的精度和 0.954 的召回率。
之后,华大团队还利用CycloneSEQ产出的数据对HG002进行了全基因组从头组装。组装的 NGA50 值为 23.8 Mb(表明 50%的基因组由长度至少为 23.8 Mb 的重叠群组装而成),组装的总体错误率估计为 0.12%,其中缺失对总体错误率影响最大。
他们还展示了利用CycloneSEQ进行宏基因组分析的能力,从 ZymoBIOMICS 肠道微生物组标准模拟宏基因组样本中生成了 7.7 Gb 测序数据,与相应的参考基因组比对,能够根据测序深度准确量化样本中 17 种物种中的 15 种的相对 DNA 丰度,只有两种最不丰富的物种无法从测序数据中识别。
除此之外,他们也介绍了使用CycloneSEQ进行单细胞RNA 测序的能力,大多数转录本可以从单个 CycloneSEQ 长读中获得全长覆盖。CycloneSEQ 在每个细胞中检测到的基因总数与短读长DNBSEQ 数据呈现出很强的线性相关性(R2 = 0.95);CycloneSEQ 的基因表达定量结果也与 DNBSEQ 短读测序的结果高度一致(R2 = 0.93),这都表明CycloneSEQ 平台能够在单细胞测序中准确定量转录本。
总体上来看,CycloneSEQ纳米孔测序平台已经提示了不错的准确率、通量及持续运行的性能,提示了其在人类全基因组从头组装、变异识别、宏基因组测序和单细胞 RNA 测序等基因组学不同领域的应用潜力。
这是国内纳米孔测序平台首次公开发表技术开发细节、供广泛审阅和讨论,这无疑为华大智造后续推出纳米孔测序仪提供了不少底气和支持。不只是DNA测序,未来的RNA、表观修饰、蛋白、其他大小分子等方面,纳米孔作为分子传感的无限前景才刚刚开始。
这篇bioRxiv文章的发表之后,我们也看到华大智造已经联合实测单位在进行其纳米孔测序的对外宣讲。这些市场预热表明,华大智造离正式发布自己的纳米孔测序仪和相关产品已经不远了。
持续关注。
参考:
https://doi.org/10.1101/2024.08.19.608720
Discord Aseq、X、LinkedIn等相关讨论
欢迎转发、分享给更多关注的朋友!!