Journal of Genetics and Genomics |纳米孔测序蓬勃发展的十年
综述论文
● 期刊:Journal of Genetics and Genomics (IF:6.6)
● 原文链接DOI: https://doi.org/10.1016/j.jgg.2024.09.007
单位无权限下载PDF时,备选作者全文分享链接: https://authors.elsevier.com/a/1k5Qd5ybmr1JwB
● 2024年12月6日,中国农业科学院(深圳)农业基因组研究所刘永鑫组与武汉贝纳科技有限公司、扬州大学兽医学院在Journal of Genetics and Genomics正式发表了题为“Nanopore sequencing: flourishing in it steenage years”的文章。仅在Advanced online的2个月内,被引3次。
● 第一作者:张天缘
● 通讯作者:刘永鑫(liuyongxin@caas.cn)
● 合作作者:李汉洲、蒋冕、侯辉宇、高云云、李亚丽、王甫豪、王俊、彭凯
● 主要单位:中国农业科学院(深圳)农业基因组研究所、武汉贝纳科技有限公司、扬州大学兽医学院
过去十年,纳米孔测序技术经历了显著的发展和变革,从最初的新兴技术逐渐成为基因组测序领域的重要工具。随着下一代测序(next-generation sequencing)技术的不断进步,纳米孔测序也在持续改进,国内已有多家测序公司陆续推出了纳米孔测序仪。该技术支持DNA和RNA测序,广泛应用于从端粒到端粒(telomere-to-telomere, T2T)的基因组组装、直接RNA测序(direct RNA sequencing, DRS)和宏基因组学等领域。纳米孔测序因其开放性和多功能性,正成为越来越多研究团队的优先选择。它提供了一种更快速、成本更低的方法,具有更长的测序读长,在复杂基因组组装、病原体检测、环境监测和人类疾病研究中展现了巨大的潜力,为测序技术提供了新的视角。
背景
在过去十年中,纳米孔测序技术的出现和迅速发展极大地改变了遗传学研究领域。这一被视为第四代测序技术的革命性进步,打破了传统方法,拓宽了生物学研究、疾病检测和生态监测的可能性。在纳米孔测序时,电阻膜上的纳米孔蛋白在马达蛋白的帮助下引导单链DNA穿过。每当核苷酸通过时,都会引起膜上的离子电流的变化,通过测定电流变化确定DNA序列。纳米孔测序的概念最早于20世纪80年代提出。1989年6月,David Deamer教授首先提出了纳米孔测序的概念,即单个核苷酸在穿越通道时会导致电流流动的变化。1996年,John J. Kasianowicz展示了使用α-溶血素纳米孔检测单个核酸分子的技术,引起了可测量的电流变化,为纳米孔测序奠定了基础。2005年,第一家开发纳米孔测序技术的公司——牛津纳米孔技术(Oxford Nanopore Technologies, ONT)成立。经过十年的研发,该公司在2014年推出了首款商用纳米孔测序仪MinION。纳米孔测序的一个重要优势是能够产生跨越数千个碱基的长读长序列。自其问世以来,这项技术已从实验室内的科学研究工具,演变成为在多种环境下增强遗传信息可及性的多功能平台,测序地点可拓展到偏远的野外地区。目前,纳米孔测序在不同研究领域中的应用日益广泛。除了ONT公司的测序仪(如SmidgION、Flongle、MinION、GridION和PromethION),许多国产纳米孔测序平台也相继问世,例如齐碳科技(Qitan Technology)的QNome-9604测序仪,安序源(Axbio Biotechnology)的AXP100,普译(Polyseq)的PolyseqOne,今是科技(Geneus-tech)的Gseq-500,以及华大智造(BGI)的CycloneSEQ。与ONT类似,这些技术普遍面临提高测序准确性的挑战。然而,持续的研究正致力于解决这些限制,并进一步提高纳米孔测序的效率和实用性。
在这篇综述中,我们记录并分析了基因组学中的关键里程碑和技术进步,探讨了纳米孔测序从2014年至2024年的深远影响。总的来说,我们介绍了其在准确性、测序长度、产量和成本效益等方面所取得的重大改进。这些改进包括纳米孔设计、测序策略及其应用方面的进展。通过分析这些进展和应用,本研究旨在突出纳米孔测序技术在科学研究中的重要性。
图1 | 过去十年纳米孔测序的关键发展。
(A) 从2014年到2024年,各种纳米孔测序平台和试剂盒的发展和发布时间线概览。重要的里程碑包括MinION、GridION、Flongle、PromethION以及各种中国纳米孔平台的发布,以及测序技术的重大更新,如R7.3、R9.4.1、R10和FLO-PRO004RA(RNA004)芯片。
(B) 纳米孔测序机制的示意图,突出显示了从R9.4.1到R10芯片的过渡。R10芯片采用双读头设计。这种配置通过交叉验证核苷酸序列来提高碱基判定的准确性。
(C) 中国纳米孔测序仪Gseq-500和AXP-100的测序原理采用合成法纳米孔测序(Nanopore Sequencing by Synthesis, NSBS)策略,在DNA聚合酶驱动的DNA链合成过程中,通过对碱基切割时的标签进行测序来确定核苷酸序列。
过去十年中纳米孔测序技术的发展和突破
建立纳米孔测序社群(2014-2016)
在这个阶段,纳米孔测序技术主要处于发展的初期和验证阶段。2014年,牛津纳米孔技术公司(ONT)发布了其首款产品——MinION测序仪,配备了R6、R7和R7.3芯片。这是首款商业、便携的长读长纳米孔测序仪,旨在评估市场接受度和技术平台的可行性。随后,R7.3芯片再次提高了测序的准确性和稳定性。通过开发和改进R9及后续的R9.4芯片,ONT在其测序技术上取得了显著进步。R9芯片的平均准确率为87%,而R9.4进一步提高到了90%。
2015年5月,MinION测序仪正式上市销售。此后,开始出现了关于其在基因组组装和宏基因组研究中的应用研究报告。Quick等使用配备R7和R7.3芯片的MinION完成了大肠杆菌K-12菌株MG1655的完整基因组组装。在此里程碑之后,ONT启动了多项社区合作计划,以扩大其技术的测试和应用范围。在宏基因组研究中,使用R7.3芯片评估了一个由20种细菌组成的模拟群落的丰度,构建的共识序列和2D序列均显示了物种级别的分辨率。2016年,首次使用便携式MinION设备进行的人类基因组测序结果公开发布(https://github.com/nanopore-wgs-consortium/NA12878)。展示了纳米孔测序实现更高精度和效率的能力,这对于研究中的广泛应用至关重要。
技术改进与应用扩展(2017-2018)
随着关键技术难题的逐步解决,纳米孔测序技术进入了技术改进和应用扩展的时代。2017年2月,ONT发布了GridION X5测序仪。其能够同时运行5个MinION芯片,每个芯片都可以并行测序,显著增加了数据产量。与MinION一样,GridION也支持实时分析。在这之后,ONT又开发了SmidgION,这是一种比先前型号更小、更便携的测序设备。该设备可以通过智能手机或平板电脑操作。然而,SmidgION尚未得到广泛应用,并且目前在官方商店中无法购买。2018年5月,在成功完成早期访问阶段后,ONT开始销售PromethION测序仪。这款测序仪以其成本效益、可扩展性和处理大量数据的能力而闻名,能够生成长读长序列并执行各种测序任务。2018年秋季,ONT对MinION设备进行了多项升级,以提高数据质量和处理速度。在这一阶段,通过使用R9.4.1芯片,ONT实现了技术上的重大突破,准确率提高至94%。R9.4.1数据的共识序列准确率在自我校正后可以达99.9%。
从这一阶段开始,纳米孔测序逐渐被研究人员所认可和采用。2017年6月,ONT推出了其RNA测序解决方案,提供直接RNA测序(DRS)和互补DNA(cDNA)测序。DRS是一种先进的技术,能够在无需将RNA逆转录为cDNA的情况下直接对RNA分子进行测序。这种方法特别适用于研究RNA的天然状态,包括其修饰和二级结构。2018年1月,Garalde等报道了一种纳米孔直接RNA分析的方法,可对全长、链特异性RNA测序,并且可在无反转录或扩增的情况下直接检测RNA修饰。2018年5月,ONT产生了有记录以来最长的连续DNA序列,单次读取长达2.3 Mb。这使我们能够轻松获得长读长片段或超长片段(N50>100 kb),特别有助于基因组组装。在基因组学领域,Schmidt等是首批使用ONT测序技术进行茄属植物潘那利番茄(Solanum pennellii)复杂基因组(约1.2 Gb)从头组装的研究者之一。宋驰等成功利用ONT测序技术完成了中国药用植物菊花脑(Chrysanthemum indicum L. 'Nankingense')的基因组测序和组装,该植物具有复杂的基因组(>3 Gb,杂合率>2%)。这些研究标志着纳米孔测序用于复杂植物基因组组装的早期里程碑,为基因组学的高级应用铺平了道路。2018年秋季,通过性能改进,PromethION实现了每张芯片超过100 Gb的产量,以获得人类基因组30X覆盖率的测序。Kuderna等使用纳米孔测序构建了首个非洲起源的人类Y染色体的基因组图谱。同年3月,MinION设备被用来对尼日利亚拉沙热感染率意外上升的情况进行实时监控。此外,纳米孔测序的应用已扩展到复杂的基因组结构分析、环境监控、疾病识别及其他领域。同年9月,使用ONT技术对单细胞RNA文库进行测序,使得人们能够更全面地理解淋巴细胞的转录图谱。同年10月,ONT进入中国市场,并成功建立了首个客户销售渠道,大幅扩展了用户群体。2018年,大约发表了150篇关于纳米孔测序的论文,涵盖了多个科学领域。
加速与创新(2019-2021)
随着ONT技术的标准化和产业化,其逐渐被广泛接受和采用。在这个阶段,随着技术程序和数据管理方法的标准化,纳米孔测序开始被越来越多的商业和临床实验室所使用。
2019年3月,ONT发布了小规模测序仪Flongle,2019年5月,ONT发布了R10芯片,这是一种具有延长的桶形结构和双读头的创新设计(图1B)。这种配置通过交叉验证显著提高了碱基识别的准确性。R10芯片相比R9准确性更高但产量略低。2020年1月,ONT推出了R10.3芯片,使用UMI技术获得的共识序列准确性达到了99.995%。此外,在COVID-19疫情期间,纳米孔测序技术在病毒基因组测序和追踪方面显示出独特的优势,推动了其广泛应用。该技术在多种环境中进行快速、现场测序的能力证明了其价值,加速了对新出现的SARS-CoV-2变种的检测,有助于控制疫情爆发,推进了基因组流行病学的发展。之后,ONT发布了整合内置计算系统的MinION Mk1C,可对进行dsDNA/RNA实时分析。2020年9月,中国企业齐碳科技发布了QNome-9604,这是中国首款自主研发的纳米孔测序仪。这一成就使齐碳科技成为中国首家、全球第二家成功将纳米孔测序技术商业化的企业。其测序原理与ONT测序仪相似,使用马达驱动单个核酸分子通过蛋白孔,马达蛋白控制速度。系统捕捉不同碱基通过时的电流信号,实现实时识别碱基序列。其专有的纳米孔和动力控制蛋白增强了测序速度和稳定性,尽管当时平均准确率为80%。2021年11月,ONT宣布推出Kit 12(Q20+)和R10.4芯片,提高了序列的准确性(准确率:99%)。此外,PromethION 2(P2)的推出标志着一个里程碑,它在一个紧凑的鞋盒大小的仪器中提供了极高的高通量测序能力。2021年12月,齐碳科技推出了其第二款测序仪QNome-3841,以及K1和K2纳米孔蛋白和先进的碱基识别模型。值得注意的是,纳米孔K2蛋白增强了信号均匀性,改善了信噪比,并提高了电流的清晰度。
纳米孔测序的重要应用在这一时期呈指数级增长。2019年7月,Shafin等展示其使用PromethION平台在9天内测序11个人类基因组的能力,揭示了许多之前用短读长测序技术未能识别的结构变异。此外,Pore-C是一种革命性的方法,结合纳米孔测序和染色质构象捕获来分析三维基因组结构,通过长片段基因组相互作用的测序提供了高分辨率的空间基因组组织视图,从而增强基因组组装。2019年11月,Lebrigand等展示了使用纳米孔测序结合UMIs实现单细胞转录组中转录本异构体的高精度鉴定。在宏基因组学领域,纳米孔测序的应用正在急剧扩展。Charalampous等开发了一种快速且经济的基于纳米孔宏基因组测序方法,可在6小时内快速准确地从患者呼吸道样本中鉴定病原体和耐药基因。
2020年2月,ONT引入了纳米孔自适应采样(AS),这是一种对测序数据进行实时分析的技术,其中序列可以立即与预设的目标序列进行比对,以决定是否继续对该分子进行测序。既可以选择保留匹配目标的分子进行深度测序,或排出不匹配的分子以节省资源并优化测序效率。这种方法要求持续评估测序结果,包括实时监控覆盖深度并以优化AS方法。它通过将测序工作集中在基因组或转录组中代表性不足或感兴趣的区域,提高了特定研究目的的输出效率。同样在这一年,Miga等使用纳米孔数据组装了人类X染色体的端粒到端粒(T2T)序列。Nurk等组装了一个人类基因组的完整序列。Franchini等在2021年1月组装了庞大的43 Gb肺鱼基因组,这是已知最大的脊椎动物基因组(相当于14个人类基因组大小)。使用纳米孔超长片段测序,这对解开其最具挑战性的区域至关重要。ONT在当年5月启动了对濒临灭绝物种测序的项目支持。2021年5月,Martignano等开发了基于ONT技术游离DNA的液体活检方法。纵观整个2021年,发表了多篇关于纳米孔测序应用的综述文章。这些综述证明了研究人员对这项技术的广泛认识和接受。
普及与新应用探索(2022-2024+)
2022年见证了长读长测序技术的蓬勃发展。《Nature Methods》杂志宣布2022年为长读长测序年。
在这个阶段,随着技术的进步和成本的持续下降,纳米孔测序开始在全球范围内被广泛采用。2022年,ONT推出了全新的Kit V14试剂盒用于配合最新的纳米孔R10.4.1芯片使用,准确性超过Q20。此外,各种碱基识别工具被逐渐开发以提高数据准确性。2022年6月,齐碳科技推出了QNome-3841hex,扩展了其纳米孔测序仪的产品线,支持跨多个领域的应用。2022年底,另一款由中国企业今是科技(Geneus Tech)发布了纳米孔测序仪Gseq-500,提供了接近90%的原始准确性。Gseq-500测序仪采用了边合成法纳米孔测序(NSBS),集成了蛋白质纳米孔电流检测与单分子测序。其原理是四种不同的修饰核苷酸链被附着在待测核酸序列的末端。在核酸链合成过程中,蛋白质纳米孔与新掺入的核苷酸上的特定标记相互作用,产生特征性的电流,使单碱基分辨率的核苷酸识别成为可能。它包含512,000个纳米孔,并使用IC-MEMS集成芯片进行实时监测特征阻断电流。此外,使用交流电(AC)方法为超级电容器供电,将测序单元集成到1厘米的芯片上。Genes-Tech的芯片可重复使用,每Gb的成本低至$5或更低。2023年8月,齐碳科技推出了QPursue-6k和QPursue-6khex测序仪,每个芯片的测序产量增加到60 Gb。2023年末,苹果公司在最新款的MacBook Pro和iMac中推出了M3硅芯片。随后,ONT利用这些先进的芯片增强了其DNA和RNA测序能力。这项合作旨在使遗传分析普及,使全球用户在任何环境中都能使用。中国纳米孔测序平台的推出,如安序源生物科技(Axbio Biotechnology)的AXP100、普译生物(Polyseq)的PolyseqOne和华大智造的CycloneSEQ,标志着现代基因组学技术在中国的扩展和适应取得了重大成就。安序源AXP100也采用了NSBS策略,使用微流控Bio-CMOS硅基芯片作为基底。它通过独特的交流阻抗方法检测信号,该方法在跨侧和顺侧使用非平衡的离子成分,并具有超过一百万个纳米孔测序通道。此设计提供了高灵敏度、快速检测和高通量,每个可重复使用的芯片能以极低的成本生成100 Gb的数据。PolyseqOne是一款中等通量测序仪,其原理与ONT测序仪类似,使用CsgG/CsgF纳米孔蛋白复合体。该公司开发了专有的X、L和P系列纳米孔蛋白以及多种包括M系列在内的电机蛋白来完善系统。目前,其准确率为97%。测序芯片PolyseqCell基于半导体技术,拥有2560个测序单元,能够生成高达20 Gb的高质量数据。2024年,华大集团的华大智造发布了新的纳米孔测序平台CycloneSEQ,其单流式细胞的产出可达50 Gb,准确率为97%。BGI在测序芯片上使用了高密度的纳米孔阵列,实现了约每平方毫米28.9个纳米孔的密度。他们还设计了微井壁,以最大化电解缓冲液的体积,从而延长测序运行时间。此外,通过减小微井直径至≤76 μm,减少了膜面积,导致较低的电容(≤20 pF)和噪声降低。这些突破不仅加强了中国在全球基因组产业的地位,还提升了其竞争力,推动了科学进步。这一阶段标志着纳米孔测序变得更加易于广大用户获取,主要是因为其成本的大幅下降和测序程序的简化。这些技术突破使得小型实验室和独立研究者也能接触到这项技术,从而结束了大型基因组实验室的主导地位。由于其便携性和低基础设施要求,它在发展中国家极具吸引力,通过在现场进行测序分析,改变了缺乏高端实验室地区的医疗卫生和研究。
随着技术的进步和广泛应用,长读读长测序正在推动基因组研究进入一个新时代。研究人员越来越请求使用ONT超长读长来获得端粒到端粒(T2T)水平的基因组组装。超长DNA测序试剂盒v14(SQK-ULK114)因其用于阿拉伯人的泛基因组研究而闻名,突显了其在基因组研究中的有效性。在RNA测序领域,ONT发布了升级的DRS化学试剂和测序芯片,SQK-RNA004和FLO-PRO004RA,提高了RNA修饰的检测并通过使用高精度碱基识别算法提高了准确性。2023年至2024年,Kolmogorov等制定了一项创新协议,能够从单个PromethION流式细胞生成超过100 Gb的ONT序列,使大规模长读长测序在包括SNP检测、结构变异(SV)分析和甲基化分析等应用中变得实际可行。为了克服短读长测序在解析复杂遗传结构和微生物研究中的局限性,刘等展示了纳米孔长读长宏基因组测序在从模拟和复杂多样的自然群落中实现完整和高分辨率基因组重构的能力。2023年末,ONT升级了其测序马达(E8.2.1+)和测序试剂。持续的技术进步,如机器学习的应用,继续提高碱基识别的准确性。2024年,ONT更新了Dorado7.0.0以配合Super模式实现了准确率中位数达到Q28(~99.8%)的记录。此外,Remora(https://github.com/nanoporetech/remora),一种高性能的甲基化分析工具,被整合进ONT的MinKNOW软件中,使所有ONT用户都能简便地通过纳米孔测序获得全面的全基因组甲基化分析。其应用范围不断扩大,包括复杂疾病、个性化治疗以及诸如环境生物技术等未来学科的研究。最后,我们总结并比较了各种纳米孔测序平台(表1),从小型便携设备到高通量设备,适合不同的研究辅助和应用场景。
纳米孔测序已经成为改变生物学研究的关键,解决了健康、食品安全、环境保护等方面的关键挑战,开启了生命科学的新时代。在2024年以后的时代,我们期待纳米孔测序能生成更长、高度准确的序列的同时降低成本,使更多研究者能在各种情境下利用这项技术。
表1 纳米孔平台比较
表更新时间为2024年9月9日。
趋势
根据Web of Science Core Collection的检索(截止到2024年6月23日),与纳米孔测序相关的出版物数量一直在稳步上升;2014年为141篇,到2023年达到了1818篇,累计总数达到8670篇。从2017年起,与之相关的出版物数量开始急剧上升。总体而言,在纳米孔测序领域,美国、中国大陆和英国拥有最高的出版物数量(图2A)。基于研究领域的分类(图2B),遗传学与遗传Genetics & Heredity(6366篇)、生物化学与分子生物学Biochemistry & Molecular Biology(4967篇)、科学技术与其他主题Science & Technology Other Topics(4072篇)、微生物学Microbiology(2882篇)和侵染疾病Infection Diseases(2313篇)是最常被研究的主题。此外,我们统计了在各种期刊上发表的文章(图2C),排名前五的期刊分别是Microbiology Resource Announcements(293篇)、Scientific Reports(237篇)、Official Gazette Of The United States Patent And Trademark Office Patents(234篇)、Frontiers In Microbiology(193篇)和Nature Communications(138篇)。其中Microbiology Resource Announcements期刊发表了大量的微生物基因组序列。
此外,我们收集并分析了2309篇来自ONT官方网站的数据(图2D)。在所有研究中,微生物学和微生物组(32.22%)的覆盖水平最高。其次是感染性疾病(13.39%)和临床研究(12.94%)。
图2 | 过去十年纳米孔测序研究的趋势和发展。
(A) 按年度和国家划分的出版物。
(B) 依据Web of Science按研究领域的出版物数量。
(C) 纳米孔测序出版物的期刊(Top10)。
(D) 来自ONT官方的出版物中研究领域的比例。
本文的统计数据截至2024年6月22日。
纳米孔测序应用概述
随着纳米孔测序的广泛应用,伴随着读长长度、准确性和便携性的提升,其应用范围显著扩大。我们总结了过去十年中(图3)纳米孔测序技术在各个领域的应用及其分析方法,分为临床研究、微生物和动植物研究和其他领域,以展示这项技术的广泛应用潜力。补充表S1列举了使用纳米孔测序时各种常用的生物信息学工具。
图3 | 纳米孔测序的应用。
本图提供了纳米孔测序在多个领域,如临床研究、微生物组与微生物学、动植物以及其他主题的多样化应用的综合概览。这些应用按照核酸类型、所采用的具体技术方法、主要应用领域以及已进行的研究进行了分类。
临床研究
纳米孔测序在临床研究中被广泛用于多种应用,包括基因重测序、表观遗传学、宏基因组学、全长转录组以及直接RNA测序(DRS)。这些应用涵盖了遗传疾病、传染病、癌症、免疫疾病及神经疾病的研究。
重测序与表观遗传学:利用基于纳米孔的重测序技术可以检测遗传变异,如插入删除变异(INDEL)、结构变异(SV)、拷贝数变异(CNV)以及HLA等。这对于研究由结构性或稀有变异引起的疾病的发生和鉴定具有重要意义。同时,测序携带的电信号也可以用于DNA修饰研究。
宏基因组与扩增子:纳米孔测序在传染病研究中有重要应用。通过快速检测病原体及分析其群落组成,有助于准确识别病原感染病因并支持流行病学调查。
全长转录组:纳米孔测序可用于全长转录组测序以分析转录本的同源表达、融合、剪接和多聚腺苷酸(poly(A))尾特征。这是在肿瘤学和免疫及神经疾病研究中的重要应用。
直接RNA测序:DRS技术允许无需反转录即可对RNA进行测序,提供关于N6-甲基腺苷(m6A)、5-甲基胞嘧啶(m5C)、假尿苷(Ψ)和多腺苷化(poly(A))等RNA修饰的详细信息,并在RNA疫苗和RNA治疗中发挥关键作用。
微生物组和微生物学
纳米孔测序可解析微生物群落及其功能,彻底改变了微生物组和微生物学研究。
宏基因组/病毒组:宏基因组和病毒组测序提供了对群落组成、功能多样性和基因组分箱的见解,使研究人员能够了解微生物间的相互作用和生态系统变化。长读长测序技术使研究中获取更多完整的基因组成为可能,提高了鉴定基因簇的能力。
(宏)转录组:宏转录组允许对微生物群落的功能进行剖析。这种方法适用于RNA病毒、真核微生物,也有少数研究应用于原核微生物。Pitt等使用纳米孔测序鉴定肺炎克雷伯菌的耐药RNA,成功检测到了多达三个耐药基因操纵子。这种方法能够识别活跃的微生物种群及其基因表达模式,解释它们在健康与疾病中的作用。
(宏)Pore-C和表观遗传学:Pore-C结合纳米孔测序与染色质构象捕获,绘制染色质相互作用和结构变异图谱。此外,宏基因组甲基化分箱利用DNA甲基化模式区分宏基因组数据中的基因片段。该方法对于理解可移动元件与宿主之间的关联及微生物群落内基因组组织至关重要。
完整基因组:纳米孔测序使得生成各种完整且高质量的微生物基因组成为可能,包括细菌、真菌、古菌和病毒,特别是对于具有复杂或重复区域而难以用短读长技术组装的微生物。完整基因组的存在对于准确的系统发育分析、比较基因组学以及新基因和调控元件的鉴定至关重要。
动植物研究
纳米孔测序因其长读长和对天然DNA及RNA分子的测序特性而独具特色。这些特点有助于解决复杂的基因组区域、检测结构变异和表观遗传修饰。通过单分子测序而不需扩增或化学标记,该方法简化了处理流程并降低了偏差。
个体基因组:长读长测序对于动物和植物的基因组组装和注释是不可或缺的。组装个体基因组,包括端粒到端粒(T2T)基因组和单倍型基因组,提供了关于遗传多样性、群体遗传学和进化关系的综合见解。特别是仅使用ONT就能组装T2T单倍型基因组。
泛基因组:在进化生物学中,对泛基因组进行纳米孔测序揭示了遗传多样性、基因存在/缺失模式及进化轨迹。这些信息对于理解物种适应性和进化至关重要。
(单细胞)全长转录组和直接RNA:纳米孔测序允许单细胞全长转录组测序和直接RNA测序(DRS)。这对于鉴定细胞类型、理解发育机制和表达谱是必需的。重点在于差异转录表达、选择性剪接、多聚腺苷酸(Poly(A))尾、RNA修饰和新转录本发现。这种方法提供了对转录结构和功能的深入理解。这些见解对于理解发育过程和生命活动至关重要。
重测序与表观遗传学:在植物基因组研究中,纳米孔测序技术帮助我们理解群体遗传学。这包括检测插入删除变异(INDEL)、拷贝数变异(CNV)和结构变异(SV)。此外,表观遗传学研究包括DNA甲基化及其他修饰。
其他应用
自适应采样:纳米孔测序通过引入具有自适应采样(AS)能力的创新技术,极大地改变了生态学和环境研究。这一功能使研究人员能够实时观察生物系统并选择性地测序感兴趣的区域。在生态学和环境科学中,它使科学家能够确定低丰度物种的存在或实时识别特定的目标物种/基因。自适应测序特别适用于针对特定的基因家族、区域和基因组。此外,这种方法可以与直接RNA测序(DRS)相结合来研究相关的转录本,使得精细绘制生物多样性模式、评估生态系统的活力并迅速识别环境变化成为可能。
现场测序:传统的测序方法通常是在测序过程完成后才分析数据,然而,ONT允许立即传输和实时分析测序数据。纳米孔测序仪的便携性和易用性使其非常适合现场应用。在遗传研究中,Ferchiou等通过现场分析体液中的循环游离DNA。神经外科医生首次在手术期间实现了实时纳米孔测序,以快速诊断肿瘤类型,为中枢神经系统肿瘤的术中决策提供支持。在环境DNA(eDNA)研究中,研究人员越来越多地倾向于在户外环境中使用实时测序。ONT测序允许在任何地点进行测序,包括像空间站、冰盖、沙漠和车辆等这样具有挑战性的环境。纳米孔测序仪的实时能力和易用性使其成为即时、现场科学研究的重要工具,并加速数据驱动的决策。
总之,与传统测序方法不同,纳米孔测序可以在不需要复杂的化学标记或扩增的情况下实现实时序列检测,这是其核心优势之一。另一个主要优点是其能够进行长读长测序,跨度可达数千甚至数百万个碱基,这对解析复杂的基因组结构、检测大规模的结构变异以及捕捉完整的转录异构体(包括RNA修饰和poly(A)尾)尤其有利。此外,纳米孔测序的便携性和灵活性使得现场测序和快速响应成为可能。而且,纳米孔测序提供的自适应采样增强了数据收集的效率和准确性。
技术比较
我们提供了纳米孔测序与PacBio及Illumina/BGI平台的详细对比(表2)。对比涵盖了多个要素,包括测序读长、实时测序能力、错误率、样本制备、成本、通量及应用领域。本文汇总了纳米孔测序的优势、劣势及其兼容性,为研究人员在其具体需求下选择最合适的测序技术提供了必要的指导。
表2 主流测序平台的优势和劣势
纳米孔测序提供了多种特性,包括生成长读长序列的能力、实现实时测序、便携性、检测碱基修饰以及无需PCR扩增。然而,其准确性不如PacBio和Illumina/BGI。PacBio测序以其生成高准确度长读长的能力而著称。PacBio的缺点包括设备和试剂的较高成本以及特定的样本处理要求,涉及PCR扩增。此外,PacBio目前不支持实时测序和分析。相反,Illumina/BGI具有更高的通量,准确性和经济性,尤其适合大规模项目。此外,它拥有全面的生物信息学支持和先进的数据分析技术。然而,Illumina的读长较短,通常跨越数十到数百个碱基对。这一局限性阻碍了其准确识别复杂基因组结构和变异的能力。此外,短读长平台也不支持实时测序和分析。
研究人员经常在特定的研究中整合这些平台,以利用它们各自的优势。例如,研究人员可能会使用ONT或PacBio来解决复杂的基因组结构问题,而使用Illumina来进行高效准确的单核苷酸多态性(SNP)和基因表达检测。或者,可以使用一个或多个平台生成初步数据,然后使用另一种平台进行验证。例如,可以使用ONT和PacBio的数据快速获得初步基因组,随后再用Illumina的数据进行校正。
挑战与展望
纳米孔测序有望通过生成长读长、在不同环境下运行以及提供实时测序和分析来革新遗传变异和分子生物学研究。然而,诸如准确性、数据处理、修饰算法、通量和成本效益等挑战仍需克服(表3)。
表3 纳米孔测序的挑战与解决策略
提高测序准确性
早期版本的纳米孔测序受到高错误率的影响,尤其是在含有连续相同核苷酸和重复序列的区域。提高测序准确性仍然是纳米孔测序未来发展的关键焦点。目前,R10.4.1芯片与E8.2.1+测序马达结合可以在Super模型中达到Q28级别的准确性。然而,它尚未达到短读长数据的准确度水平。尽管如此,一些研究表明即使没有短读长数据校正也表现出了优异的效果。科学家们一直在努力克服当前的障碍,比如降低碱基识别错误和提高纳米孔测序的整体精确度。预期改进的纳米孔设计和信号处理方法将大大提高测序准确性,从而增强其在广泛应用中的可靠性。
通量与成本
为了与现有的测序系统竞争,纳米孔测序技术需要增加其通量并降低成本。早期设备的输出能力有限,使得大规模项目不切实际。这一挑战通过改进芯片设计尤其是引入PromethION平台而得以解决。该平台理论上提供每张芯片最高290Gb的通量,而对于PromethION 48更是达到了令人瞩目的14Tb。尽管相比PacBio成本更低,但每碱基的成本仍然需要进一步降低,因为还需要通过优化的文库制备方法和多重条形码拆分等来进一步提升通量。这些改进提高了纳米孔测序在多种应用中的可访问性和成本效益。
提升数据处理
目前,通过纳米孔测序产生的大量数据要求数据处理技术的进步,特别是那些限制其发展的生物信息学工具。近年来,许多处理长读长数据的有效工具已被发表。未来的进展将集中在提高和优化碱基识别算法(特别是对于RNA修饰)和数据解释上。利用机器学习和人工智能(AI)技术将在提高数据分析能力方面起到重要作用,使研究人员能够从纳米孔数据中得出更有意义的见解。
其他应用
在未来十年,纳米孔测序在多种应用领域具有巨大的潜力,特别是在探究各种类型的RNA,如tRNA、rRNA和环状RNA(circRNA),以及蛋白质方面。这项技术提供了全长测序和直接RNA测序(DRS)的能力,允许对各种RNA种类进行全面研究。最近,纳米孔测序开始应用于单细胞测序,其兼具单细胞及全长转录组优势,将单细胞分析从基因层面提升至isoform层面,分辨率更高。使发现新的转录本、鉴定剪接位点以及携带特定突变的细胞成为可能。它还可以检测融合基因所在的细胞亚群,并提供亚群特异性的转录本,有助于设计靶向siRNA干扰片段。然而该技术仍面临几个挑战。由于初始细胞数量少,需要额外增加PCR循环,导致引物错误和结构缺失。这些RNA的扩增步骤引入的偏差会导致某些基因的表达水平。其次,缺乏高效的barcode和UMI拆分方法,其改善依赖于软件的升级和测序准确性。杂质较高的样本会出现比对问题从而导致异构体分型错误;缺乏有效的基于异构转录本的marker库。目前,单细胞全长转录组测序技术通常需要昂贵的设备和试剂,以及专业的操作技能和数据分析能力。这使得该技术的成本相对较高,可能不适用于所有研究项目和实验室。
此外,将空间转录组学(ST)与长读长单细胞测序技术相结合,可同时揭示基因表达的空间异质性以及由RNA选择性剪接引起的转录本异构体的差异表达。目前Visium中使用的ST方法主要检测来自转录本3'端的信息,从而忽略了全长探索。然而,该应用目前仍处于早期探索阶段,这大大限制了对免疫细胞受体库和可变剪接事件的研究。为了提高测序准确性和连续性,长读长测序已经成为一项关键工具。结合长读长测序与整体或单细胞方法的创新策略,以及新的计算工具已经逐渐被发开。同样地,ST也需要开发类似的技术和算法,以扩展空间组学研究的能力。
随着纳米孔测序技术的不断进步,自适应采样和实时测序领域正在变得越来越成熟。这使得我们可以使用更有效和更灵活的测序方法,从而提升纳米孔测序的能力。此外,纳米孔测序的长读长能力将对进化生物学领域和保护生物多样性的工作产生重大影响。纳米孔测序的适应性和便携性使其非常适合用于即时护理诊断和个体化医疗,从而改变医疗实践。
第一作者
张天缘
张天缘,2014 年-至今从事测序相关研究工作。目前在中国农业科学院深圳农业基因组所刘永鑫团队从事博士后研究,研究方向为三代测序评测与方法开发。在基因测序领域有丰富的经验,聚焦于最新的测序技术的快速广泛应用,参与培训及讲座数次。2023年10月发表纳米孔16S评测文章于微生物学权威期刊Applied and Environmental Microbiology,12个月被引30+次。参与发表Nature communication、iMeta等SCI文章21篇,兼职为Biology Methods & Protocols、Frontiers in Plant Science、Plant Cell, Tissue & Organ Culture (PCO)、gene等期刊审稿数次。h-index为11。
通讯作者
刘永鑫
刘永鑫,中国农科院基因组所食品中心研究员,微生物组与营养健康团队首席,iMeta执行主编,宏基因组公众号创始人。聚焦微生物组方法开发、功能挖掘和科学传播,在Nature Biotechnology、Nature Microbiology等发表论文80篇,被引22000+次,入选全球前2%顶尖科学家。兼任中国微生物组、计算合成生物学专委会委员。创办17万+同行关注的宏基因组公众号,主编《微生物组实验手册》专著,发起iMeta 期刊(IF 23.7),位列微生物学研究类全球第一。兼职为NC、NAR、Microbiome等90种期刊审稿280次。
猜你喜欢
iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature
一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索 Endnote
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
点击阅读原文