背景与历史
启动时间:1990年,目标是绘制完整的人类基因组序列。 完成情况:2003年完成了85%的基因组序列,2022年完成了所有缺失片段的填补。 历时:32年完成了完整的人类基因组测序。 技术对比:最初使用的是Sanger测序技术,一次只能测序一条DNA链。而NGS技术可以同时测序数十亿条DNA链,大大提高了速度。 NGS的诞生与发展: 通过NGS技术,测序一个人的全基因组只需一天,显著缩短了测序时间。 NGS技术依赖于人类基因组计划创建的参考基因组。
NGS的原理与步骤
样品处理
样品收集:收集目标DNA或RNA样本。 DNA/RNA纯化:提取并纯化样品,确保样本纯净且无降解。 RNA逆转录:如果目标样品为RNA,需通过逆转录将RNA转化为cDNA(互补DNA),才能进行后续的DNA测序。
文库构建
DNA片段化: 使用高频声波或酶将长链DNA切割成短片段。 片段的长度根据应用需求进行特定控制。 添加适配子(Adapters): 适配子是添加到每个DNA片段两端的短DNA序列。 这些适配子包含了测序仪器所需的序列信息,还包含样品标识(Index),用于区分不同的样本。 文库纯化与扩增: 通过磁珠等方法去除未结合的适配子,保证文库的质量。 根据具体应用,可能加入PCR扩增步骤来增加文库的量。 一个成功的文库需达到指定的片段长度和足够的浓度,才能进入下一步测序。
测序准备与合成
流动池表面准备: 测序发生在玻璃表面的流动池(Flow Cell)中,流动池表面附有与文库适配子序列匹配的寡核苷酸(Oligonucleotides)。 文库加样与变性: 将文库片段通过变性(Denaturation)处理,转变为单链DNA。 单链DNA与流动池表面的寡核苷酸结合,形成DNA链。 克隆扩增(Clonal Amplification): 使用PCR技术对文库片段进行扩增,以便形成簇(Cluster),增加荧光信号的强度。 过程:DNA链通过桥式PCR扩增,形成多个拷贝(双链DNA),然后将双链分离,重复此过程形成大量局部簇。最终切割掉反向链,留下前向链用于测序。
测序过程
测序合成(Sequencing by Synthesis, SBS): 原理:测序时通过DNA聚合酶将荧光标记的核苷酸(A、T、G、C)依次加入待测DNA链中,每次加入一个碱基,荧光信号被相机捕获和记录。 每种碱基(A、T、G、C)带有不同颜色的荧光标签和终止子,确保每个循环只能加入一个碱基。 测序步骤:
加入带荧光标签的核苷酸,碱基配对。 相机记录每个簇的荧光信号(颜色)。 去除终止子,继续加入下一个核苷酸,重复此过程,直到完成预设的测序长度。
指数(Index)测序:通过标识序列区分不同的样本。 多重样本测序:利用独特的双重指数标签,最高可同时在一个流动池中处理384个样本。
双端测序生成两个来自同一片段的读取(一个来自前向链,一个来自反向链),增加了测序的准确性,尤其是长片段分析。 过程:前向链测序完成后,创建桥接结构使反向链成为模板,接着对反向链进行测序。
数据处理
质量控制与过滤: 在测序完成后,过滤掉质量较差的读取,如重叠的簇、强度过低的簇,以及多重簇的情况。 去重与解复用(Demultiplexing): 利用样本指数(Index)将不同样本的读取分离。 比对与组装: 将过滤后的读取比对到参考基因组上,重组DNA片段,并通过算法识别和定位这些片段。 深度与覆盖度: 读数深度(Read Depth):指某个核苷酸被测序的次数。常规全基因组测序需要30倍的平均读数深度,癌症研究中检测稀有突变时需要更高的读数深度(如1500倍)。 覆盖度(Coverage):目标是确保测序过程中目标区域没有遗漏,覆盖率越高,数据越完整。
参考文献