接头的本质是一段短的碱基序列,作为桥梁连接待测DNA片段与 Flow-cell。以Illumina测序平台为例,包括三个部分:与Flow-cell上寡核苷酸链相同或互补的片段P5/P7;测序引物结合部分Read1/2;用于区分不同样本的 Index。Index 是混样中不同样本的「身份证」,一般长6nt或8nt(现在一般 8-10nt),四种碱基的不同排列组合可以形成不同的Index标识。
接头分类方法主要有两种,根据 Index 位置可以将接头分为单端Index接头和双端Index接头。单端Index接头指的是仅在一端存在Index(一般在P7端),双端Index接头指的在P5和P7端均存在Index。测序仪的产量在不断增加,双端Index比单端Index能容纳更多数目的样本,所以双端Index的接头被广泛使用。
早期阶段测序接头结构主要以Illumina的Y字型为主(下图),随后国产MGI 测序平台崛起,市面上也不再是Y字型接头为主。从设计上讲,MGI测序接头与Y字型接头类型存在很大的差异,MGI测序接头Linear adapter与Bubble adapter长度不同但两端互补配对,因此会产生小泡状结构,得名「泡状接头」。但总体而言,Y型的接头和泡状接头虽然形态不同,但核心功能是一致的,都是作为桥梁连接待测 DNA 片段与测序仪的芯片并为文库打上标签。
测序接头是在文库制备过程中连接到 DNA 插入片段(目标序列)末端的短 DNA 序列。NGS测序接头的基本结构包含其功能所需的几个重要部分。
流动槽结合序列(P5 和 P7):该区域允许测序文库与流动槽结合,并防止文库在测序过程中被冲走。
索引序列(i5 和 i7):大多数接头都包含索引序列,用作“条形码”或“标签”来识别单个 DNA 插入片段所属的样本库。当多个文库组合在同一个测序运行中时,这些索引用于分析过程中按样本分离测序读数(称为多重分析)。
测序引物结合位点(Rd1 SP 和 Rd2 SP):在测序过程中,引物与该区域结合并通过合成目标 DNA 启动测序。
唯一分子标识符 (UMI)是接头内的短序列,其功能类似于索引的附加条形码。然而,UMI 用于识别样品中的各个目标序列,而索引序列用于区分不同的样品库。
DNA模板与常见的Y形接头的连接步骤:通常将平末端双链DNA模板(5‘磷酸基和3’-OH)在每条链的3‘位置加尾(通常使用Klenow DNA聚合酶添加单个腺苷A)。然后可以有效地连接具有单个3‘T突出端和双链体5’磷酸化的半单链Y形接头。PCR步骤能够生成两侧具有不同接头的分子,尽管使用此过程本质上并不保留链信息。* = 硫代磷酸酯键。
第一类接头:full-length Y-adapter (需要连接反应)
适用于UDI-UMI接头
用于构建PCR free的文库
使用p5/p7 primers进行兼容扩增
第二类接头:truncated Y-adapter (需要连接反应)
带有或不带UMI (CS adapter)
Adaptor连接之后再使用index primers通过PCR引入index
第三类接头:U-adapter(需要连接反应)
第四类接头:Tn5转座酶接头(不需要连接反应)
在tagmentation的同时,粘贴入Adaptor(R1N, R2N)因此,再通过PCR引入index即可。此种方法不需要连接adaptor反应。
在测序接头的选择上,要考虑的因素有很多,如:测序平台与测序接头及index的兼容性,index之间是否冲突,双端index还是单端index;index的长度;连接不同测序接头的转换效率及复杂程度;是否需要unique molecular identifier (UMI)等。