标管中心-单分子基因测序相关术语、定义

学术   2024-09-24 17:57   广东  
最近关注纳米孔测序领域,发现大家对很多术语,都有不同的汉译版本及不同理解。例,consensus accuracy”

企业官网也如此,对同一概念有各种不同描述。

概念命名混乱、标准不一,这给同行交流、技术与产品的横向比对造成很大困扰。

故,在交流前,我们有必要界定清晰,大家讨论的是否是一个东西,有无附加条件。

适逢标管中心在9月初发布《单分子基因测序  第1部分 术语和定义》(征集意见稿),其中对单分子基因测序(包括ONT、PacBio等)领域相关术语与定义做了明确界定。分享给大家。

注,因该标准尚在意见征集阶段,相关内容仅供参考;如有不同意见,可直接在官网提交反馈:

http://app.nifdc.org.cn/biaogzx/dataGkZqyj.do?formAction=viewNotice&id=2c9048d8910d80b0019120a5b96c0dcf

视频、图例为笔者所注。

适用范围:

本文适用于单分子实时荧光测序法单分子纳米孔链测序法单分子纳米孔标签测序法等技术为主要技术原理的具有连续测序特征的单分子基因测序领域。

本文件中参数指标术语、技术相关术语不适用于
  • 桑格(Sanger)测序为主要技术原理的第一代基因测序领域;
  • 半导体测序法、可逆末端终止测序法、联合探针锚定连接测序法、联合探针锚定聚合测序法、焦磷酸测序法等技术为主要技术原理的大规模平行高通量测序领域;
  • 利用多个分立步骤进行非连续测序的单分子基因测序技术;
  • 利用共标签进行短序列连接的单分子长片段基因测序技术。


1. 技术相关术语


单分子实时荧光测序 single-molecule real-time fluorescent sequencing

单个核酸分子被固定在零模波导孔底部的单个聚合酶捕获后,聚合酶延伸引物链添加新碱基,并产生连续脉冲荧光信号,经碱基识别获得核酸分子的碱基序列与修饰信息的测序方式。


单分子纳米孔链测序 single-molecule nanopore strand sequencing

单个核酸分子被纳米孔捕获后,碱基单元在马达蛋白或其他方式的控制下逐一通过纳米孔 ,并产 生连续的电信号变化,该时序电信号经碱基识别获得核酸分子的碱基序列及修饰信息的测序方式。


单分子纳米孔标签测序 single-molecule nanopore tag sequencing

单个核酸分子被连接于纳米孔的聚合酶捕获后 ,在延伸引物链过程中,标签标记的核苷酸与纳米孔相互作用(穿过或其他)产生特定电流信号,经碱基识别获得碱基序列及修饰信息的测序方式。



单分子边合成边测序 single-molecule sequencing by synthesis

通过荧光标记或标签标记核苷酸或其衍生物被连续添加到新合成核酸链的过程,实现对单个核酸分子碱基序列识别的测序方式。


双链测序 duplex sequencing

对模板链及其互补链先后进行测序和碱基识别的测序方式。

注:对互补链进行测序的目的是与模板链的碱基序列相互进行校正 ,以提高测序准确度。



循环一致性测序 circular consensus sequencing

通过构建环状文库,对模板分子循环多次测定序列,产生子读序,将多个子读序对齐后进行比对校正的测序方式。

注:可应用于单分子实时荧光测序和单分子纳米孔链测序等测序方式。



2.一般性术语:

碱基识别 base calling

测序过程中从电信号、光信号或其他由于测序反应而产生的信号转换成碱基序列信息的过程。


碱基识别质量 quality of base calling

衡量碱基正确识别的概率 。通常以数字值直接表示。

碱基识别质量与碱基识别错误率之间的关系可用式表示:
式中:
Q——碱基识别质量 ; 
P——碱基识别错误率。


单分子基因测序 single-molecule gene sequencing 

在单分子水平上对核酸分子进行连续碱基序列测定。

注1:通常基于光学或电学等信号转换成碱基信息的单分子长片段测序方式,区别于依赖核酸模板扩增实现碱基序列测定的桑格测序、大规模平行高通量测序等以及基于共标签进行短序列连接的单分子测序方式。

注2:单分子基因测序中,根据不同的测序平台和建库方式,可实现万级或兆级连续碱基直接测量。


直接测序 direct sequencing

不经过任何扩增与转化处理构建文库,直接读取原始模板链碱基或修饰碱基所产生的测序信号的测序方式。

注:为单分子基因测序的技术特征。


直接RNA测序 direct RNA sequencing

待测RNA分子经文库构建后,直接读取原始RNA模板链碱基或修饰碱基所产生的测序信号的测序方式。

实时测序 real-time sequencing

在单个核酸分子的连续测序反应发生时同步进行碱基识别和序列输出的测序方式。注:为单分子基因测序的技术特征。


表观修饰直接测序 epigenetic modification direct sequencing

待测核酸分子上带有的表观遗传修饰 ,可不经过任何化学、生物等方法转化处理而被直接测定的测序方式。

注:表观遗传修饰包括5mC(5-甲基胞嘧啶)、5hmC(5-羟甲基胞嘧啶)、6mA(6-甲基腺嘌呤)等。


单分子测序文库 single-molecule sequencing library

为单分子基因测序准备的核酸分子特殊结构 ,通常通过核酸工具酶或其他方法将待测核酸分子与 同单分子基因测序平台适配的接头偶联后获得。

注:根据文库的拓扑结构可分为单链DNA环状文库、双链DNA环状文库、双链线性DNA文库等。


单分子一致性序列 single-molecule consensus sequence

在单分子基因测序中,通过整合目标区域/目标片段的多重拷贝、重复读段或互补链进行互相校正后得到的单条高置信度碱基序列。



3.参数指标相关

测序通量 throughput of sequencing

单次运行可获得序列信息的片段数量或可测定的脱氧核糖核酸和核糖核酸(以碱基表示)数量。

注:通量指标需标注完整单位 ,以明确通量描述的是片段数或碱基数。

[来源 :GB/T 30989—2014 ,3.21]


单芯片测序通量 throughput of sequencing per flow cell

单次运行过程中 ,单张测序芯片可获得序列信息的片段数量或可测定的脱氧核糖核酸和核糖核酸 (以碱基表示)数量。


单位时间测序通量 throughput of sequencing per unit time

单次运行过程中 ,单位时间内可获得序列信息的片段数量或可测定的脱氧核糖核酸和核糖核酸(以 碱基表示)数量。

注:单位时间( per unit time),通常为小时或分钟。


测序读长 read length of sequencing

单次运行可读取的质量合格的序列片段长度,通常以碱基数表示。

注:单分子基因测序评价指标包含最长读长、平均读长、读长N50等。

[来源 :YY/T 1723—2020 ,3.4]


最长读长 maximum read length

单次运行获得的质量合格的最长序列片段的长度, 以碱基数表示。


平均读长 average read length

单次运行获得的质量合格的序列的碱基总数与片段数相除得到的长度,以碱基数表示。


读长 N50 read length N50

将单次运行获得的质量合格的序列片段由长至短进行排序并依次相加,当相加的碱基数刚好达到或超过总碱基数一半时加上的最后一条片段的长度,以碱基数表示。


中位数读长 median read length

将单次运行获得的质量合格的序列片段按长度由长至短进行排序和累积计数 ,当累积数量刚好达 到或超过总片段数的一半时计数的最后一条片段的长度,以碱基数表示。


测序准确度 accuracy of sequencing

单次运行获得的质量合格的序列片段,其原始序列或经处理后的单分子一致性序列与参考序列的 一致程度。


测序准确度的计算方法可用式表示:

式中:
Accuracy——测序准确度;

Matches——比对正确碱基数;

Substitutions——替换错误碱基数;
Insertions——插入错误碱基数;

Deletions——缺失错误碱基数。
注:用于单条序列的评价。


平均准确度 average accuracy

单次运行获得的质量合格的所有序列片段 ,其原始序列或经处理后的单分子一致性序列经与参考 序列比对后 ,所有序列片段与参考序列的一致程度。

注:用于所有序列的整体统计评价。


中位数准确度 median accuracy

将单次运行获得的质量合格的序列片段按测序准确度由高至低进行排序和累积计数, 当累积数量刚好达到或超过总片段数的一半时计数的最后一条片段的准确度。


众数准确度 modal accuracy

单次运行获得的质量合格的各序列片段的测序准确度所做直方图中的最高峰对应的准确度。


一致性准确度 consensus accuracy

单次运行获得的质量合格的序列片段 ,经多序列比对校正处理后得到的一致性序列与参考序列的 一致程度。

注1:同测序准确度的计算方法类似,用一致性序列中比对正确的碱基数与目标区域所有类型碱基的总数的比值来 表示。

注2:用于一致性序列的评价。


单次测序准确度 single-pass accuracy of sequencing

测序获得的序列片段 ,其未经校正的原始序列与参考序列的一致程度。


单分子一致性测序准确度 single-molecule accuracy of sequencing

针对单个模板分子进行测序 、碱基识别与校正(使用多重拷贝测序 、循环一致性测序及双链测序方法时)后得到的序列与参考序列的一致程度。

注:对文库分子进行单次测序的平台 ,单分子测序准确度等同于单次测序准确度 ;对文库分子进行循环一致性测 序的平台 ,单分子一致性测序准确度等同于循环一致性测序准确度 ;对文库分子进行双链测序的平台 ,单分子一致性测序准确度等同于分子内互补链一致性准确度。



相关文件可在官网直接下载,亦可在基因江湖同名星球下载。


基因江湖
基因行业人的一块自留地。
 最新文章