来源:银丰基因科研服务部
在基因检测报告中,描述基因变异位点时通常会使用特定的命名规则,例如c.536C>A,p.L332W等等。小编听说还有看不懂变异命名的小伙伴,想到你们拿着报告一脸茫然的样子,都替你们着急,今天我们就来聊聊基因变异的命名规则。
为了便于学术交流和计算机识别,目前基因检测行业普遍应用HGVS规则对变异进行统一命名,人类基因组变异协会(HGVS:Human Genome Variation Society)规则是目前学术界所公认的命名规则。HGVS是一个非政府的民间学术组织,其官方网站的网址是http://www.hgvs.org,感兴趣的小伙伴可以去看一下。HGVS命名规则由HGVS(the Human Genome Variation)、HVP(the Human Variome Project)、HUGO(the Human Genome Organizaion)共同制定。
HGVS的所有变异命名从三个水平描述:DNA水平、RNA水平、氨基酸水平,并从两个方面进行反映:变异位点的位置和对编码蛋白造成的影响。所以,变异描述的顺序为:参考序列、变异位置、变异类型。
目前,通用的参考序列主要包括:
l 基因组参考序列—以前缀“g.”表示
l cDNA参考序列—以前缀“c.”表示
l 非编码DNA参考序列—以前缀“n.”表示
l RNA参考序列—以前缀“r.”表示
l 蛋白质参考序列—以前缀“p.”表示
为了能更好地阐明内含子的变异,通常会选择cDNA作为参考序列,能够更好的描述内含子中突变碱基与相邻外显子之间的关系。另外,基因突变也常以蛋白质水平的变化进行描述。
下面我们就来看看以cDNA为参考序列的突变表达方式
置换(>):一个核苷酸被另一个核苷酸替代,使用“>”来表示;例如c.138G>T;
缺失(del):一个或多个核苷酸被移除,使用“del”进行描述;例如c.366_376del;
倒置(inv): 与原始序列反向互补的新的核苷酸序列(大于1个核苷酸)替换原始序列,例如由CTCGA变为TCGAG,使用”inv“表示;例如c. 328_333inv;
重复(dup):一个或多个核苷酸拷贝直接插入原始序列的下游,使用“dup”表示;例如c.3661_3706dup;
插入(ins):序列中插入一个或多个核苷酸,并且插入序列并非上游序列拷贝(敲黑板:ins与dup的区别);例如c.575_576insAGG;
缺失-插入(delins/indel):一个或多个碱基被其他碱基所取代,并且这种变异不包括替换突变、倒置以及转换突变;以“delins”进行表示;如:c.6775delinsGA,表示与参考序列相比,第6775位缺失了一个碱基,同时缺失的碱基被GA做取代(略复杂,但小编相信难不倒聪慧的你们);
转换(con):一种特殊类型的缺失-插入,其中替代原始序列的核苷酸序列是来自基因组中另一个位点的序列拷贝;例如c.112_123con576_587。
对于编码序列来说,将参考序列中翻译起始密码子ATG中的A编号为c.1,编码进行到翻译终止密码子的最后一个核苷酸。非编码区中ATG上游(5’-UTR)依次编号为“c.-1、c.-2……”,终止密码子下游(3’-UTR)依次编号为“c.*1、c.*2……”至参考序列结尾处结束编号。
内含子是根据相邻外显子核苷酸进行编码的,为了更好地理解内含子中碱基突变的表现形式,我们首先来了解一下DNA序列中各碱基所处的位置,如下图所示:
核苷酸编码示意图
在图中可以看出,从起始密码子开始到终止密码子为止,外显子序列的编号是连续的,而5'-UTR、3'-UTR以及内含子区的编码都是与外显子序列的编码密切相关的。
因此,内含子中碱基的替换、缺失、插入等突变的表现形式就可以分别表示为:
c.36+1G>T c.36表示前面一个外显子的最后一个碱基位于编码区36位,+1代表这个外显子挨着的后面的内含子的第一个碱基;
c.(4071+1_4072-1)_(5154+1_5155-1)del 表示两个外显子之间的序列发生缺失;
c.37+1_37+2insATC表示在“37+1”与“37+2”位点间插入碱基ATC。
讲到这里大家是不是已经明白了,不要膨胀,下面我们再来看看以蛋白质为参考序列的突变表达方式。
蛋白质参考序列以“p”标注,HGVS建议使用“Ter(三字母缩写氨基酸)”或“*(单字母缩写氨基酸)”表示终止密码子,例如p.Trp123Ter或p.W123*。在移码突变的描述中增加了影响起始密码子和终止密码子变异的描述方式,对于预测的移码突变可以用两种方式展示,例如p.(Arg97fs)或p.(Arg97Profs*23)。
替换:如p.Trp26Cys,表示第26位的Trp被Cys取代(错义突变);p.Trp26Ter (p.Trp26*),表示第26位的Trp变为终止密码(无义突变);p.Cys123=,表示基因突变之后,氨基酸没有发生改变(同义突变);
缺失:如p.Ala3_Ser5del,表示多肽序列中从第3位的Ala到第5位的Ser发生了缺失,p.(Val7del):预测7位氨基酸缺失,未经过实验验证;
插入:如p.Lys2_Gly3insGlnSerLys,表示在第2位的Lys和第3位的Gly之间插入了GlnSerLys;
插入缺失:如p.Cys28delinsTrpVal,表示第28位的Cys缺失,同时被TrpVal取代;
重复:如p.Ala2[10],表示第2位的Ala重复了10次;
移码突变:在起始密码子和终止密码子之间的读码框发生了改变;以“fx”进行表示;如p.Arg97ProfsTer23,表示第97位的Arg是首个发生改变的氨基酸,且Arg变为Pro,同时发生移码突变后,终止密码的位置变为第23位。
以上是从DNA和蛋白质水平对常见突变类型的表现形式的总结,下面再通过几个例子来看一下其他变异类型的表现形式。
c.83_84dupTG:ACTTTGTGCC(A为第76位)的83-84位之间插入短的串联重复序列TG,变为ACTTTGTGTGCC;
p.Ser6dup:原序列:MetGlyAlaArgSerSerHis ,变异后的序列:MetGlyAlaArgSerSerSerHis,遵循最靠近3’端原则,位置为第6位,而不是第5位。
g.333_590con1844_2011:基因组中编号为333-590的核苷酸序列替代1844-2011原有序列,插入其中;
g.112_117delinsTG:在基因组序列编号为112-117之间的6个核苷酸被TG替换;
多个变异使用”[]”标注变异,并用“;”链接
l 同一等位基因发生多个变异
c.[76A >C;83G>C]:同一染色体上76位和83位发生两个变异(顺式);
l 不同等位基因发生多个变异
c.[76A >C];[83G>C]:两个变异发生在不同染色体上(反式);
l 不确定多个变异发生的位置
c.[76A >C](;)[83G>C]:两个变异可能发生在同一染色体,也可能发生在不同染色体上,用(;)来链接。
l 定义重复序列的核苷酸范围及重复单位的数量,并用“[]”表示
g.123_124[4]:基因组序列中第123-124间的核苷酸重复出现4次;
l 对于短的/简单的重复,可以展示重复序列
g.123TG[4]:基因组序列中从123位开始TG核苷酸重复出现4次;
l 当重复序列长度不确定时,使用括号进行指定
g.-128GGC[(600-800)]:基因组编码区上游128位核苷酸处重复插入GGC,重复次数在600-800之间;
l 嵌合现象
p.Trp24=/Cys: 24位原序列氨基酸Trp和改变后的氨基酸Cys同时存在,但不管两种氨基酸的比例如何,都要把与参考序列相同的氨基酸置于第一位。
c.85=//T>C:包括c.85=的细胞,也包括c.85T>C的细胞。
除上述变异位点,你会发现一个典型的HGVS命名如:NC_000023.9: g.32317682G>A,还会有一个NC开头的号码,这又是什么呢?
这是NCBI或EBI数据库中的ID,必须同时包含accession和version信息,如NC_000023.10, NC_000023代表编号,10代表版本号。
NC_:代表完整的基因组序列,标记的类别包括基因组、染色体、细胞器、质粒。
LRG_:Locus Reference Genomic,基因座参考基因组序列。
NG_:不完整的基因组区域,提供NCBI基因组注释途径。比较有代表性有不转录的假基因或者那些很难自行化注释的基因组簇。
NM_:转录产物序列;成熟mRNA转录本序列。基因检测报告中最常用此作为参考序列。(有时我们也会碰到XM开头的转录本号,表示预测的转录序列信息,一般不用特别关注。)
NR_:非编码的转录子序列,包括结构RNAs,假基因转子等。
NP_:蛋白产物;主要是全长氨基酸序列,但也有一些只有部分蛋白质的部分氨基酸序列。
我们的基因检测报告主要使用NM开头的转录本号,你记住了吗?
声明:本文仅代表作者观点,不代表平台立场,如果转载涉及版权等问题,请尽快联系我们,我们第一时间更正或删除,谢谢!