来源:果蝇饲养员的生信笔记
1. HGMD简介
人类基因突变数据库(The Human Gene Mutation Database, HGMD®)是通用型数据库的代表, 它全面收集引起人类遗传疾病或与人类遗传疾病相关的核基因突变。此数据库建立的初衷是用于突变机制的分析,但由于它收录最新的、完整的有关人类疾病突变谱的参考数据,HGMD 至今已获得了更为广泛的应用。
HGMD 系统收录文献报道中的所有致病突变和与疾病相关的功能多态并将这些数据以易于读取的格式提供给感兴趣的各方面,不管他们是来自学术、临床 还是商业领域。HGMD 收集的数据包括了单碱基置换(比如编码序列中的错义突变和无义突变以及调控和剪切区域中的点突变) 、微缺失(micro-deletions)和微插入(micro-insertions)、缺失/插入(indels) 、重复序列扩增以及大的基因损伤(缺失、插入和培增)和复杂的基因重组。
HGMD 通过互联网(http://www.hgmd.org)免费提供给注册的(registered)学术和非盈利用户,但此公共网站只提供那些已收录三年以上的数据。最新的数据可从HGMD专业版(HGMD Professional)通过我们的商业合作伙伴BIOBASE GmbH以付费的形式获得。除了最新的突变数据,HGMD专业版还提供公共网站上不具有的功能强大的搜索工具以及与基因和突变有关的特别信息。HGMD 专业版每三个月更新一次。
2. Search help
有五种搜索 HGMD 的方式。
(1) 基因符号搜索 -搜索 HGMD 的官方 HUGO 基因命名委员会基因符号。
(2) 基因描述检索 -检索 HGMD 完整的基因描述,同样由命名委员会记录。也可以在此处搜索较旧的基因符号(如果存在)。
(3) OMIM编号搜索 - OMIM 为其数据库中的每个基因条目提供一个唯一的编号,该编号也可以使用 以搜索HGMD。
(4) GDB编号搜索 - GDB 为其数据库中的每个基因条目提供一个唯一的编号,该编号也可以使用 以搜索HGMD。
(5) 疾病/表型搜索 - 搜索 HGMD 与已报道的HGMD 基因突变相关的疾病/表型。
在进行gene symbol, gene description or disease/phenotype搜索时,允许使用通配符(*)。此外,最近还添加了alternate spelling支持。例如haemophilia 和hemophilia现在都应该lead to F8 和 F9 基因。 alternate spelling功能仅适用于完整的单词。
辅助搜索允许用户跳转到特定的突变数据集(如果确切的基因符号已知)。此搜索仅适用于 正确的 HUGO 命名法委员会基因符号。请注意,用户现在必须注册才能访问 HGMD 突变数据。
3. Statistics
4. Locus-Specific Mutation Databases (LSDBs)
目前已建立了相当数量的基因座特异性突变数据库,并通过互联网向公众开放。这些数据库中的许多病变都包含在Human Gene Mutation Database中。然而,特定位点的数据库可能包含其他未发表的材料。Genome Res (2002) 12: 680-688发表了一篇综述当前基因座特异性数据库的文章。
请注意,下面列出的这些网站不在Cardiff维护,所有关于它们的查询应向相关网站的管理员提出。还应注意的是,在这里包含一个站点并不自动意味着HGMD的策展人已经批准了该站点的质量或其内容。
5. Other Useful Links
6. HGMD Background
If you refer to HGMD in any publication, please cite Stenson et al. (2020), The Human Gene Mutation Database (HGMD®): optimizing its use in a clinical diagnostic or research setting. Hum Genet epub. [PubMed]
(1) Data coverage
The Human Gene Mutation Database包括第一个导致或与人类遗传性疾病相关的所有突变的例子,以及文献中报道的疾病相关/功能性多态性。HGMD还可以包括某些突变的额外报告,如果这些报告有助于增强原始条目(例如功能研究)。
这些数据包含了人类核基因编码区、剪接区和调控区中各种类型的突变。因此不包括体细胞突变和线粒体基因组突变,但对于后一种情况,我们现在提供了Mitomap的链接。每个突变只输入一次,以避免复发性和同源性病变之间的混淆。从氨基酸测序推断的突变已被排除,因为在没有直接DNA分析的情况下,所涉及的DNA序列变化可能存在一些不确定性。编码区内不改变所编码氨基酸的沉默突变也未被记录。如果已知这些突变对mRNA剪接或基因表达产生不利影响,或者已报告与疾病显著相关,则可将其纳入研究。
HGMD通常不包括缺乏明显表型后果的突变,但已纳入了少数可能产生某些临床效应的此类变异(例如白蛋白、丁酰胆碱酯酶)。许多已发表的突变搜索在单个患者中发现了不止一个基因变化。在这种情况下,特定病变和临床表型之间的关系并不总是立即明确,HGMD策展人不得不完全依赖作者、同行审稿人和期刊编辑的判断。因此,不能排除无意纳入一些病理学意义不大或没有病理学意义的病变的可能性。
1999年3月,HGMD开始纳入与疾病相关的多态性。这些数据来自期刊扫描。要纳入研究,必须有令人信服的多态性与表型的关联。这些多态性目前通过添加表型描述在数据库中被识别。这些增加仅限于"association", "association with" and "increased" or "lower" "risk",取决于如何报告多态性。问号有时也包括在内,表示这种联系是微弱的。有些多态性仅作为variants被包括在内。这将发生在任何被报告为可能有临床意义的多态性,但没有相关的临床表型。关于我们如何选择包括这些多态性的更完整的解释,请阅读我们的多态性纳入标准。
HGMD还包括一些来自公共领域的位点特异性突变数据库(locus-specific mutation databases,LSDBs)的突变数据。因此,来自密码保护数据库的数据不包括在内。从公开可用的LSDB获取的数据在纳入后立即被放置在免费可用的HGMD公开版中。
(2) Pathological authenticity
显著破坏特定基因结构的病理性突变很可能导致相关的临床表型。然而,对于其他类型的病变,病理性突变通常难以与临床意义很小或没有临床意义的多态性区分,特别是当它们的结构或功能后果很细微时(Cotton and Scriver, 1998)。因此,在病理背景下证明其真实性的证据通常来自于一条或多条不同的证据:
正常对照的缺失。
新出现的病变和随后通过家系的疾病表型共分离。
该基因中没有可能导致观察到的临床表型的任何其他病变。
之前在一个无关的患者中独立发生。
非保守氨基酸置换更容易破坏蛋白质功能。
在已知结构或功能重要的蛋白质区域内的位置。
在进化保守的核苷酸序列和/或氨基酸残基中的位置。
由突变引起的基因表达/mRNA剪接/活性或蛋白质产物稳定性降低的体外证明。
证明突变蛋白在体外与体内突变蛋白具有相同的性质。
通过基因替代逆转患者/培养细胞的病理表型。
(3) Database structure
如果突变的碱基位于三联体的第一个或第三个位置,则编码区中的单个碱基对置换以三联体变化的形式出现,并包括额外的侧翼碱基。
引起调控异常的替换记录在突变位点两侧的30个核苷酸中;给出了突变相对于转录起始位点、起始ATG或聚腺苷酸化位点的位置。
对mRNA剪接有影响的突变被简单地用指定损伤相对于一个有编号的内含子供体或受体剪接位点的相对位置的信息提出。给出的正整数指的是3‘(下游)位置,负整数指的是5’(上游)位置。
微缺失(≤20 bp)以小写的缺失碱基加上大写的突变两侧的10 bp DNA序列表示。
编号的密码子在给定序列的前面有一个插入字符(“^”)。
在任何位置参数被列为“?”的情况下要么位置未知,要么缺乏一致的核苷酸/密码子编号系统。
当缺失延伸到所述基因的编码区时,偶尔会提供其他位置信息,例如5' UTR (5' untranslated region) 或E6I6 (denotes exon 6/intron 6 boundary)。
应该注意的是,由于对同一蛋白质使用不同的编号系统,密码子编号在某些情况下可能会显示不一致。对于一些基因(没有错误或歧义的风险),残基编号已按照普遍接受的编号系统进行了标准化。
(4) Data collection
每周通过人工和计算机搜索程序相结合的方式收集数据。扫描超过250种期刊,寻找描述导致人类遗传疾病的germline突变的文章。所需的数据是从原始文章中提取的,并增加了必要的支持数据。包括的数据主要来自original published reports,尽管一些数据来自“突变更新”和综述文章。未发表的突变和仅以abstract形式报道的突变不包括在内。然而,对于某些基因,可以通过基因座特异性突变数据库获得这种损伤的报告。请注意,为了保持HGMD的可靠性,策展人采取了排除相应报告中没有充分描述的突变的政策。
7. Disease-associated and/or functional polymorphisms in HGMD
HGMD试图纳入以下DNA序列变异:(i) 与疾病相关且可能具有功能意义,或(ii)尽管迄今尚未发现相关的临床表型,但具有明确的功能意义。在评估已发表的描述潜在疾病关联的多态性报告时,固有的困难导致我们采用了一套纳入标准,这些标准共同描述了我们认为的处理文献中出现的这些变异的系统和统一方法。
目前,约55%的HGMD多态变异是与疾病相关的。然而,即使在这种情况下,没有证明的疾病关联,功能多态性,改变基因的表达或基因产物的结构/功能可能是非常重要的。尽管没有疾病关联的功能性多态性可能没有任何直接和/或直接的临床相关性,但这些数据在理解疾病易感性的个体差异方面可能非常有价值。HGMD的多态性变异绝大多数为单核苷酸多态性(single nucleotide polymorphisms, SNPs),但也有少数为插入/缺失型。HGMD记录的多态性变异通常位于基因调控区或编码区,但需要注意的是,发生在这些区域之外的SNP仍然可能对基因表达、剪接、转录因子结合等产生影响。
疾病相关多态性和病理性突变之间的区别在实践中通常是相当随意的,并且通常是在该变异在人群中的流行率及其外显率(特定基因型表现为给定临床表型的频率) 的背景下做出的。在被研究的人群中,次要等位基因频率> 1%的变异,按照惯例,被称为多态性。通过在临床/实验室表型描述中添加术语,在数据库中鉴定这些多态性。这些补充仅限于“association with”和“association with?” (问号被包括在内,以表明HGMD策展人认为这种联系有些站不住脚)。
(1) Inclusion Criteria for Disease-Associated/Functional Polymorphisms
HGMD中记录的多态变异通常分为两类:
Disease-associated polymorphisms of functional significance
要被包括为疾病相关,必须报道多态性和临床表型之间有统计学显著性(p<0.05)的关联。此外,应提供其他信息 (如体外或体内表达/功能数据、重复关联研究、流行病学研究、进化保守数据等) 来支持所讨论的多态性本身具有真正的功能意义的论点。这种多态性可能对基因表达、蛋白质结构/功能、基因剪接等产生影响。需要这些支持性实验数据来确保非致病性变异 (即那些仅仅与实际致病性变异连锁不平衡的变异) 不被包括在内。如果支持纳入疾病相关变异所需的功能数据包含在后续文章中,在HGMD记录的参考文献仍将是最初报告疾病相关性的文献。由于HGMD目前不支持多重参考,那些描述功能研究的附加报告在注释字段中给出。NCBI dbSNP编号(如有标识)也包含在注释字段中。
Polymorphisms of functional significance with no reported disease association
如果没有已知的临床表型与多态性变异相关,但仍有足够的体外或体内表达/功能数据表明功能显著,那么该变异将被纳入HGMD。通常,这些数据提供了对基因表达、蛋白质结构和/或功能、基因剪接等的直接影响的证据。因此,在非常真实的意义上,这些变异可以被认为是引起给定基因转录物或蛋白质产物的“缺乏”(或偶尔过量)。因此,在HGMD记录的表型需要功能效应的简要描述,例如“Reduced gene expression, association with”。如果以后有证据表明疾病/临床表型与这种多态性相关,则将该疾病/临床表型和对该变异的引用输入注释字段,反映额外的引用和表型。影响个体药物反应、患者诊断后存活时间和手术干预反应的多态性变异不包括在HGMD中。仅报告与疾病相关的dbSNP数量的研究 (例如,来自大规模全基因组关联研究),没有直接功能参与的额外证据,也不包括在HGMD。对这种特殊类别的变异感兴趣的用户应该尝试其他数据库,如已发表的全基因组关联研究目录(http://www.genome.gov/26525384/)或遗传关联数据库(http://geneticassociationdb.nih.gov/)。
在某些情况下,上述标准可能只是部分满足,因此HGMD策展人仍然不相信所报道的变异的功能/表型相关性。在这种情况下,由于(i)原始(第一个)报告发表后支持信息变得可用,或(ii)因为相关基因/疾病状态被认为对变体足够重要以保证进一步研究,多态性仍然可以被包括在内。这种变体被归因于描述符“association with?” (与不带问号的“association with”相对)表示涉及某种程度的不确定性。
(2) Sub-categorisation of HGMD polymorphism data
最近,HGMD采用了对多态性条目进行亚分类的策略。因此,多态性现在可以分配到三个可能的类别之一,反映上述标准:
Disease-associated polymorphism (DP)
一种被报道与疾病显著相关的多态性(p<0.05),被认为是功能性的(例如,由于位置、进化保守性、复制研究等的结果),尽管目前可能还没有关于功能的直接证据(例如,来自表达研究)。
Disease-associated polymorphism with additional supporting functional evidence (DFP)
一种被报道与疾病显著相关的多态性(p<0.05),并有证据表明其具有直接的功能重要性(如作为表达改变、mRNA研究等的结果)。
Frameshift or truncating variant (FTV)
一种文献报道的多态或罕见变异(如在全基因组/外显子组筛查过程中检测到),预计会截断或以其他方式改变基因产物(即无义或移码变异),但尚未报告与疾病相关。请注意,任何影响基因的专性供体/受体剪接位点的变异体将不包括在这一类别中,除非有证据表明对剪接表型有影响。假基因中发生的变异也将被排除,除非有证据表明假基因本身和相关变异均有功能效应。
(3) Other Categories of Variation
Copy number variations
拷贝数变异(CNVs)是长度大于1 kb的DNA片段,在给定的群体中以可变的拷贝数存在。这些变异在文献中被报道的频率越来越高。CNVs具有潜在的功能重要性,因此原则上HGMD应该以类似于任何其他多态性的方式对待CNVs。然而,人类CNV已经被其他数据库收集,如Database of Genomic Variants (http://projects.tcag.ca/variation/) and the Human Genome Structural Variation Project (http://humanparalogy.gs.washington.edu/structuralvariation/)。与疾病相关的CNV也在数据库中进行整理,如DECIPHER、http://www.ecaruca.net和the Chromosome Abnormality Database (http://www.ukcad.org.uk/cocoon/ukcad/)。虽然HGMD不希望复制其他组织的优秀策展工作,但HGMD仍然对符合特定标准的此类变异感兴趣。因此,HGMD将包括这些变异,如果它们被证明具有功能意义并且与疾病相关,并且如果它们涉及本身明显与疾病相关的单一特征基因。
Risk haplotypes
与疾病风险增加相关的单倍型的报告不包括在没有确切指示单倍型中哪个(或哪些)变异与疾病关联/功能效应相关的病例中。但是,如果有证据支持这样的论点,即风险单倍型中的单个变异是致病的和/或具有功能意义,达到满足纳入标准的程度,那么它肯定会被纳入HGMD。
声明:本文仅代表作者观点,不代表平台立场,如果转载涉及版权等问题,请尽快联系我们,我们第一时间更正或删除,谢谢!