结构变异(SVs)是指在大小和类型上极其多样化的基因组改变,范围从~ 50bp到大于兆碱基的片段,包括缺失、重复、新插入、倒置、易位、可移动元件、重复序列扩展、拷贝数变异/变体(CNVs)和其他复杂组合。CNVs占人类基因组的4.8-9.5%,具体定义为> ~ 1000 bp序列的基因组丢失或获得,主要由缺失和重复组成。根据SVs的形成机制,可以识别出两种类型的SVs:复发性和非复发性基因组重排,分别发生在同源染色体(chr)交叉/突触和减数分裂第一次细胞分裂的S期。具有重复断点的SV主要通过染色体内非等位基因同源重组途径形成,一些支持断点的假设可以解释其形成机制,如非同源末端连接、断裂诱导复制、微同源介导的断裂诱导复制、序列复制滑移、叉速和模板切换。SVs比单核苷酸变异(SNVs)更大,插入和缺失(indels)更短,这可能与它们更高的遗传性和对人类疾病更深刻的致病作用有关。许多遗传疾病已被发现与SVs有关,如自闭症、阿尔茨海默病和先天性心脏缺陷。此外,作为遗传疾病的一部分,肿瘤疾病也被证明存在一类新的复杂SV事件和突变过程。
近十年来,随着长读测序技术的发展和成熟,SV/CNV检测的敏感性和特异性显著提高,使临床诊断和治疗更加准确。已经开发了几个提供SV信息的数据库,以突出SV与遗传疾病/表型(包括PGG)之间的重要关系。SV、基因组变异数据库(DGV)、DECIPHER和ClinVar,它们各有优缺点。PGG。SV构建了一个由6048个健康样本组成的参考数据集,并补充了东亚人群样本,增加了全球族群之间的可比性。DGV旨在建立人类基因组结构变异的图谱,特别是50 bp以上DNA片段的基因组改变。然而,PGG,SV和DGV的相似之处在于,数据来源主要是健康样本,这些变异与特定疾病之间的关系尚未明确确定。破译是一个数据库,致力于识别和解释罕见遗传疾病的致病变异,因此一些常见的遗传疾病不包括在内。
ClinVar还提供了一系列与遗传变异(包括SNVs、indels和SVs)相关的模块,如人类变异与表型的关系、变异的临床意义解释标准等,但ClinVar并不是一个专门包含SVs的数据库,由于其数据量巨大,使用起来比较复杂。并且不能直接在数据库中搜索到SV的断点,用户需要下载整个VCF文件并重新搜索解压缩,增加了不便。此外,有些疾病不包括在其中,如食管癌和胆管癌。而对于上述数据库,大多不直接在数据库中记录患者的年龄、性别、检查、表型等详细信息,而是要求用户与提交者联系。虽然通过这种方式可以获得更全面、详细的患者信息,但需要一定的等待时间;甚至有时候,很难得到回复。因此,有必要提供直接的患者信息,这也有利于保证数据的准确性和可靠性,促进数据的多样性和代表性。总体而言,目前仍缺乏从文献中获得的遗传病结构变异的综合在线数据库资源。
图形摘要(图源自Nucleic Acids Research )
因此,仍需要开发更专注于结构变异、与广泛的遗传疾病密切相关的数据资源,以进一步推动该领域的研究和临床应用。研究介绍了基于文献挖掘的结构变异数据库SV4GD (Structural Variation for Genetic Diseases, https://bio-computing.hrbmu.edu.cn/SV4GD/),该数据库具有简单的检索界面和全面的疾病覆盖,包括部分SVs的多个断点和同源重组形成机制。
参考消息:
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkae1015/7889244
—END—
内容为【iNature】公众号原创,
转载请写明来源于【iNature】
微信加群
iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群(16个PI群及64个博士群),同时更具专业专门组建了相关专业群(植物,免疫,细胞,微生物,基因编辑,神经,化学,物理,心血管,肿瘤等群)。温馨提示:进群请备注一下(格式如学校+专业+姓名,如果是PI/教授,请注明是PI/教授,否则就直接默认为在读博士,谢谢)。可以先加小编微信号(love_iNature),或者是长按二维码,添加小编,之后再进相关的群,非诚勿扰。
投稿、合作、转载授权事宜
请联系微信ID:13701829856 或邮箱:iNature2020@163.com
觉得本文好看,请点这里!