联川生物转录组特色数据库——DO疾病数据库

企业   科学   2024-09-08 10:02   浙江  


什么是DO数据库


Disease Ontology疾病本体论(DO)数据库(http://Disease-ontology.org)是一个包含了8043种遗传性、发育性和获得性人类疾病的综合知识库(DO版本3,修订本2510)。DO网络数据库通过使用图形数据库来实现疾病查找的速度、效率和稳定性。使用Lucene的全文上下文搜索功能允许使用复杂的布尔搜索字符串查询名称、同义词、定义、doid和交叉引用(Xref)。DO通过广泛的交叉映射和整合MESH、ICD、NCI的同义词库、SNOMED CT和OMIM疾病专用术语和识别符,在语义上整合了疾病和医学词汇。DO被主要生物医学数据库(例如,Express、NIF、IEDB)用于疾病注释,作为人类疾病在生物医学本体论中的标准表示(例如,IDO、细胞系本体论、NIFSTD本体论、实验因素本体论、流感本体论),以及作为DO、Mesh和OMIM之间的本体论交叉映射资源(例如GeneWiki)。DO项目(http://diseaseontology.sf.net)已经被整合到开源工具中,通过人类疾病的视角将基因和疾病生物医学数据联系起来。DO网络数据库将集成DO的扩展关系和逻辑定义表示以及这些生物医学资源交叉映射。






DO的范围


DO是一种开源的人类疾病本体论描述,从疾病病因和位置的临床角度进行组织。为疾病提供分类框架‘Rosetta Stone’是2004年启动疾病本体的主要用例。2003年和2004年DO的最初版本使用ICD-9作为基本词汇表。这些早期版本根据过程、受影响的系统和原因(遗传疾病、传染病、代谢疾病)进行了广泛的重组。随着基于UMLS疾病概念的DO的重组以及术语概念与SNOMED CT和ICD-9的映射,进一步的修订得到了改进。
DO已经成为一个社区驱动的、开放的和可扩展的框架,用于通过直接和间接的语义关系获取人类疾病知识。DO能够通过临床、基因和基因组研究元数据中可用的疾病映射来探索数据集和数据资源。这种探索利用了DO中嵌入的丰富的语义。DO的有向无环图(DAG)表示按相互关联的亚型(例如,Brill-Zinsser病是流行性斑疹伤寒,流行性斑疹伤寒)组织的层次结构(例如,脑多形性胶质母细胞瘤是脑胶质瘤,脑胶质瘤是脑癌)中的可计算关系链接的术语。DO被组织成八个主要节点,代表细胞增殖、心理健康、解剖实体(例如心血管系统疾病)、传染病(例如炭疽病)、新陈代谢和遗传性疾病以及由可追踪、稳定的识别符(DOID)锚定的医疗疾病和症状。
DO项目继续改进和扩大所有人类疾病的代表性,根据需要增加新的DO术语,以进行管理、术语请求和协作开发。例如,罕见疾病目前在DO中的比例偏低。策展人正在努力深化DO的表示,并在DO逻辑定义(HumanDO_xp.obo)文件中扩展我们的标准IS_a关系。附加的逻辑定义文件格式将疾病术语与相关的本体论概念(例如,解剖、表型、紊乱、细胞类型)连接起来。HumanDO_xp.obo文件可以从DO的SourceForge站点获得,它包括931个DO术语的其他关系。


本体论疾病定义


疾病的本体论定义使每种类型(或类别)的疾病都能在一个形式化的结构中被单独分类。随着上层组织基本形式本体论(BFO,http://www.ifomis.uni-saarland.de/bfo/)和普通医学本体论(OGMS,http://www.acsu.buffalo.edu/~ag33/ogms.html)的发展,以及精神疾病的本体论实在论的讨论和疾病的治疗和诊断的讨论,混乱、性情和疾病作为一种已实现的性情的本体论的区别已经被澄清。疾病本体论包括疾病的临床描述,通过采用OGMS对疾病的本体论定义,澄清了DO的本体论范围,即(I)经历(II)由于该有机体中的一个或多个疾病而存在的病理过程的倾向。在这一背景下,DO描述了疾病在个体中表现出来的属性。

进行语义集成


通过与改善DO的DO团队的合作努力,DO中免疫系统、骨骼、精神、遗传和传染病子树的范围已经扩大,以满足社区的需求。DO项目为生物医学数据库和本体论中的人类疾病术语的统一数据管理和一致注释提供了本体论框架。在几个主要的生物医学资源中,DO术语及其DOID已被用来注释疾病概念。大鼠基因组数据库(RGD)注释了它们的大鼠和小鼠基因记录以及大鼠QTL,这些QTL是人类疾病的动物模型,带有DO的人类疾病术语。免疫表位数据库(IEDB)表位记录用168个DO术语标注。使用2983个候选DO注释对GeneWiki的基因记录进行注释正在进行中。EBI的阵列快报的实验表达记录(9611)已经用DO术语进行了注释,这代表了用于理解疾病和基因功能之间的关系的广泛资源。DO继续被越来越多的生物医学本体论用作疾病的标准表示。例如,NCBO的神经科学信息网络(NIF)标准本体(NIFSTD)整合了DO对252种精神障碍和神经疾病的表示。NIF主题专家提供的反馈继续改善DO的疾病代表性。

DO内容和结构


DO在逻辑上被构造成主要类型的疾病,以实现本体论的引导扩展。通过不断努力改进对文本定义的表述(1822个文本定义,22%的DO术语,DO版本3,修订版2510),DO正在得到加强。DO稳定的HumanDO.obo文件为提高DO对疾病、障碍和表型之间复杂关系的表示提供了基础。DO已经开始扩展跨产品关系集,将DO术语链接到带有疾病属性(例如症状、表型、解剖或细胞位置和病原体)注释的正交本体,在DO的逻辑定义文件(HumanDO_xp.obo)中有932个逻辑定义,到基础解剖学模型(FMA)、人类表型本体(HP)、NCBI组织分类词汇、传播过程本体、症状本体、PATO、GO和细胞类型本体。在HumanDO_xp.obo文件中展开DO的一组关系(Transmitted_By、Results_Information_of、reslts_in、Replemented_by_Suppression_With、Part_Of、Located_In、Has_Symptom、Has_Material_Basis_in、Drives_From和Composed_Of)将扩展DO定义这些复杂关系的能力。


链接疾病术语


DO的广泛交叉映射和将标准临床和医学术语(MESH、ICD、OMIM和NCI同义词库)中的概念纳入疾病本体论分类中,为从语义上连接与人类疾病相关的表型、基因和遗传信息提供了丰富的资源。通过计划统一ICD和SNOMED CT术语和分类(http://www.who.int/classifications/AnnouncementLetter.pdf).,将进一步加强健康信息和患者电子健康记录的联系。


DO根据每个疾病术语的UMLS概念唯一识别符(CUI)识别、集成和连接MESH、SNOMED CT、OMIM和ICD9CM中的同义疾病概念。从ULMS MRCONSO.RRF词汇映射文件中提取词汇CUI,每年更新词汇映射两次。通过此流程,91%(7845)的DO术语(2011年8月)被映射到UMLS CUI。这意味着自2010年5月的DO-UMLS映射以来,UMLS映射减少了7%,这反映了DO增加了对逻辑定义的使用来定义复杂的疾病关系,这减少了唯一DOID的数量。例如,DO将腺癌定义为一种(is_a关系)癌,它起源于腺组织的上皮细胞。DO将胆囊腺癌定义为胆囊癌的一种。


这两组关系表示在HumanDO.obo文件中定义并在DO Web浏览器中可视化的每个术语的单一父子关系。在DO的当前版本中,从UMLS词汇表继承的多个亲子关系(多个is_a关系)已大大减少。目前正在进行策展工作,通过在HumanDO_xp.obo逻辑定义文件中创建交叉引用定义(逻辑定义)来表示次要亲子关系。逻辑定义提供了将一种类型的器官癌(例如胆囊腺癌)和肿瘤的细胞类型(例如腺瘤)之间的关系定义为一种腺瘤类型或定义一种疾病的解剖位置(胆囊腺癌位于胆囊内)的机会。


DO数据库的使用


通过官网的检索框可以对数据库中的信息进行检索,也可以通过左侧的导航栏直接进行浏览,在右侧的页面会显示对应的结果信息。以肿瘤相关基因PTEN作为关键词进行检索,结果示意如下:


给出了每个记录的DOID和名称,点击检索结果的所在的行,可以查看对应的metadata信息,以DOID:0080191为例,结果示意如下:


第一行为该基因所属DOID号,第二行为其名称,第三行为此条目的定义,其描述为一种综合征,其特征是由PTEN基因的生殖系突变引起的一系列疾病(Cowden综合征、Bannayan-Riley-Ruvalcaba综合征、PTEN相关的Proteus综合征和Proteus样综合征),其中三个链接分别为此基因或疾病类型在不同数据库中的关联链接,

通过Visualize可以查看该节点相关的节点信息,示意如下:


由图可知Cowden syndrome 与Proteus syndrome是属于PTEN hamartoma tumor syndrome的一类疾病表型,而PTEN hamartoma tumor syndrome是属于一类syndrome疾病。
和Gene Ontolgy类似,DO所有的疾病信息也是采用了一个有向无环图的拓扑结构,所有数据库中的信息存储了一个obo文件中供下载,链接如下  
http://www.disease-ontology.org/downloads/

 

END

相关阅读
Plant Cell | 植物单细胞(核)转录组学的执行、分析和数据存储的最佳策略
联川生物转录组GO/KEGG/GSEA/ssGSEA/GSVA集成式富集分析在"沧海"一网打尽
算法模型|Cell子刊(IF=11.7)浙江大学团队开发scRank:从未给药的单细胞转录组数据中推断药物效应细胞类型
本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!
扫描下方二维码




点分享


点点赞


点在看

联川生物
一个提供科研入门学习资源、经验的平台。 分享前沿测序技术资讯、实用生信绘图技巧及工具。 发布高质量的科研论文精度、精炼科研思路。 我们的目标是持续提供“干货”,滋润您的科研生涯。
 最新文章