什么是DO数据库
Disease Ontology疾病本体论(DO)数据库(http://Disease-ontology.org)是一个包含了8043种遗传性、发育性和获得性人类疾病的综合知识库(DO版本3,修订本2510)。DO网络数据库通过使用图形数据库来实现疾病查找的速度、效率和稳定性。使用Lucene的全文上下文搜索功能允许使用复杂的布尔搜索字符串查询名称、同义词、定义、doid和交叉引用(Xref)。DO通过广泛的交叉映射和整合MESH、ICD、NCI的同义词库、SNOMED CT和OMIM疾病专用术语和识别符,在语义上整合了疾病和医学词汇。DO被主要生物医学数据库(例如,Express、NIF、IEDB)用于疾病注释,作为人类疾病在生物医学本体论中的标准表示(例如,IDO、细胞系本体论、NIFSTD本体论、实验因素本体论、流感本体论),以及作为DO、Mesh和OMIM之间的本体论交叉映射资源(例如GeneWiki)。DO项目(http://diseaseontology.sf.net)已经被整合到开源工具中,通过人类疾病的视角将基因和疾病生物医学数据联系起来。DO网络数据库将集成DO的扩展关系和逻辑定义表示以及这些生物医学资源交叉映射。
DO的范围
DO是一种开源的人类疾病本体论描述,从疾病病因和位置的临床角度进行组织。为疾病提供分类框架‘Rosetta Stone’是2004年启动疾病本体的主要用例。2003年和2004年DO的最初版本使用ICD-9作为基本词汇表。这些早期版本根据过程、受影响的系统和原因(遗传疾病、传染病、代谢疾病)进行了广泛的重组。随着基于UMLS疾病概念的DO的重组以及术语概念与SNOMED CT和ICD-9的映射,进一步的修订得到了改进。
DO已经成为一个社区驱动的、开放的和可扩展的框架,用于通过直接和间接的语义关系获取人类疾病知识。DO能够通过临床、基因和基因组研究元数据中可用的疾病映射来探索数据集和数据资源。这种探索利用了DO中嵌入的丰富的语义。DO的有向无环图(DAG)表示按相互关联的亚型(例如,Brill-Zinsser病是流行性斑疹伤寒,流行性斑疹伤寒)组织的层次结构(例如,脑多形性胶质母细胞瘤是脑胶质瘤,脑胶质瘤是脑癌)中的可计算关系链接的术语。DO被组织成八个主要节点,代表细胞增殖、心理健康、解剖实体(例如心血管系统疾病)、传染病(例如炭疽病)、新陈代谢和遗传性疾病以及由可追踪、稳定的识别符(DOID)锚定的医疗疾病和症状。
DO项目继续改进和扩大所有人类疾病的代表性,根据需要增加新的DO术语,以进行管理、术语请求和协作开发。例如,罕见疾病目前在DO中的比例偏低。策展人正在努力深化DO的表示,并在DO逻辑定义(HumanDO_xp.obo)文件中扩展我们的标准IS_a关系。附加的逻辑定义文件格式将疾病术语与相关的本体论概念(例如,解剖、表型、紊乱、细胞类型)连接起来。HumanDO_xp.obo文件可以从DO的SourceForge站点获得,它包括931个DO术语的其他关系。
本体论疾病定义
进行语义集成
DO内容和结构
链接疾病术语
DO的广泛交叉映射和将标准临床和医学术语(MESH、ICD、OMIM和NCI同义词库)中的概念纳入疾病本体论分类中,为从语义上连接与人类疾病相关的表型、基因和遗传信息提供了丰富的资源。通过计划统一ICD和SNOMED CT术语和分类(http://www.who.int/classifications/AnnouncementLetter.pdf).,将进一步加强健康信息和患者电子健康记录的联系。
DO根据每个疾病术语的UMLS概念唯一识别符(CUI)识别、集成和连接MESH、SNOMED CT、OMIM和ICD9CM中的同义疾病概念。从ULMS MRCONSO.RRF词汇映射文件中提取词汇CUI,每年更新词汇映射两次。通过此流程,91%(7845)的DO术语(2011年8月)被映射到UMLS CUI。这意味着自2010年5月的DO-UMLS映射以来,UMLS映射减少了7%,这反映了DO增加了对逻辑定义的使用来定义复杂的疾病关系,这减少了唯一DOID的数量。例如,DO将腺癌定义为一种(is_a关系)癌,它起源于腺组织的上皮细胞。DO将胆囊腺癌定义为胆囊癌的一种。
这两组关系表示在HumanDO.obo文件中定义并在DO Web浏览器中可视化的每个术语的单一父子关系。在DO的当前版本中,从UMLS词汇表继承的多个亲子关系(多个is_a关系)已大大减少。目前正在进行策展工作,通过在HumanDO_xp.obo逻辑定义文件中创建交叉引用定义(逻辑定义)来表示次要亲子关系。逻辑定义提供了将一种类型的器官癌(例如胆囊腺癌)和肿瘤的细胞类型(例如腺瘤)之间的关系定义为一种腺瘤类型或定义一种疾病的解剖位置(胆囊腺癌位于胆囊内)的机会。
DO数据库的使用
通过Visualize可以查看该节点相关的节点信息,示意如下:
和Gene Ontolgy类似,DO所有的疾病信息也是采用了一个有向无环图的拓扑结构,所有数据库中的信息存储了一个obo文件中供下载,链接如下
http://www.disease-ontology.org/downloads/
END
联川生物转录组GO/KEGG/GSEA/ssGSEA/GSVA集成式富集分析在"沧海"一网打尽
算法模型|Cell子刊(IF=11.7)浙江大学团队开发scRank:从未给药的单细胞转录组数据中推断药物效应细胞类型
本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!
扫描下方二维码
点分享
点点赞
点在看