哈喽小伙伴们大家好~果叔在之前给大家介绍了使用TCMSP和BATMAN-TCM获取药物主要成分及靶点的操作,那么今天果叔就给大家带来接下来的操作:疾病基因获取、与药物靶点基因取交以及构建STRING交互网络。今天我们要用到的STRING数据库不仅有蛋白质相互作用网络的可视化的功能,还能够提供蛋白质家族、途径和亚细胞定位等信息,是一个十分方便的网络药理学生信平台。废话不多说,我们赶紧开始吧~
(小伙伴们有任何生信相关的问题欢迎随时来找果叔哦~果叔在生信耕耘十余年,非常乐意帮助生信路上新的小伙伴们,热点、思路、分析方法,来找果叔应有尽有!另外如果有需要服务器的小伙伴们也可以来找果叔租,果叔专门搭建的用于生信分析的服务器性价比拉满哦)
跑代码时卡顿、电脑不给力让人抓狂!找果叔试用稳定高速的服务器,让分析顺畅无比!
代码学不会?bug 频繁出现,束手无策?实操生信分析课程赶快学起来!滴滴果叔领取体验课程哦~
线上课程教学
课题设计、定制生信分析
云服务器租赁
加微信备注99领取使用
GeneCards
GeneCards是一个可搜索的集成人类基因组数据库,提供有关所有注释和预测的人类基因的全面、用户友好的信息。该知识库会自动集成来自约150个网络来源的以基因为中心的数据,包括基因组、转录组学、蛋白质组学、遗传、临床和功能信息。GeneCards整合了众多文献信息,覆盖了多个数据库对于基因的分析数据,囊括了基因相关的任何信息,如指向疾病的关系、突变和多态性、基因表达、基因功能、途径、蛋白质与蛋白质相互作用、相关的药物及化合物和切割等先进的研究抗体的试剂和工具等。
在使用genecards搜索疾病基因之前,我们需要先注册账号,因为只有登录后才支持导出数据。
在搜索框直接输入我们需要搜索的疾病英文名,然后将搜索结果导出至Excel即可。
由于搜索导出的结果太多,以果叔搜索的骨关节炎为例,搜索得到了5215个结果,在这里果叔跟大家说明一下,疾病基因的数量通常保持在一千五到两千左右即可,因为太多的疾病基因会导致分析过于繁琐,并且得分过低的结果也并不具备太高的参考价值,因此果叔在这里将得分在0.9以下的结果全部删除,剩余1900个结果。
这里搜索得到的数据分别为Gene Symbol、Description、Category、Uniprot ID、Gifts、GC Id、Relevance score、 GeneCards Link,果叔给大家重点介绍一下Category都有哪些种类以及Gifts、GC Id、Relevance score这三种数据是如何得来的:
Category
类别 | 描述 |
蛋白质编码 | 根据 HGNC、Ensembl 或 NCBI 基因进行蛋白质编码* |
ncRNA基因 | 根据 HGNC、Ensembl 或 NCBI 基因的 RNA 基因 或从 RNAcentral 及其外部来源开采的基因。* |
功能元素 | 根据 NCBI Gene,文献中已描述并经过实验验证的非基因功能元件(例如增强子、启动子) |
假基因 | 根据 HGNC、Ensembl 或 NCBI 基因的假基因* |
遗传位点 | 以上都不是,但有疾病信息,或符号中的“QTL” |
基因簇 | 包括 piwi 相互作用的 RNA 簇 (PIRC) 和以“@”结尾的符号 |
未分类 | 以上都不是 |
Gifts
Gifts全称GeneCards Inferred Functionality Scores (GeneCards 推断功能评分),该算法旨在预测基因的功能程度,目标是使用两种类型的注释来测量GeneCards基因的功能,第一步是为每个基因生成一个由67个元素组成的二元向量,表明每个相关来源中是否存在数据。特定基因的GIFtS分数是一个百分比,由这些二进制值的总和除以来源数量(向量长度)得出。
GIFtS 通过使用数据源的子部分来试验提高分辨率,并根据源中的详细注释来调整分数(目前为使用UniProtKB/SwissProt)。为了丰富 GIFtS 的蛋白质数据,该算法还将UniProtKB/SwissProt分解为 6 个子来源:蛋白质亚基、亚细胞位置、翻译后修饰、功能、催化活性等。这些子字段每个都有一个二进制分数,这样便将 GIFtS 向量大小增加了 5。为了在新载体中对蛋白质加权,该算法将二进制数据的总和除以了原始来源的数量(尽管子来源对分子有贡献,UniProtKB/SwissProt 仍被视为该分母的 1 个来源,)。为了通过正交同源物或出版物数据来丰富 GIFtS,该算法还为每个组件定义了一个新分数,然后将其添加到默认的 GIFtS 中。该算法的具体逻辑是将每个基因的直系同源物和出版物分数按整(logxsum(i))计算,其中x等于3的直系同源物和5的出版物,sum(i)是相关直系同源物或出版物的数量。没有直系同源物或出版物的基因在相关成分方面得分为零;四舍五入为 0(对于低计数)的分数归一化为 1。
GC id
GC id是GeneCards 基因具有的唯一、信息丰富且稳定的 GeneCards 标识符 ,由 GeneLoc 算法提供。
id 以 GC 开头,后跟染色体编号(其中“00”表示未知染色体,“MT”表示线粒体), “P”或“M”表示方向(Plus 或 Minus 链),以及近似的千碱基起始坐标。(例如:OXA1L的GC ID为GC14 P022766,代表着位于正链上的 14 号染色体上,从 22766 千碱基对开始。)目前位于特定染色体上,但其在染色体上的确切位置尚不清楚的基因 的GC id会被修饰, 即由染色体和链信息组成,后跟的一个数字来表示不确定的位置,后跟的一个字母代表包含该基因的特定重叠群,以及该重叠群上基因的千碱基位置。(例如:ENSG00000278198,GC ID 为 GC07P9O0173 位于重叠群 GL000195.1 正链的 7 号染色体上,从 173 千碱基开始)位于替代参考序列上的基因(单倍型 - 参见 NCBI for a 完整解释)有一个特别的 GC id 由染色体和链信息组成,后跟一个字母,以及基因的近似千碱基起始坐标。(例如:KIR2DS5,GC ID 为 GC19MA00037 位于 19 号染色体上ALT_REF_LOCI_18负链上,从 37 千碱基开始)位置信息仅包含染色体的基因需要进一步修改的 GC id,其中包括染色体编号,后跟“U9”,表示缺乏链和位置信息,后跟五位数字,按顺序分配。(例如:GUK2,GC ID 为 GC01U990078 位于 1 号染色体上,它的链和位置目前未知)。
Relevance score
计算Relevance score时使用的平台是 Elasticsearch 7.11,使用布尔模型来查找匹配的文档,并使用实际评分函数公式来计算相关性。该公式使用了术语频率/反向文档频率 (TF/IDF)和向量空间模型的概念,还添加了更先进的特征,如协调因子、场长 规范化,以及术语或查询子句提升。
如果小伙伴们想知道更多详细信息,可以查阅官方文档:相关性评分背后的理论(https://www.elastic.co/guide/en/elasticsearch/guide/current/scoring-theory.html)
在成功获取疾病基因之后,我们就可以绘制疾病基因和主成分靶点基因的维恩图啦,果叔常用的网站是VENNY2.1.0 (csic.es),下面果叔就跟小伙伴们介绍一下绘制维恩图的流程~
VENNY
韦恩图(Venn Diagram),也被称为文氏图、范氏图或维恩图,是由英国数学家约翰·韦恩(John Venn)在19世纪发明的,用于展示集合关系的图形工具。它通过使用圆形或椭圆形的重叠部分来显示多个集合之间的共同元素和差异。
VENNY是一个很方便的网页工具,果叔非常爱用它来绘制维恩图。它的操作非常方便,我们只需要将我们药物主成分靶点基因和疾病基因分别输入两个list中即可(每个基因间用换行符来间隔,输入后会自动把重复的基因去除),除了绘制维恩图外在result列表中也会自动输出重复的基因。(这里果叔为了让后续的分析结果更严谨,药物主成分靶点基因选用的是BATMAN-TCM以20为参数的分析结果,小伙伴们如果按照果叔之前的教程来做的话分析条件应该是100,这样可以更加方便许多)
我们将results中的共同基因导入excel表中,准备筛选核心靶点。
STRING
STRING数据库是一个基于公共数据库和文献信息的蛋白质相互作用网络数据库。它收集了多个公共数据库,包括UniProt、KEGG、NCBI和Gene Ontology等,整合了这些数据并生成一个全面的蛋白质相互作用网络数据库。除此之外,STRING数据库还提供了一些分析工具,如聚类分析和GO富集分析等,帮助用户更好地分析网络图,并找到有意义的生物学命题。
该平台地址:STRING: functional protein association networks (string-db.org),我们进入平台后选择multiple proteins,然后将刚刚得到的共同基因输入进去,在下方物种中选择人类,然后直接点击search,再点击continue。
检索完成之后,会得到如下蛋白质相互作用网络图。这些图表的节点代表蛋白质,边缘则代表蛋白质之间的相互作用。放大后可以看到节点内显示着蛋白的结构:
点击节点或者边会展示详细信息,非常的方便好用哦~
节点之间的连线颜色对应不同的相互作用类型。
这八种颜色分别代表:
由专家或资深人士精心挑选的数据库中得来
经过实验验证过
Gene neighborhood(基因邻域)指的是基因组中的某些基因因为遗传距离较近而形成的物理或功能上的相邻区域。这些基因可能因为共同的调控机制或者功能相关性而被保留在一起。基因邻域中的基因往往具有相似的表达模式,这可能是由于它们位于同一染色体上,受到类似的遗传和环境因素的影响。此外,基因邻域的概念也被用于理解基因如何通过空间位置的相对性来影响其功能和表达。
Gene fusions(基因融合)涉及到两个或多个基因片段通过遗传事件如染色体重排或DNA突变,结合成一个新的基因序列。这种现象常见于癌症,其中基因融合产生了新的、具有致癌潜力的蛋白质。基因融合不仅可以改变蛋白质的结构和功能,还可能影响蛋白质的定位和稳定性,从而在细胞内发挥重要作用。
Gene co-occurrence(基因共现)描述的是在不同物种或不同组织中,某些基因同时出现的情况。这种现象通常与基因功能的保守性有关,即使是在进化上相距甚远的物种中,也可能因为共同的生物学需求而保留了相同的基因。
Text mining(文本挖掘)指从科学文献中提取有关蛋白质相互作用的信息。
Co-expression(共表达)是指两个或多个基因在特定条件下同时表达,这通常意味着这些基因之间可能存在某种生物学上的联系。
Protein homology(蛋白质同源性)是指不同蛋白质之间由于共同的祖先而保留下来的序列和结构上的相似性。
STRING会根据与相互作用的score值对节点的颜色进行映射。在Legend页面,可以看到每个蛋白的颜色和对应的详细信息(按照颜色的深浅排列)。
在这些相互关系中,既有实验验证的,也有数据预测的结果,所以看上去连线很多,非常复杂,这个可以通过结果页面的Settings进行设置,只展示我们想看的相互作用类型。
在analysis下可以看到如GO和KEGG富集分析等分析得到的结果。
点击exports下的as short tabular text output来下载,得到tsv文件
这个tsv文件可以导入到cytoscape中,进行筛选核心靶点等更复杂的操作,果叔今天在这里限于篇幅,就留到下一次再给大家讲解啦~以上就是疾病基因获取、与药物靶点基因取交以及构建STRING交互网络全部内容和讲解啦,那么今天的分享就到这里啦,是不是非常详尽呢~这么方便的一站式网络药理学分析平台小伙伴们快去抓紧时间上手吧!!!比起自己研究代码,不断debug,有这么一种好用的一站式工具平台不是很香嘛!不过话说回来,果叔开发的一站式生信工具也是非常方便快捷、毫不逊色哦~(http://www.biocloudservice.com/home.html)小伙伴们如果在平时的生信学习中遇到了什么不懂的问题欢迎大家随时来找果叔哦~果叔在生信耕耘十余年,非常乐意帮助生信路上新的小伙伴们~那么我们下一次再见啦~
不会分析还想用生信工具助力发文咋办?有这顾虑的朋友,想一步到位就带着想法来,不论是代码实操还是在线文章结果复现,果叔照样能提供,还有大家都想要的服务器,找果叔获取就对了!
往期回顾
01 |
02 |
03 |
04 熬夜=爆肝被实锤了!最新研究:失眠打鼾缺觉党,“困” 境重重小心脂肪肝风险 “爆” 表!UKB+两步MR+中介分析,深度剖析! |