很多小伙伴做科学研究啊,都是先再射箭画靶子,这样的话可以确保百发百中。比如做了一大把的湿实验来说明铁死亡通路在某疾病的重要性,然后装模作样的来一个测序数据希望里面的差异基因注释到的通路里面有铁死亡,然后生物学故事就圆满了。
虽然说铁死亡是一个国自然热点, 但随意一个测序数据也很难保证铁死亡就一定是有差异的生物学功能基因集。而且更重要的是很多人其实并没有理解这个铁死亡这个国自然热点到底有哪些基因,仅仅是使用了默认代码里面的默认的kegg数据库的信息来源,很容易漏掉!
铁死亡(Ferroptosis)是一种新型的细胞死亡方式,它与铁代谢紊乱和活性氧(Reactive Oxygen Species, ROS)的积累有关。铁死亡的概念最早由美国哥伦比亚大学的学者在2012年提出,自2012年被发现以来,其研究热度持续攀升,成为科研领域的新宠。在国自然资助的项目中,铁死亡相关的研究项目中标数目逐年上升,显示出其在学术界的重要性和紧迫性。
定义与特征:铁死亡是一种铁代谢依赖性的细胞死亡形式,其特征是细胞内铁含量的增加和脂质过氧化。这种细胞死亡方式与凋亡(Apoptosis)、坏死(Necrosis)和自噬(Autophagy)等传统细胞死亡方式不同,具有独特的分子机制和生物学功能。 分子机制:铁死亡的分子机制涉及多个信号通路和分子,包括铁代谢相关蛋白(如铁转运蛋白、铁调素)、脂质过氧化酶(如谷胱甘肽过氧化物酶4, GPX4)和脂质代谢相关酶。铁死亡过程中,细胞内的铁离子积累导致脂质过氧化,进而引发细胞膜的破坏和细胞死亡。 生物学意义:铁死亡在多种生理和病理过程中发挥作用,包括肿瘤抑制、神经退行性疾病、缺血再灌注损伤和急性肾损伤等。特别是在肿瘤学领域,铁死亡被认为是一种潜在的癌症治疗靶点。
首先,我们使用KEGGREST获取人类和小鼠的铁死亡的通路的基因看看差异:
https://www.genome.jp/dbget-bin/www_bget?pathway+mmu04216 https://www.genome.jp/dbget-bin/www_bget?pathway+hsa04216
先熟悉一下KEGGREST这个r包
kegg数据库首先是网页浏览器可以打开,但如果是使用爬虫技术容易犯规,所以kegg数据库开发团队为了配合大家的批量访问就主动开发了api接口,在不同的编程语言都可以使用。我们就使用KEGGREST这个r包来看看:
library(KEGGREST)
org <- keggList('organism')
head(org)
org[str_detect(org[,3],"human"),]
hsa_path <- keggLink("pathway","hsa")
length(hsa_path)
length(unique(names(hsa_path)))
length(unique(hsa_path))
# 2024-05-30 19:17:33
# kegg数据库目前记录了 8779 个基因
# kegg数据库目前记录了 359 个通路
# 2024年11月26日22:25:53
# kegg数据库目前记录了 8865 个基因
# kegg数据库目前记录了 361 个通路
unique(hsa_path)
可以看到kegg数据库一直在更新的,而且涵盖的基因也越来越多了,不过跟人类的2万多个蛋白质编码基因还是有点差距。
获取人类和小鼠的通路的基因
我们这里以铁死亡为例:
path_info <- lapply(c('mmu04216','hsa04216'), keggGet)
# 获取每个通路里面的基因列表
unlist(lapply( path_info , function(x) x[[1]]$NAME))
lapply( path_info , function(x) head(x[[1]]$GENE) )
> unlist(lapply( path_info , function(x) x[[1]]$NAME))
[1] "Ferroptosis - Mus musculus (house mouse)"
[2] "Ferroptosis - Homo sapiens (human)"
> lapply( path_info , function(x) head(x[[1]]$GENE) )
[[1]]
[1] "17254"
[2] "Slc3a2; solute carrier family 3 (activators of dibasic and neutral amino acid transport), member 2 [KO:K06519]"
[3] "26570"
[4] "Slc7a11; solute carrier family 7 (cationic amino acid transporter, y+ system), member 11 [KO:K13869]"
[5] "22059"
[6] "Trp53; transformation related protein 53 [KO:K04451]"
[[2]]
[1] "6520"
[2] "SLC3A2; solute carrier family 3 member 2 [KO:K06519]"
[3] "23657"
[4] "SLC7A11; solute carrier family 7 member 11 [KO:K13869]"
[5] "7157"
[6] "TP53; tumor protein p53 [KO:K04451]"
可以看到绝大部分基因简单的大小写转换即可,但是TP53和Trp53是一个特例哦。
看看两个物种的铁死亡基因列表的交集
g_human = str_split(path_info[[2]][[1]]$GENE,';',simplify = T)[,1]
g_mouse = str_split(path_info[[1]][[1]]$GENE,';',simplify = T)[,1]
g_human=g_human[seq(2,length(g_human),2)]
g_mouse=toupper(g_mouse[seq(2,length(g_mouse),2)])
setdiff(g_human,g_mouse)
setdiff(g_mouse,g_human)
蛮有意思的,可以看到两个物种在铁死亡通路上面几乎是没有冲突的地方,除了下面的三五个基因外:
> setdiff(g_human,g_mouse)
[1] "TP53" "TF" "FTL" "MAP1LC3C" "MAP1LC3B2" "MAP1LC3BP1"
> setdiff(g_mouse,g_human)
[1] "TRP53" "TRF" "FTL1" "INHCA" "FTL1-PS2"
那,为什么会冲突呢, 因为人类和小鼠两个物种本来有一些基因名字是冲突的, 而且有一些基因的注释也是冲突的。
但是铁死亡就这些不到100个基因吗
实际上,有一个专门为铁死亡这个生物学机制开发的数据库,而且还有发表了两篇文献:
FerrDb V2 (2022, stable)Please find the paper in Nucleic Acids Res. FerrDb V1 (2020, legacy)Please find the paper in DATABASE.
这个FerrDb是一个专门针对铁死亡调节因子和铁死亡与疾病关联的开放源代码、开放获取的数据库 :
开放源代码和开放获取:
FerrDb是一个开放源代码项目,意味着其代码和数据可以被公开访问和使用。 开放获取则表示所有用户都可以免费访问数据库中的所有数据。
手动策划和持续更新:
数据库由研究人员手动策划,确保数据的准确性和可靠性。 数据库内容持续更新,以反映铁死亡领域的最新研究进展。
数据库内容非常丰富:
铁死亡调节因子:
数据库包含两大类铁死亡调节因子:基因和物质。 基因调节因子:包括驱动因子、抑制因子、标记因子和未分类调节因子。 物质调节因子:涵盖一系列化学实体,包括纯物质(例如铁、erastin)和混合物(例如草药提取物)。 物质调节因子:包括诱导剂和抑制剂。
铁死亡与疾病关联:
FerrDb专注于铁死亡调节因子与疾病之间的关联。
使用目的:
FerrDb提供的数据可以用于教育和科学研究,帮助研究人员和学生更好地理解铁死亡的分子机制和生物学意义。 数据库支持铁死亡领域的研究,促进新疗法和药物靶点的发现。
FerrDb作为一个专门的铁死亡数据库,为全球的研究人员提供了一个宝贵的资源,使得铁死亡的研究更加高效和系统化。随着铁死亡研究的不断深入,FerrDb将继续扩展其数据集,为科学界提供最新的数据和信息。而且不同文献说的铁死亡也是可以完全不一样的,有一些基因是驱动铁死亡的发生有一些却会抑制铁死亡,本来就应该是分而治之:
学一学生物信息学细节吧
很多小伙伴都是直接网页工具拿到结果,或者说科研服务公司给出来的图表,实际上依据这些“唾手可得的东西”来做科研很危险,首先是忽略了里面的细节,其次不知道具体过程就没办法debug,拿到的结果只有阴性和阳性的两个选择。实际上数据分析结果有很多解释有很多可以调整的细节。
这个时候如果你也想做单细胞转录组数据分析,最好是有自己的计算机资源哦,比如我们的2024的共享服务器交个朋友福利价仍然是800,而且还需要有基本的生物信息学基础,也可以看看我们的生物信息学马拉松授课(买一得五) ,你的生物信息学入门课。
如果你已经熟悉了我们的课程,就联系我们报名吧~
(添加好友务必备注 高校或者工作单位+姓名+马拉松,方便后续认识)
生信入门班:
学习以转录组数据为代表的组学数据分析,包括上游分析(从下机数据到表达矩阵)和下游分析(差异分析、富集分析等),无专业偏向性,顺带学习基因表达芯片。
R语言是为下游分析打基础,linux是为上游分析打基础。
数据挖掘班:
学习基因表达芯片、转录组、突变数据、单细胞转录组数据的下游分析和做图,专业偏向医学(部分涉及肿瘤,但医学非肿瘤专业也适配),包含机器学习算法构建分类模型与生存模型,多篇文献讲解和文章复现。全程使用R语言,不学习linux(因为不学上游分析)
详细比较如下:
报名时间
每个月滚动开课,随时可报名,如果错过了当月课程开始时间,可以选择插班或者报名下个月课程。
授课时间和方式
生信入门班:
12月2日起,连续4个星期,每个星期5天,前三周上课时间为每天晚上7:30-10:30,第四周上课时间为每天晚上8:00-11:00(北京时间)。
数据挖掘班:
12月2日起,连续3个星期,每个星期5天,上课时间为每天晚上7:30-10:30(北京时间),具体日期见下图日历。
钉钉群线上直播互动授课(当天错过了可以看回放,一年内无限制回看),直播期间穿插练习,讲练结合,充分互动,强调在实战中进步。讲师分章节在线授课及答疑,突发情况可在线求助我们的助教团队,课堂进度也会根据学员们的理解程度灵活作调整。
新增每个月一次的讲师直播答疑,让没有时间听直播、后来补课的学生也可以得到直播指导;课程有重大更新时,会喊毕业学员回来补课,所以其实课程远远不止45小时/60小时,我们的诚意十足!