欢迎来到雪梨的复现妙妙屋~诺奖吃瓜虽精彩,生信基础别掉队。今天菠萝作为暂代主持人,介绍一篇研究非肿瘤疾病关键基因和免疫浸润的文章(IF=5.7)复现方法,大家也可以自主思考一下,诺贝尔奖热点——机器学习、蛋白质分子结构预测等方法怎样应用到我们自己的文章中。有任何问题欢迎留言,或添加雪球老师直接询问~
分析工具不会用?
初学代码总卡顿?
服务器带不动高通量数据分析?
添加雪球老师
回复“个性化”获得陪跑发文丝滑体验
全文共10图2表,我们今天先来学习前5张图的复现。
Key genes and immune infiltration in chronic spontaneous urticaria: a study of bioinformatics and systems biology
慢性自发性荨麻疹的关键基因和免疫浸润:生物信息学和系统生物学研究
期刊:Frontiers in Immunology
IF:5.7
发布时间:2023/11/15
套路:非肿瘤
数据来源:GSE57178,GSE72540数据集
技术路线:
从GEO数据库下载GSE57178 和 GSE72540数据集→对GSE52093 和 GSE72540数据集进行差异分析,通过火山图形式可视化分析结果→利用STRING数据库构建差异基因的PPI网络图→绘制差异基因热图→GSEA富集分析→利用David数据库和Metascape数据库对差异基因进行生物过程富集分析→利用Funrich、软件对差异基因进行生物途径富集分析→利用Cytoscape软件的Mcode插件生成基因模块并进行通路富集分析→利用Cytoscape软件的cytoHubba插件筛选hub基因并进行互作网络分析→对两个数据集进行免疫浸润分析→对hub基因进行免疫浸润相关性分析探究hub基因与免疫细胞的相关性
分析工具:
仙桃学术(https://www.xiantaozi.com/)(新版)各种生信分析工具
GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)
GEO数据集下载
STRING数据库(https://string-db.org/)
构建PPI网络
CytoScape软件及其插件
PPI网络可视化及各种分析
NetworkAnalyst数据库(https://www.networkanalyst.ca/NetworlKAnalyst/)
疾病关联和药物互作分析
David数据库(https://david.ncifcrf.gov/summary.jsp)
生物过程富集分析
Metascape数据库(https://metascape.org/gp/index.html#/main/step1)
生物过程富集分析
FunRich软件(下载:http://www.funrich.org/)
生物途径富集分析
Figure 1 差异表达基因分析
Figure 2 差异基因热图
Figure 3 GSEA富集分析
Figure 4 DAVID和Metascape富集分析
Figure 5 Funrich富集分析
复现流程
*友情提示:
请及时保存分析结果并合理命名文件!
Figure 1
差异表达基因分析
Figure 1A
*包含使用仙桃进行缺失值过滤和数据去重的逐步教学
在GEO数据库中下载GSE57178数据集的表达矩阵。
新建一个excel命名为【GSE57178】,提取出表达矩阵。
在GEO数据库中通过GEO2R获取探针的Symbol ID。
新建一个excel命名为【ID1】,提取出“ID”列和“Gene.symbol”列。
对【GSE57178】按第一列“ID_REF”升序进行排序,对【ID1】也按第一列“ID”升序进行排序,然后将【ID1】中“Gene.symbol”列替换【GSE57178】中“ID_REF”列,完成探针合并。将列名“Gene.symbol”改成“Symbol”,并另存为一个excel命名为【exp1_pre】。
进入仙桃网站,选择【生信工具】,在左侧的【其他】中选择我们需要用到的【缺失值过滤】。
上传【exp1_pre】,点击【验证】。“过滤类型”选择“过滤掉特定缺失及以上个数”,“特定个数”填“1”,然后点击【确认】。
点击【数据缺失值过滤结果.csv】下载过滤结果。
进入仙桃网站,选择【生信工具】,在左侧的【其他】中选择我们需要用到的【数据去重】。
上传【数据缺失值过滤结果】,点击【验证】。然后点击【确认】。
点击【数据去重.csv】下载去重结果,并重新命名为【exp1】,即为GSE57178数据集表达谱。
在GEO数据库中提取GSE57178数据集的分组信息,保存到一个新的excel【group】中。
进入仙桃网站,选择【生信工具】,在左侧的【差异表达】中选择我们需要用到的【芯片数据-差异分析】。
上传表达谱和分组信息,点击【验证】。“参考组选择”选择“HC”,点击【确认】。
在【历史记录】中点击【差异分析.xlsx】,下载差异分析结果。
新建一个excel命名为【火山图】,将【差异分析】中的“id”,“logFC”和“P.Value”列复制到【火山图】中,并将“P.Value”改为“pvalue”。
进入仙桃网站,选择【生信工具】,在左侧的【差异表达】中选择我们需要用到的【火山图】。
上传火山图数据,点击【验证】。
修改【主要参数】,点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等)。
在【差异分析】中按照|“logFC”列|>1,“P.Value”列<0.05,筛选差异表达基因,并将筛选到的差异基因复制到一个新的excel【sig1】中,列名为“GSE57178”。
Figure 1B复现步骤与Figure 1A类似,将数据集GSE57178替换成数据集GSE72540即可,完成后也可以得到【sig2】用做后续分析。
Figure 1C
新建一个excel命名为【韦恩图】,将【sig1】中的“GSE57178”列和【sig2】中的“GSE72540”列复制到【韦恩图】中并保存。
进入仙桃网站,选择【生信工具】,在左侧的【基础绘图】中选择我们需要用到的【韦恩图】。
上传韦恩图数据,点击【验证】,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等)。
点击【交集情况.xlsx】下载交集基因。
Figure 1D
在STRING数据库(https://cn.string-db.org/)网站中选择Multiple proteins,输入所有的交集基因,然后点击
【SEARCH】。
点击【CONTINUE】。
使用默认参数,点击【Exports】,下载第四个.tsv格式的数据。
新建一个excel命名为【updown】,第一列为交集基因,第二列为基因的上下调情况。
打开Cytoscape软件,选择“Import Network from File System”,上传刚才下载的数据,点击【OK】。
选择“Import Table from File”,上传交集基因的上下调分组数据,点击【OK】。
点击【Tools】-【Analyze Network】-【OK】。
点击【Style】,“Fill Color”选择“group”,“shape”选择“圆形”,“Size”选择“TopologicalCoefficient”,点击“Lock node width and height”,根据需要调整样式。
调整好之后选择【Exportas Image】保存为.png或其他格式。
Figure 2
差异基因热图
Figure 2A
进入仙桃网站,选择【生信工具】,在左侧的【其他】中选择我们需要用到的【数据提取】。
上传GSE57178表达谱数据,点击【验证】。“类型”选择“下面特定变量”,将交集基因复制到“特定变量”框中,点击【确认】。
点击【提取数据.csv】下载提取结果。
在第一行添加一行分组,行名为#group,然后另存为一个新的csv文件命名为【GSE57178热图】。
进入仙桃网站,选择【生信工具】,在左侧的【表达差异】中选择我们需要用到的【简易数值热图】。
上传热图数据,点击【验证】。
修改【主要参数】,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等)。
Figure 2B复现步骤与Figure 2A类似,将数据集GSE57178替换成数据集GSE72540即可。
Figure 3
GSEA富集分析
Figure 3A
将之前得到的GSE57178【差异分析】中“id”列和“logFC”列复制到一个新的excel【GSE57178GSEA】中,并将“logFC”改为“value”。
进入仙桃网站,选择【生信工具】,在左侧的【功能聚类】中选择我们需要用到的【[GSEA] 富集分析】。
上传GSE57178数据,点击【验证】。“基因集”选择“Hallmarks”基因集,点击【确认】。
在【历史记录】中,点击【GSEA.xlsx】下载GSEA富集分析结果。
进入仙桃网站,选择【生信工具】,在左侧的【功能聚类】中选择我们需要用到的【[GSEA] 经典可视化】。
自动上传了刚刚GSEA富集分析的结果,在“ID列表”输入想要展示的通路名称,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等)。
Figure 2B复现步骤与Figure 2A类似,将数据集GSE57178替换成数据集GSE72540即可。
Figure 4
DAVID和Metascape富集分析
Figure 4A
在David数据库(https://david.ncifcrf.gov/summary.jsp)网站中输入所有的交集基因,选择“OFFICIAL_GENE_SYMBOL”和“Homo sapiens”,选择“Gene List”,最后点击【Submit List】进行富集分析。
点击【Gene_Ontology (3 selected)】,然后点击【Chart】下载BP富集分析结果。
点击【Download File】下载分析结果并保存到一个新的excel【David_bp】中。
将第二列“Term”分列,得到“BP”列,并且添加两个新的列“-LOG10(Pvalue)”和“P=0.05 reference”。“-LOG10(Pvalue)”列的值为对“PValue”列取负对数,“P=0.05 reference”列的值为-log10(0.05)。
选中“BP”,“Count”,“-LOG10(Pvalue)”和“P=0.05 reference”列前10行数据,点击【二维柱形图】。
生成图表以后,右击图表,点击【更改图表类型】。点击【组合图】,根据需求调整图表类型,然后点击【确定】。
出图后将标题改为“Biological Processes (BP)”,然后可以根据需要保存相应格式的文件(如png、tiff等)。
Figure 4B
在Metascape(https://metascape.org/gp/index.html#/main/step1)网站中,输入所有的交集基因,点击【Submit】。“Input as species”选择“H. sapiens”,然后点击“Custom Analysis”。
点击【Enrichment】,选择“GO Biological Processes”,然后点击【Enrichment Analysis】。
出图后可以根据需要保存相应格式的文件(如pdf等)。
Figure 5
Funrich富集分析
在FunRich官网(http://www.funrich.org/)下载FunRich软件。
点击【Add dataset】。
输入所有交集基因,然后点击【OK】。
点击【Gene enrichment】-【Analysis】。
使用默认的数据集,点击【OK】。
点击【Save Chart】保存图片。
恭喜你完成前半部分复现!在后半部分中,我们会继续学习差异基因的通路富集分析、Hub基因互作网络分析,以及免疫浸润分析的操作。想要学习全文完整复现,记得点击星标,每日更新不错过!
利用在线工具零代码进行生信分析,能够轻松出结果的同时,在常见疾病中往往面临一定的发文上限。想要争取更高分数SCI发表,又没有时间系统学习R语言的朋友们可以添加雪球老师好友,回复“个性化”帮你调研创新方向,提升文章上限,达成发文小目标!2024年余额不多了,有任何生信学习和SCI发表的问题,有任何想加速完成的科研目标,都可以和雪球老师聊一聊~
添加雪球老师微信
回复“个性化”
定制陪跑安心发文
都看到这里了,点个星标再走吧!
听说不点星标,容易错过最新资讯!