自查,做GO富集分析时你是不是也遇到过这些问题?

学术   2024-10-05 11:01   广东  
Omicshare平台的GO富集分析工具和kegg富集分析工具一直广受欢迎,不仅省时好用,输出的结果图都包好看的。但在使用过程中难免会遇到这样那样的小问题,这里小编收集整理出来做GO富集分析的“题库”,有大家使用工具过程中运行出错的可能原因,以及常见的富集分析结果问题。来看看有没有你需要的答案吧~




任务报错原因




1. 使用平台模式物种的背景基因做分析但提示出错:

问:任务报错一般是什么原因?

答:
主要有以下几种出错类型:

①目的基因ID类型错误:应该使用Ensemble ID。如果使用其他类型ID如gene name、NCBI gene ID等,需转换为Ensemble ID。可使用基因ID转换工具进行转换。

②上传目的基因文件Ensemble ID带版本号报错:如ENSG00000121410.11,需删除小数点及其后的数字。

③其他类型ID如蛋白ID,需转换为基因ID才可上传分析;

④物种/版本选错:

平台自带18种模式生物背景基因及不同版本,需选择与目的基因对应的物种及版本。

⑤目的基因文件中包含其他信息:选择使用平台背景基因时,仅需上传目的基因ID及对应log2fc数据两列,或上传一列基因ID文件,其他信息需删除。





2. 为什么上传自己准备的背景基因文件做分析总是报错?

答:
常见的报错原因包括:

①背景基因文件没有GO号信息报错,参考示例文件整理背景基因,至少需有一列GO注释信息。

②背景基因文件一个基因ID对应了多个GO号报错,参考示例文件重新整理,文件每列只可有一个GO号,对应了多个GO号可在同一行并列顺延放在第二列、第三列。

③目的基因文件与背景基因文件基因ID不对应、背景基因文件数据过少,提示无交集报错。




3. 文件格式问题

问:还有哪些文件格式问题需要注意?

答:
1)文件中存在的空格/空值(NA)/空行/空列,需整理删除;
2)ID名或表头含特殊符号,如#、*、αβ等,需替换修改;
3)不能使用kegg背景基因文件来做GO富集分析;






结果相关问题




1. 数据与结果问题


问:为什么结果中P值全是1?
答:基本是因为上传的目的基因数量与背景基因数量一致导致的。富集分析中背景基因是当前物种的全部基因,目的基因应是背景基因的子集。

问:结果文件中的P、F、C代表什么?
答:
分别对应BP/MF/CC。GO总共有三个ontology(本体),分别描述参与的生物过程(Biological Process)、基因的分子功能(Molecular Function)、细胞组分(Cellular Component)。

问:上传文件没有log2fc列,会有什么影响?
答:
没有log2fc数据,则二级分类柱状图中不显示上下调信息;若上传文件含log2fc数据但没有勾选,也不显示上下调。


问:为什么有时二级分类柱状图不是按照基因数从多到少的顺序分类排列?
答:上传文件中无log2fc数据但勾选了“包含”,将导致柱状图不按降序排列。

问:out.Level2与out.bar文件有什么区别,为什么Level2文件数据更少?
答:out.Level2(二级分类柱状图数据)显示到二级的term,只统计到二级term;out.bar(显著性柱状图数据)包含二级、三级以及更多级的term,数据更多。

问:为什么富集分析统计到的结果基因数比上传的基因数要多?
答:由于一个基因常常对应多个GO term,因此同一个基因会在不同分类条目下出现,即被多次统计。如果把二级分类统计图所有柱子的基因数目加起来,肯定是多于profile1总的基因数目的。

问:输出结果的通路基因数不对,例如GO通路的某个GO:0006464,在上传的背景基因总表中只对应了几十个基因,但是结果显示有100+个?
答:富集过程会找出所有的term,会比背景基因文件的对应基因多。

问:为什么二级分类柱状图和显著性柱状图top N的term和数量都不一样?
答:二级分类柱状图是大类统计,只统计到二级,显著性柱状图统计到全部层级,是不一样的。

问:使用平台背景基因文件,选择物种时不是GRCM39小鼠可以选小鼠物种吗?
答:不可以,必须是平台指定的18种模式物种才能使用自带的背景基因,否则就算运行成功结果也不可靠。




2. 工具使用


问:为什么没有某个结果表?打不开图形预览和html网页文件?
答:在下载的结果压缩包中包含众多结果图形及对应数据表,打不开预览和网页可能因为没有解压文件,解压后可正常打开。

问:怎么在线调整字体、配色等参数?
答:动态GO富集分析工具才支持在线修改结果图。

问:任务完成后无法下载、动态工具也无法显示调整页面、出现空白?
答:非报错的话可强制刷新或者换浏览器。






其他问题




问:数据库是否是最新版本?

答:提供新旧不同的数据库版本,可按研究需要选择。

问:背景基因文件怎么准备?
答:可通过数据库官网查找下载基因列表或使用BioMart等工具获得GO注释信息。
Ensembl:https://asia.ensembl.org/index.html
Gene Ontology:https://www.geneontology.org/

问:研究的物种找不到Ensemble ID怎么办?
答:自行准备背景基因文件,保持目的基因文件和背景基因文件的ID类型一致即可,不一定非要Ensemble ID。







OmicShare是基迪奥生物旗下,以交互式生信工具、原创组学书籍、生信论坛以及视频教程于一体的生信平台,现140000+科研人注册使用,超4500+篇SCI引用。即刻注册,轻松开启NCS绘图之旅!


关于OmicShare tools的SCI文章已经发表了!影响因子23.7!

发表期刊:iMeta (IF 23.7)
原文链接DOI:

https://doi.org/10.1002/imt2.228


*海量工具使用无门槛:161+工具覆盖99%生命科学期刊发表所需,无需任何编程基础,提交数据即可完成绘图;


*发表级美图直出:顶刊审美,参数/配色可实时交互;

*支持免费使用:每个工具均可免费使用2次;还可通过【邀请好友】【论坛任务】获取奥币,解锁更多免费次数。详情戳:《OS新手使用说明》


*完整权益体验:升级【会员/超级会员】,实现绘图自由,还能尊享更多权益:

OS注册:
https://www.omicshare.com/user/register.php?lang=zh
OS工具:https://www.omicshare.com/tools/
OS会员:https://www.omicshare.com/vip/


READ MORE


延伸阅读







*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。


基迪奥生物|专业定制测序服务
联系方式:020-39341079;service@genedenovo.com



基迪奥生物
广州基迪奥生物官方公众号,小奥每天分享前沿组学知识、实用生信软件技巧、酷炫绘图技能。我们的目标是,助您达到更高的科研领域。
 最新文章