前车之鉴！基因家族分析、功能研究，一步之差，努力白费！

文摘科技 2024-12-03 21:52 海南

写在前面

不知为何，几乎每天我都会收到一些「基因家族分析」的论文审稿邀请，其中质量参差不齐，但有不少论文作者团队非常友好，总是留下一个非常好提问机会。那就是「基因家族成员序列有问题」这意味着，得重做。对于一个以「基因家族分析」为主题的工作来说，往往相关表格和图片都得重新来。如果不小心，用了错误的基因序列做功能验证，那更是白费一年时间。
当然，对于审稿人不小心的情况，也比比皆是。简单通过 google scholar 搜索，可以很快找到一大堆已发表的论文，从主图来看，有经验的审稿人一眼就看出问题。这个错误的责任，20%归结于发布基因组的人，更有80%归结于进行基因家族鉴定工作的人。后者，我觉得还是要精细一些。

几个示例

上图由于串联重复基因被注释成一个，从 motifs pattern 就可以看出来问题。图片得重做，表格得更新！

上图由于注释错误，应该是将近端的基因注释成UTR，图片得重做，表格得更新！

上图将近邻的基因直接注释成ORF，所以导致超长CDS。图片得重做，表格得更新！

如上，超长UTR

串联重复或者近邻基因被注释进来的。

上图将近邻的基因直接注释成ORF，所以导致超长CDS。图片得重做，表格得更新！

明显缺胳膊少腿，注释问题。

处理问题

对于这类基因结构注释错误，如何处理？我记得 5 年前，类似情况发文占比可能更高的一些。我一直在提议也强调这个问题值得重视：

对于做基因组的朋友来说，高质量的序列要高质量的注释才是高质量的参考；
对于做基因功能研究的朋友来说，错误的注释可能会直接让数年努力白费；
对于做基因家族分析的朋友来说，还是要精细一点，做一点可能的贡献。

这五年来，为了应对这一问题，我大体分成三个阶段给出解决办法：

开发了 TBtools 的 Re-construct GXF ，这一功能可以基于用户输入的转录本序列和参考基因组序列，自动生成一个借用的GXF，我相信我提出来的时候，应该没啥人去注意这个事情，至少没有人让这个事情变得如此简单。当然，我必须说明，北大高歌老师的GSDSv2网站内部应是有做一些处理完成这个工作。有了这个功能，用户完全可以基于区间预测CDS或者EXON结构，得到序列后重构。稍显麻烦，后期利用GXF也比较麻烦；
开发了 IGV-GSAme （Gene Structure Annotation Manual Editor），基于IGV源码重度开发的版本，这一版本事实上是基于前述我写的 IGV-sRNA。使用这一版本，用户可以直接对 IGV 的 GXF Track 进行基因结构注释调整。说实话，这个修改直接让我不想再看到 IGV-sRNA 和 IGV-GSAme，因为修改后感觉已经把 IGV 改得乱七八糟。用起来完全没什么，但是真的很奇怪，我总觉得哪里会出问题，同时改造结果不在我的控制范围内。
开发了 IGV-GSAman（Gene Structure Annotation Manipulator），同样是基于 IGV 源码改造，不过这次的改造我很满意。这个改造其实是基于第二次 IGV-sRNA 来写的（IGV-sRNA也是重新开发，只是觉得没必要增加一个v2，我觉得前后没啥区别，实现逻辑有很大优化，仅此而已）。GSAman 不同，他跟 GSAme 完全是不同的东西。自然，本身GSAman其实....是一个简单的功能或者特性开发尝试，我只是想试试能不能在 IGV 里面加一个自定义的 Track，但是没想到真干成了.....

于是现在有了 IGV-GSAman，他可以帮助几乎所有人解决「基因结构注释偏差」的问题。

更多特性，推荐大伙参考 GSAman Cookbook。说实话，真的很强！

欢迎了解基因结构注释人工矫正软件 GSAman，目前软件未发表，处于内测阶段，有需要可以参考文档操作，进内测群获取下载链接，《GSAman Cookbook》: https://www.yuque.com/cjchen/ra7ghy

写在最后

我从未做过一个基因家族分析的论文，但可能我审过基因分析论文有太多。我仍然不太希望有朋友因为这类简单的偏差，导致半年一年的东西要从头再来。对于基因功能研究的朋友，更是如此。
如果我们从一开始就做对，那或许路子就没那么坎坷~

生信石头

记录和分享生信学习经验和数据处理技巧

零基础！先到先得 | 基因家族分析培训 | 第六期 | 从入门到精通~

通告 | RNAseq 系列部分插件可以“免费”替换升级了

悬浮窗 | TBtools 的桌面化集成快捷操作~

BioAnno | 优化升级，支持订阅了！

成本-40%！用GPT助力开题报告/学位论文/SCI论文...等文稿写作~表述更顺畅！

TBtools | Pro 系列插件教程汇总

BioAnno | 1 杯咖啡解决你所有数据分析难题！回答科研问题，凭能力过上体面生活

零基础 | 鼠标点点「TBtools-RNAseq」界面化转录组数据分析使用指北

零基础！先到先得 | 基因家族分析培训 | 第六期 | 从入门到精通~

通告 | RNAseq 系列部分插件可以“免费”替换升级了

悬浮窗 | TBtools 的桌面化集成快捷操作~

生动展示 | IGV-GSAman能做什么？基因结构注释人工矫正操作大全！

BioAnno | 优化升级，支持订阅了！

手把手 | TBtools 插件开发入门~完全指南

限30人 | “以用促学”基因家族分析课程 | 第六期 | 零基础从入门到精通~

通告 | RNAseq 系列部分插件可以“免费”替换升级了

悬浮窗 | TBtools 的桌面化集成快捷操作~

生动展示 | IGV-GSAman能做什么？基因结构注释人工矫正操作大全！

BioAnno | 优化升级，支持订阅了！

零基础 | 鼠标点点「TBtools-RNAseq」界面化转录组数据分析使用指北

TBtools | Pro 系列插件教程汇总

BioAnno | 1 杯咖啡解决你所有数据分析难题！回答科研问题，凭能力过上体面生活

成本-40%！用GPT助力开题报告/学位论文/SCI论文...等文稿写作~表述更顺畅！

TBtools | Pro 系列插件教程汇总

BioAnno | 1 杯咖啡解决你所有数据分析难题！回答科研问题，凭能力过上体面生活

零基础 | 鼠标点点「TBtools-RNAseq」界面化转录组数据分析使用指北

12月 | 但行好事，莫问前程。

零基础！先到先得 | 基因家族分析培训 | 第六期 | 从入门到精通~

通告 | RNAseq 系列部分插件可以“免费”替换升级了

悬浮窗 | TBtools 的桌面化集成快捷操作~

生动展示 | IGV-GSAman能做什么？基因结构注释人工矫正操作大全！

BioAnno | 优化升级，支持订阅了！

限30人 | “以用促学”基因家族分析课程 | 第六期 | 零基础从入门到精通~

通告 | RNAseq 系列部分插件可以“免费”替换升级了

悬浮窗 | TBtools 的桌面化集成快捷操作~

生动展示 | IGV-GSAman能做什么？基因结构注释人工矫正操作大全！

BioAnno | 优化升级，支持订阅了！

限30人 | “以用促学”基因家族分析课程 | 第六期 | 零基础从入门到精通~

通告 | RNAseq 系列部分插件可以“免费”替换升级了

悬浮窗 | TBtools 的桌面化集成快捷操作~

生动展示 | IGV-GSAman能做什么？基因结构注释人工矫正操作大全！

BioAnno | 优化升级，支持订阅了！

限30人 | “以用促学”基因家族分析课程 | 第六期 | 零基础从入门到精通~

通告 | RNAseq 系列部分插件可以“免费”替换升级了

悬浮窗 | TBtools 的桌面化集成快捷操作~

生动展示 | IGV-GSAman能做什么？基因结构注释人工矫正操作大全！

BioAnno | 优化升级，支持订阅了！

「TBtools奖学金第三期（2024年）」评选通告已出 | 3000元/人 * 4人

TBtools 联名 | 生信电脑/工作站/服务器，就选TBServer

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉