GB | Seqrutinator：一个用于鉴定和去除非功能性序列的基因家族分析流程

文摘 2024-09-18 08:16 捷克

分享一篇近期发表在 Genome Biology 上的一个基因家族分析软件：Seqrutinator。该软件用于识别和去除基因家族数据集中的无功能基因，包括假基因、测序错误、基因结构错误、比对错误等，从而避免基因家族鉴定中的假阳性结果，进一步确保基因家族注释的准确性，以便于后续系统发育分析和功能聚类。

背景意义

目前，基因家族鉴定流程并无唯一标准，但大多是基于 Blast 和 Hmmer，再辅以手工校正。无标准鉴定流程，导致不同流程、不同参数、不同校正过滤标准，都会对同一基因家族鉴定数目和基因上存在差异，从而对后续结果产生影响。

准确构建超家族系统发育树和进行多序列比对（MSAs）仍然是一个主要研究领域。为了提高MSA的质量，研究人员经常修剪掉不太可靠的列，但这可能会丢失信息。此外，非功能性同源物（Non-Functional Homologues, NFHs）提供的序列信息通常被视为噪声，可能会干扰MSA的正确处理。

Seqrutinator的设计

Seqrutinator的设计理念是提供一个目标序列审查方法，用于检测和移除NFHs。该工具通过四个假设来识别NFHs：短序列不太可能是功能性的；NFHs可能在MSA中引起大量连续的间隙丰富的列；NFHs可能在MSA中显示出大量连续的间隙；以及与超家族的HMMER剖面相比，伪基因和其他类似序列可能具有低相似性和低分数。

Seqrutinator由五个模块组成，包括短序列移除器（SSR）、非同源命中移除器（NHHR）、间隙引发器移除器（GIR）、连续间隙序列移除器（CGSR）和伪基因移除器（PR）。用户可以选择模块、它们实施的顺序以及影响自动化审查和过滤严格性的设置。

Seqrutinator的性能评估

研究者使用了19个完整的蛋白质组数据集，包括16种植物物种、两个版本的拟南芥蛋白质组以及两个版本的SwissProt数据集。通过Seqrutinator处理后，发现在拟南芥蛋白质组中移除的序列数量相对较少，而在最近发布的松树蛋白质组中移除的序列数量超过80%。这表明Seqrutinator能够一致地识别和移除NFHs。

Seqrutinator的应用效果

Seqrutinator处理后，MSA的质量得到了显著提高。通过使用BMGE工具修剪MSA，发现处理后的MSA中可靠列的数量显著增加。此外，Seqrutinator处理后的序列集在进行HMMERCTTER聚类分析时，产生了更大和更少的聚类，这表明Seqrutinator有效地去除了NFHs，而不是功能性同源物（Functional Homologues, FHs）。

讨论与结论

Seqrutinator是一个有效的工具，可以帮助自动化地挖掘蛋白质超家族序列，并且只要序列是真正同源的，它就能提供良好的结果。对于更复杂的情况，应该将序列分割成真正同源的子集以获得最佳结果。Seqrutinator的开发和测试表明，它是一个灵活且一致的工具，能够在不同数据集上识别和移除NFHs，从而改善MSA的质量，并为后续的系统发育分析和功能聚类提供更准确的数据集。

数据和材料的可用性

所有数据集均来自公共序列集。Seqrutinator软件（包括辅助脚本MuFasA和SeqYNet）代码可以在GitHub或Zenodo的存储库中免费下载。

Github：https://github.com/BBCMdP/Seqrutinator

生物信息与育种

致力将生信、AI、大数据、云计算等技术应用于现代生物育种

最新文章

中国科学院专家：教您AI在教育教学、论文写作和学术科研中的应用实操（教师收藏）

跳出传统育种观念：猪育种中关键福利性状的选择

中国知网发布2024年“中国最具国际影响力学术期刊”

ISPRS | 弥合作物育种和GeoAI之间的差距：利用迁移学习从多光谱无人机图像预测大豆产量

SCLS | 李孟华综述：基因组时代的反刍家畜育种新策略

NAR | 刘毓文/倪建泉团队开发基于人工智能的DNA顺式调控元件设计新方法

只是你不熟悉Tidyverse罢了

人工智能如何赋能教育教学、学术论文和课程建设？

Hortic Res | 一种集成环境-表型-基因型的分析方法

国自然中标真不难！十年评审专家1v1本子精修，中标率可达58.6%！免费直播答疑

作物育种计数模型

Plant Com | 基于深度学习的作物全基因组表型预测模型Cropformer

如何利用公共基因型-表型-环境数据来做基因组预测？

最新日程 | 2025年1月8号-10号三亚国际种业科学家大会

JIA &《中国农业科学》再次入选“最具国际影响力学术期刊”（附全名单）

Nat. Rev. Genet. | 如何从组学-深度学习模型结果中获取基因相关的解释？

Plant Com | 升级版的跨条件多组学关联分析工具 MODAS2

JGG｜南京大学陈迪俊团队开发深度学习模型Osei揭示水稻基因组的调控序列密码

Genome Biology | 表观基因组学预训练语言模型EpiGePT

国自然中标真不难！十年评审专家1v1本子精修，中标率可达58.6%！免费直播答疑！

Mol Plant | 基于植物基因组的DNA大语言模型

大麦大佬Nils Stein综述：大麦研究与育种的十年愿景

大数据驱动的“绿色超级稻”高效育种策略

线上直播 | 基于AI的蛋白质结构解析与智能设计

国际智能育种新动态

再生稻适宜品种筛选及其类型划分

Nature Methods | GPT-4领衔：大语言模型（LLMs）推动基因功能探索新高度

水稻研究者必备！RGAP 2.0来了，全面解析基因组奥秘！

国自然中标真不难！十年评审专家1v1本子精修，中标率可达58.6%！免费直播答疑！

科研经费尽其用，一次预存，随时取用！附赠3800购物卡！年末钜惠！

农林专业顶刊AFM：双重集成方法预测水稻抽穗期

【今日报名截止】智能育种高级研修班即将开讲！

JIA综述：全球转基因作物商业化趋势

Plant Communications：合成生物学和人工智能在作物改良中的应用

【开班倒计时】TFSeeds智能育种研修班开班在即！

MHOrT | 易干军、杨乔松团队：香蕉分子生物学与育种的最新进展及未来发展方向

东北农业大学韩德果教授团队：探秘野生草莓AP2/ERF基因家族

2024中国农业企业500强

最新日程 | 2025年1月8号-10号三亚国际种业科学家大会

顶级大佬VanRaden教你如何实施基因组选择（GS）

种康院士 | 作物育种进化史：从野生驯化到智能设计

专业培训 | 数字育种-智能设计育种

5460 个三系杂交稻品种的不育系细胞质来源分析

农业农村部发布第三次全国农作物种质资源普查，共13.9万份！

JGG | 多视图数据的植物基因组预测新方法MVBLUP

请查收！第四届三亚国际种业科学家大会最新日程安排！

种业最新书籍推荐：《作物种业前沿科技战略研究》和《畜禽种业科技创新战略研究》

Science发布“全世界最前沿的125个科学问题”

专业培训 | 数字育种-智能设计育种

Nature：如何用ChatGPT辅助学术写作？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉