近日,江西师范大学生命科学学院牛耕耘副教授与计算机信息工程学院石海鹤教授团队合作,成功研发出一种名为qGO的新型统计方法。该方法专注于量化动物线粒体基因组中的组织多样性。相关研究成果以研究论文形式发表在BMC Genomics(中科院二区Top)上,江西师范大学作为该论文的唯一完成单位,牛耕耘副教授为通讯作者。同时,该研究成果还获得了2项国家发明专利授权。
量化线粒体基因组结构变异特征对于理解其对复杂性的贡献至关重要。准确量化和解释组织多样性有助于揭示生物进化的一般规律。当前的qMGR方法通过累积相邻两个基因的变化来计算每个单基因的重排频率(RF)以及给定分类群的重排得分(RS)。然而,该方法或存在偏差,因为它对相邻基因而非重排基因进行打分。为此,本研究提出了一种名为qGO的统计方法对基因组织的多样性进行量化。该方法基于基因顺序特征的同源性,通过划分基因串并为跨越不同区域的基因额外分配权重,从而更准确地描述基因组组织多样性。此外,该方法还采用了全局距离计算方法,生成成对距离矩阵。通过对5500多个脊椎动物线粒体基因组开展测试,该研究验证了qGO方法在准确性和可解释性方面优于现有方法。该方法提高了基因组的可比性,从而能够更准确地比较不同类群线粒体基因组组织的多样性。这一成果对于揭示基因组进化规律、探索基因组功能以及研究分子进化过程具有重要意义。
图1.qGO分析结果与可视化 |
1.基于基因顺序的同源性分析产生成对距离,揭示线粒体基因顺序演化的完整多样性图谱。
2.通过为关键基因加权,显著提高了量化的准确性。
qGO基于同源性分析和区域加权对线粒体基因组重排进行量化,具体步骤如下:
1) 输入基因顺序:接受文本形式输入的多条基因顺序 S。
2) 多序列比对:手工多序列比对,将S中的基因序列对齐。
3) 分区:可以根据观察到的最小变化单元,或其它生物学约束对上述比对结果进行分区(本文中将控制区和复制起始点作为分区断点)。
4) 基因对比较与加权:将S中的基因序列两两进行比较,如果同位置基因相等,则该基因分数为0;如果不相等则为1,并作以下两个判断:
a. 对该基因在比较的两条基因序列中所处的区域进行判断,若在同一区域则给予权重1,若在相邻区域给予权重2,若跨区域则给予权重3,将权重与分数相乘得到新的分数;
b. 判断该基因是否发生了反转,如果发生了反转就把分数加1,否则保持不变。
5) 计分:最后将物种中所有基因的分数相加得到物种分数RS,将每种基因分数相加得到基因频率RF。
图2.qGO方法中部分量化计算的分析流程 |
代码和数据可用性 该软件包现已在github (https://github.com/Mitooool/qGO)发布。文中所用的所有数据集也已上传至figshare (https://figshare.com/account/home#/projects/227304)。 |
该研究由江西师范大学独立完成,展现了学校在基因组学和生物信息学领域的扎实研究实力。该研究不仅为线粒体基因组研究提供了新的视角和工具,也为相关领域的深入研究奠定了坚实基础。未来,研究团队计划进一步完善qGO方法,构建专门的数据库以分析大量数据,并探索自动化同源性比对算法,以提升研究效率和方法的普及性。此次研究成果的发表,不仅标志着江西师范大学在生物信息学领域取得了重要进展,也体现了中国学者在国际学术界中的积极贡献,为推动全球生物信息学的发展贡献了中国智慧和中国方案。
原文链接:
https://link.springer.com/article/10.1186/s12864-024-11006-6
(点击文末“阅读原文”跳转)
图文来源 | 生命科学学院
本版编辑 | 曾翰宸
本版责编 | 刘冠喆 郭怡宁 张梅
一审一校 | 李鸿霞
二审二校 | 张英俊
三审三校 | 龙中儿
往期推荐