本文作者:牛耕耘(Gengyun Niu)
量化线粒体基因组结构变异特征对于理解其对复杂性的贡献至关重要。线粒体基因组是源自内共生事件的一个独特遗传实体。尽管其遗传功能相对稳定,但在结构、基因表达机制以及演化趋势等方面,于真核生物各支系间展现出显著的多样性。研究线粒体基因组的组织多样性,对于理解基因含量的差异、基因组组织方式,以及洞察线粒体与核基因组之间相互作用的演化等,提供了至关重要的视角。尽管随着二代测序技术的发展,我们对线粒体基因组的认知不断加深,但准确量化其结构特征仍是一项挑战。这一挑战主要源自线粒体基因组本身的复杂性和动态性,同时,线粒体基因组在大小、结构、内容以及组织模式上不断被发现的多样性,进一步加剧了这一挑战。
前人提出了多种模型来尝试解释线粒体基因组的重排机制,但这些模型大多仅能解释某几个特定类群中的重排现象。目前唯一专门用于线粒体基因组重排定量分析的 qMGR 方法,原创地提出了通过累积相邻两个基因的变化来计算每个单基因的重排频率(RF)以及给定分类群的重排得分(RS)。然而,该方法依据相邻基因的变化而非直接针对重排基因进行打分,或致结果出现偏差。
近日,江西师范大学的研究团队提出了一种名为 qGO 的统计方法,以研究论文形式发表于 BMC Genomics 期刊。该方法基于基因顺序特征的同源性,通过划分基因串并为跨越不同区域的基因额外分配权重,从而更准确地描述基因组组织多样性。此外,该方法还采用了全局距离计算方法,生成成对距离矩阵。通过对 5500 多个脊椎动物线粒体基因组开展测试,验证了 qGO 方法在准确性和可解释性方面优于现有方法。该方法提高了基因组的可比性,从而能够更准确地比较不同类群线粒体基因组组织的多样性。这一成果对于揭示基因组进化规律、探索基因组功能以及研究分子进化过程具有重要意义。
图1 qGO方法的流程示意图及其算法
qGO 基于同源性分析和区域加权对线粒体基因组重排进行量化,具体步骤如下:
1) 输入基因顺序:接受文本形式输入的多条基因顺序 S。
2) 多序列比对:手工多序列比对,将 S 中的基因序列对齐。
3) 分区:可以根据观察到的最小变化单元,或其它生物学约束对上述比对结果进行分区(本文中将控制区和复制起始点作为分区断点)。
4) 基因对比较与加权:将 S 中的基因序列两两比较,如果同位置基因相等,则该基因分数为 0;如果不相等则为 1,并作以下两个判断:
a. 对该基因在比较的两条基因序列中所处的区域进行判断,若在同一区域则给予权重 1,若在相邻区域给予权重 2,若跨区域则给予权重 3,将权重与分数相乘得到新的分数;
b. 判断该基因是否发生了反转,如果发生了反转就把分数加 1,否则保持不变。
5) 计分:最后将物种中所有基因的分数相加得到物种分数 RS,将每种基因分数相加得到基因频率 RF。
图2 qGO分析结果与可视化
该研究采用脊椎动物线粒体基因组数据集对新方法开展测试。测试实验基于 Shtolz 等人(2023)的综合数据集,经处理后按分类群分为五个子集,各子集共计 122 种基因顺序类型(见原文-附加文件 1)。其中包含了缺失、重复及非典型基因等多种基因含量的变化。在基因顺序方面,除反转和位移以外,我们还特别为长距离位移基因赋予权重。结果表明在五个子集中,权重为 2 的基因总占比为 23.83%,其中鱼类子集最高(51.36%),哺乳动物子集最低(1.19%)。在实施 qGO 方法时,我们采用了更可靠的人工比对,以更大程度地确保后续分析的可靠性。比对后的序列长度不等,表明了各数据集可能具有的特异性,以及对结果值分布异质性的预期。如图 2 所示,五个数据集 RS 分布特征各异,哺乳动物与鸟类子集均呈单峰分布,而并系群鱼类与爬行类则呈双峰分布,这与它们蕴含的异质性或不连续性是一致的。值得注意的是,尽管两栖类是单系的,但我们团队近期的研究表明,两栖动物线粒体基因高度重排,存在多个基本模式。这与 qGO 所得到的非单峰分布是一致的。此外,qGO 能比较成对类型间 RS(原始数据见附加文件 2),较好地展示了脊椎动物各类群间重排强度的差异及其偏倚模式。
江西师范大学生命科学学院副教授牛耕耘为本文唯一通讯作者,计算机信息工程学院石海鹤教授、硕士生杨帅、生命科学学院魏美才教授为共同第一作者。特别感谢江西师范大学数学与统计学院罗森平教授在本研究初期给予的启迪。
代码和数据可用性
该软件包现已发布于 github(https://github.com/Mitooool/qGO)。
文中所用的所有数据集也已上传至 figshare(https://figshare.com/account/home#/projects/227304)。
期刊简介
BMC Genomics 是一本开放获取期刊,拥有庞大的读者群体和经验丰富的编辑委员会。期刊收稿范围包括基因组分析,功能基因组学,表观基因组学,蛋白质组学和转录组学的各个方面,内容包括新的方法和技术。
2023 影响因子:3.5
2023 下载量:7,167,242
2023 Altmetric 提及:4,454
投稿到初审意见:21天(中值)
欢迎扫码了解期刊详情
BMC中国官方微信公众号平台【BMC科研永不止步】特别设立作者自荐专栏【论文推广投稿】(路径如下图所示),旨在帮助在BMC期刊上发表过学术论文的作者免费宣传和传播优秀的研究成果。希望通过该平台能够给科研人员提供一个展示研究成果的机会,将其推广给更广泛的受众。
点击“阅读原文”阅读英文原文
qGO: a novel method for quantifying the diversity of mitochondrial genome organization
BMC是施普林格∙自然旗下机构。作为开放获取出版先锋,BMC不断推出一系列高质量的同行评议期刊,包括BMC Biology 、BMC Medicine等涵盖范围较广的期刊,以及Malaria Journal、Microbiome和BMC系列期刊等专门刊物。BMC以“科研永不止步”为信条,致力于不断创新,以更好地满足作者群体的需要,确保所发表论文的完整性,并积极推广开放研究。
第一步:点击文章顶端“BMC科研永不止步”公众号;
第二步:点击右上角“...”
第三步:点击“设为星标”
点个“在看”,下次更新不错过⇣⇣