北大农研院郭立团队与合作者联合开发高效基因-代谢物关联挖掘算法CAT Bridge

学术   2024-11-10 20:18   山东  

请点击上方PlantReports」↑关注我们!第一时间了解植物科学领域最新研究进展!

近年来随着DNA测序和质谱检测技术的飞速发展,大规模的基因组和多组学数据迅速积累,极大促进了对生命体的系统生物学研究。转录组和代谢组数据的联合分析被广泛用于天然产物生物合成和代谢途径的分子机理研究,其中一个重要目标是识别基因-代谢物的关联和因果关系,例如哪些基因可能参与了某一代谢物的合成。该类研究通常大多使用相关系数来作为衡量标准,并假设参与代谢物合成的功能基因与代谢物具有相同的表达趋势。然而这种简单的线性关系通常不能够正确的反应生物系统这一复杂系统里的调控关系。比如在纵向多组学研究中(多时间点的采样),基因表达的变化影响代谢物浓度上具有一定的延迟,且一种代谢物的合成通常也受到多个基因的调控,这导致二者之间关系的滞后性和非线性。迄今为止,该研究领域还没有很准确高效的生信算法能够解决这类基因-代谢物关联挖掘的问题。

2024年11月9日,《GigaScience》(IF=11.8)在线发表了北京大学现代农业研究院郭立团队、加拿大阿尔伯塔大学厉良院士团队以及康奈尔大学合作者题为“CAT Bridge: an efficient toolkit for gene-metabolite association mining from multiomics data”的研究论文。该研究开发了一款用户友好的多平台软件CAT Bridge,用于更加准确的从多组学数据(特别是纵向多组学)中挖掘与特定代谢物关联的基因(图1)。CAT Bridge集成了7种相关系数计算和因果关系建模的统计学方法,并在人类、辣椒、大肠杆菌三个不同物种的数据集中完成了基准测试。此外,为了方便用户进行全面的数据分析,CAT Bridge还集成了常用的可视化分析,以及一个基于GPT 3.5 turbo的人工智能(AI)代理Yuanfang(元芳),用以启发用户更快的定位潜在的功能基因。

图1:CAT Bridge的总体框架

CAT Bridge算法原理

CAT Bridge的一个主要功能是通过衡量基因与指定代谢物之间的关系,对基因进行启发式排序。具体而言,CAT Bridge通过计算每个基因与指定代谢物间的相关系数或因果系数、峰值期与衰退期的倍数变化,对基因进行排序。排名更靠前的基因被认为更有可能参与指定代谢物的合成与调控。启发式排序里排名前100的基因还可以被输入到AI代理中,根据先验知识对用户做出进一步的提示。通过启发式排序结果和AI代理的提示,研究人员可以更快的筛选出潜在的功能基因。相较于传统方法,CAT Bridge的创新点在于其对时间序列数据的因果推断能力。传统的相关性分析方法(如Pearson或Spearman相关系数)通常只揭示两个变量之间的线性关系,无法捕捉动态的时间依赖性与复杂互作,特别是在基因表达和代谢物浓度变化之间存在时间延迟的情况下。CAT Bridge集成了如格兰杰因果(Granger causality)检验和收敛交叉映射等多种算法,并在不同的物种和任务下接受了基准测试,结果表明CAT Bridge与多个传统方法相比在不同任务的测试中都表现最为优异

图2:使用CAT Bridge从辣椒纵向多组学数据中挖掘辣椒素生物合成基因

不同场景的应用案例

我们使用三个来自不同物种的转录组-代谢组数据集,对三种不同任务进行了测试,分别是:非模式物种中功能基因的挖掘(通过分析实验收集的辣椒发育不同阶段的多组学数据,发现辣椒素的合成基因)(图2);已知基因-代谢物关系的重建(人类衰老对于糖酵解通路的影响);主要前体物质的识别(识别大肠杆菌乙酰辅酶A合成过程中不同前体的贡献度)。在三个任务中,基于收敛交叉映射的CAT Bridge都展现出了优异的表现,而如果依靠传统的Pearson相关系数则会错过正确的结论

综上所述,该研究提供了一个在多组学数据中发掘关联基因-代谢物对的用户友好性工具CAT Bridge(图3),并且在农业、生物医学的多个场景下测试了其可靠性能。CAT Bridge有网页版(https://catbridge.work),本地版和Python library三种形式供用户选择使用。

图3. CAT Bridge提供一个用户友好的界面,可以在线挖掘关联基因-代谢物

北京大学现代农业研究院访问学生、加拿大阿尔伯塔大学化学系博士生杨博文为论文第一作者,北京大学现代农业研究院郭立研究员、阿尔伯塔大学教授、加拿大皇家科学院厉良院士为论文共同通讯作者。北京大学现代农业研究院科研助理王欣蕊、李君、易澍,实习生孟坦、周翊、张怡,阿尔伯塔大学代谢组创新中心赵爽博士,康奈尔大学计算机系博士生王赢珩参与了此研究。该研究得到了北京大学现代农业研究院高性能计算中心、质谱分析平台的技术支持,以及山东省重点研发计划、山东省自然科学基金杰青项目以及山东省泰山学者等项目的资助。


本文转自北大农研院,只为分享交流,无任何商业用途。点击左下角“阅读原文”查看论文全文。


长按下方二维码关注Plant Reports!

关注农业科学和植物科学最新研究进展!

投搞、转载请联系plantreports@163.com

PlantReports
专注植物科学前沿报道,普及植物科学常识,分享植物科学资讯
 最新文章