最新研究|基于多组学与机器学习的枯草芽孢杆菌全基因组代谢模型优化基因表达与细胞生长预测

学术   2024-09-23 13:38   江苏  

近日,Advanced Science 在线发表了江南大学未来食品科学中心和生物工程学院陈坚院士团队刘龙教授课题组的研究成果“A multi-omics, machine learning-aware, genome-wide metabolic model of Bacillus subtilis refines the gene expression and cell growth prediction” (Bi et al., Advanced Science. 2024. 2408705)。江南大学2020级博士生毕心宇为论文第一作者,刘龙教授为论文通讯作者。

(↑ 扫码跳转至原文)

微生物的系统研究涉及从低通量的原位测序到高通量的质谱分析,而实验操作、样本来源和生物变异性会导致数据的差异性。机器学习为多组学数据的分析和预测提供了重要工具,特别在基因组规模代谢网络模型的构建中发挥了重要作用。然而,许多机器学习模型忽视了生物背景,限制了模型的可信度和解释性。

针对上述问题,该研究标准化建立了枯草芽孢杆菌高质量综合数据库,并搭建了枯草芽孢杆菌多组学综合代谢网络模型,设计了34个机器学习模型,将机器学习模型与多组学综合代谢网络模型相结合,实现了基因表达与细胞生长的精准预测。首先,手动收集了多个数据库和大量文献中的枯草芽孢杆菌组学数据,并建立了数据标准化策略,以消除实验条件和分析方法的系统性偏差,从而搭建了一个包括基因表达、转录调控、信号转导、蛋白翻译和细胞生长的标准化数据库(图1和图2)。其次,基于此构建了iBsu1209-ME模型,该模型涵盖了细胞所有主要代谢途径、基因转录、蛋白翻译、大分子修饰和转运反应,模型准确预测细胞生长速率和代谢途径的基因表达水平(图3)。随后,为完善iBsu1209-ME模型数据,选择五种超参数优化算法和四种机器学习框架,建立了34个机器学习模型,通过与湿实验数据对比,BOLSTM模型和ACOCNN模型分别实现了基因转录数据和蛋白翻译数据的精准预测(图4)。与此同时,提出了HDMPPK特征工程框架,相比传统算法,HDMPPK框架在精简数据库的同时提取了原数据库的全部特征(图5)。

为全面理解基因表达对细胞生长的影响,在上述研究基础上构建了基因转录和蛋白翻译的集成回归模型。通过该模型成功预测了BsuMAC表达数据集中496个基因表达谱下的细胞生长速率,并优化iBsu1209-ME模型的转录和翻译模块,重建了EM_iBsu1209-ME。对比688个细胞生长相关基因的预测水平,EM_iBsu1209-ME的预测准确率达到87.9%,比iBsu1209-ME提高了46.7%。此外,在12种不同培养条件下,EM_iBsu1209-ME的细胞生长速率预测值与实验数据高度相关(PCC=0.77)(图6)。

总之,该研究为全面探索枯草芽孢杆菌的基因型-表型关系、指导细胞定向进化、探索未知的细胞过程提供了宝贵的数据支持。同时,这项工作为其他微生物的数据挖掘和模型开发提供了技术解决方案。

▲ 图1 枯草芽孢杆菌多组学数据库的构建与分析
▲ 图2 基因调控数据集的可视化和置信度分析

▲ 图3 iBsu1209-ME的构建与分析

▲ 图4 多组学机器学习模型的构建和分析

▲ 图5 特征工程提取数据集的功能分析

▲ 图6 EM_iBsu1209-ME集成模型构建及优化

上述研究工作得到了国家重点研发计划(2020YFA0908300)、国家自然科学基金(32070085、32021005)等项目的资助。



文图丨毕心宇

编辑丨刘   垚

审核聂   尧

责编韩   俊


推荐阅读


醉美生工
江南大学生物工程学院官方公众平台
 最新文章