ACS Synth. Biol.丨江南大学刘延峰研究员:整合深度学习和合成生物学-通过N端编码序列增强基因表达

文摘   2024-10-11 08:30   湖南  

2024年9月,江南大学未来食品科学中心刘延峰研究员于ACS Synthetic Biology发表论文“Integrating Deep Learning and Synthetic Biology: A Co-Design Approach for Enhancing Gene Expression via N‑Terminal Coding Sequences”。N-端编码序列(NCS)通过影响翻译起始速率对基因表达产生影响,NCS优化问题在基因工程中至关重要。该研究介绍了一种基于深度学习与合成生物学协同设计的少样本训练工作流程,用于NCS优化。作者使用k近邻编码和word2vec对NCS进行编码,使用注意力机制提取特征,构建时间序列网络来预测基因表达强度,最后通过直接搜索算法在有限的训练数据下找到最优NCS。以枯草芽孢杆菌(Bacillus subtilis)表达的绿色荧光蛋白(GFP)作为NCS的报告蛋白,并以荧光增强因子作为NCS优化的度量。在六次迭代实验中生成了一个NCS(MLD62)模型,其平均GFP表达增加了5.41倍,超越了现有的最优NCS设计。经过工程化的NCS(MLD62)能够有效提升限速酶GNA1基因的表达,从而提高N-乙酰神经氨酸的产量。Zhanglu Yan和Weiran Chu为论文的共同作者,刘延峰研究员为论文的通讯作者。





在合成生物学中,精确调控关键基因表达至关重要。现有策略(图1a)主要集中于调控不同阶段基因表达,这意味着每一层级操作都将面临不同挑战。例如,对复制水平的调节往往带来更低的基因表达增幅,而对转录过程调节则可能导致结果的鲁棒性差、波动性高等。本文对翻译过程调控,可以保证基因表达稳定增加。常见用于精准调控翻译层面基因表达强度策略有核糖体结合位点(RBS)筛选、密码子优化以及N-端功能调整。在这些策略中,N-端编码序列(NCS)通过影响翻译起始阶段核糖体与mRNA结合与延伸,从而对基因表达产生影响,然而现有计算工具无法准确预测其表达强度,限制了NCS作为调控元件在代谢途径表达中的应用。使用NCS进行基因表达调控工具包的理性设计和开发仍具有挑战性,本文提出了一种基于深度学习和合成生物学协同设计的少样本训练工作流程,用于增强基因表达。

图1 调节基因的方法


图2 培训方法的工作流程


NCS编码

该研究实施了k近邻编码方法,将NCS分割为大小为k的片段进行基因序列分析(算法1第1步)。作者选择了k=3以符合生物学原则(即每个密码子由三核苷酸组成),例如,C4基因型序列“ATGAAAA…”被分割为3个序列“ATG TGA GAA AAA AAA…”。其中,每个片段被视为一个单独的“词”,并通过Word2Vec中连续词袋(CBOW)模型处理(算法1第2步),这种方法生成了向量嵌入已确保上下文相似的片段在对应向量空间中聚集在一起。为了弥补注意力机制捕获位置信息时存在的局限性,作者通过正弦算法加入了位置编码(见算法1的第3步)。

表1 算法1- NCS编码


NCS预测模型

由三个不同模块组成的神经网络结构来预测基因表达强度。第一个模块专注于从编码的NCS中提取特征。第二个模块模拟蛋白质结构,如螺旋、折叠和环。最后一个模块是一个输出层,预测基因表达水平。


NCS表达强度分析

B. subtilis表达的绿色荧光蛋白(GFP)作为报告蛋白,并选择了GFP基因的前45个碱基对作为标准长度的NCS。为了形成NCS表达强度数据集,作者初步选择了73个基因根据B. subtilis的转录组和蛋白质组数据表现出不同表达强度。随后通过引入寡核苷酸克隆,将这些基因的NCS连接到GFP起始密码子上游。对这73个NCS变体表达强度进行表征,对应的荧光强度构成初始训练集。由于数据集有限且在高荧光强度区域分布不均,加之重复实验的成本较高,作者对73个NCS序列数据集进行平衡和扩充。作者还提出了一种损失函数,对高表达NCS的训练数据赋予更高权重,以提升模型识别和预测高表达基因型的效率。损失函数在初始数据集上训练后,作者使用直接搜索算法找出了具有高表达强度的NCS基因型。经过六轮迭代机器学习和表型验证,模型最终生成了一个增强型NCS(MLD62),其GFP表达量平均增加了5.41倍,远超初始数据集中表现最好的内源性NCS(C4)。

图3 NCS表达强度分析


MLD-NCS的应用

作者将用于N-乙酰神经氨酸(NeuAc)合成过程中限速酶基因GNA1的调控。一般来说,在没有机器学习辅助的情况下,研究人员必须构建大量文库并开发专门的筛选策略来识别有效的调控元件。然而,这些元件通常受生物学约束,如过强的调控可能不利于细胞生长等。NeuAc是一种高价值化合物,生物合成生产工艺相对成熟,但对关键限速步骤调控方面仍面临挑战。作者将MLD-NCS应用于GNA1调控,结果显示GNA1株系在使用MLD62调控后,生产强度达到1.51 g/L/OD600,较野生型GNA1(1.2 g/L/OD600)提高了1.25倍,较最强的天然NCS-C4(1.38 g/L/OD600)提高了1.1倍(图4)。显著提高了NeuAc的产量,同时未对正常细胞转录产生显著影响。MLD62作为一种强大的、基于机器学习的非天然NCS,其优越的调控能力远超天然NCS。通过绿色荧光蛋白(GFP)的表征实验,这一优势得到了充分展示。

图4 MLD-NCSs高效合成N-乙酰神经氨酸(NeuAc)


进一步验证的两轮实验

作者后续又增加了两轮实验,但未获得更强的NCS。作者认为这可能是由于在预测更高表达水平的NCS时,神经网络通过局部最优搜索,从已获得的最佳结果进行迭代。当第六轮实验中得到了最高表达的NCS(MLD62)后,后续的迭代需要基于MLD62进行局部搜索。如果在进一步的迭代中没有找到更强的NCS,则继续实验变得无意义。因此,从这一训练集中找到的最强NCS是MLD62

图5 另外两轮的NCS表达强度


原文链接:

https://pubs.acs.org/doi/10.1021/acssynbio.4c00371#


免责声明:本文旨在分享生物合成与未来食品领域科研动态,不代表平台立场,不构成任何投资意见和建议,以官方/公司公告为准。本文也不是治疗方案推荐,如需获得治疗方案指导,请前往正规医院就诊。


版权声明:标注‘原创’仅代表原创编译,本平台不主张对原文的版权。中文内容仅供参考,一切内容以期刊官网为准。

本平台转载仅仅是出于学术交流和传播信息的需要,并不意味着代表本平台观点或证实其内容的真实性;转载文章版权归原作者所有,作者如果不希望被转载或有侵权行为,请联系本平台删除。



摘译 | 王咏桐

编辑 | 王咏桐

          左莎莎

          陈嘉序

审核 | 刘   娟

生物合成与未来食品
专注于生物合成与未来食品领域科研动态的分享。
 最新文章