随着人工智能技术影响到人类生产和生活的各个方面,传统的研究模式也在发生着根本性的变化。具体到生物催化领域,机器学习已被用于蛋白质的理性改造,这种数据驱动的策略可以通过从收集的数据中识别催化模式,从而设计新的突变组合,有望大大减少传统策略所需的计算和实验工作。机器学习模型的成功与否,在很大程度上取决于所用数据的质与量。然而,现有的生物催化相关数据库往往缺乏足够数量的、多样性高的催化性能数据,特别是对映选择性数据,且这些数据如何表示成与目标问题相关的、计算机可读的输入特征,也是亟需解决的难题。因此,如何有效地获取高质量的数据并设计出相应的描述符,已成为这一领域的重要挑战之一。
在中国科学院、科技部和国家自然科学基金委的支持下,化学研究所分子识别与功能院重点实验室的敖宇飞、王德先等在数据驱动的转氨酶改造方面取得了一系列重要进展(Angew. Chem. Int. Ed. 2023, 62, e202301660; ACS Catal. 2024, 14, 6462-6469),并利用基于结构的理性改造方法实现了多种酶催化性能的调控(ACS Catal. 2021, 11, 6900-6907; Int. J. Mol. Sci. 2022, 23, 15347),为进一步开发人工智能辅助的酶突变设计方法奠定了基础。
近期,该团队与北京师范大学的研究人员合作,建立了具有较高预测精度的酰胺水解酶催化立体选择性预测模型,并展示了其在不对称合成手性酰胺和羧酸中的应用。该团队自上世纪90年代以来一直致力于生物催化酰胺转化的研究工作,多年来收集得到酰胺水解酶催化不同底物反应的大量实验数据,在此基础上该团队采用一维化学和三维几何描述符描述底物特征,构建随机森林分类模型预测酰胺水解酶对新底物的对映选择性。针对立体选择性较差的反应,利用模型进行虚拟筛选并启发酶的理性改造,实现了反应立体选择性的大幅提升。为基于机器学习的催化剂设计改造提供了新思路。相关研究工作近期发表在Nat. Commun. 2024,15, 8778,第一作者为博士生李子琳和北京师范大学研究生裴书鑫,通讯作者为敖宇飞副研究员、北京师范大学申林教授和陈雪波教授。▲ 机器学习辅助的酰胺水解酶催化立体选择性预测模型及应用