一、以下是一些常见的 AI 蛋白质设计工具介绍:
1、AlphaProteo
图源:网站
推出团队:由 Google DeepMind 推出。
功能特点:作为首个专为设计新型高强度蛋白质结合物的 AI 系统,AlphaProteo 可基于给定的目标分子结构及该分子上的一组首选结合位置,生成相应的候选蛋白质。其在测试的 7 种靶蛋白上,实验成功率更高,9%—88% 候选分子成功结合,比其他方法高出 5—100 倍,且结合亲和力比现有最佳方法高出 3—300 倍。它还能生成适用于多种应用的 “即用型” 结合剂,仅需一轮中等通量筛选,无需进一步优化,此外还可设计针对多种目标蛋白质的结合体,在癌症和糖尿病并发症治疗相关的 VEGF-A 蛋白结合物设计上取得了历史性进展。
应用领域:主要应用于靶点发现和药物研发,可加速推进 AI 在癌症、炎症、自身免疫性疾病以及病毒感染等疾病治疗方面的应用进程,此外还可向农业、食物科学等多个领域发展。
局限性:大规模用于药物研发仍面临一些壁垒,如实验验证的目标蛋白数量相对较少,对缺乏高分辨率晶体结构的蛋白靶标预测存在挑战,且生成的结合物在复杂体内环境中的长期稳定性和有效性需进一步验证。
2、RoseTTAFold All-Atom 与 RFdiffusion All-Atom
图源:官网
推出团队:由华盛顿大学 David Baker 教授团队推出。
功能特点:RoseTTAFold All-Atom 是增强版的蛋白模拟工具,可模拟蛋白质与其它生物分子如 DNA、RNA、金属离子、糖和其他小分子化合物的相互作用,帮助科学家更好地理解许多疾病的分子机制。RFdiffusion All-Atom 则是基于 AI 平台 RFdiffusion 的蛋白设计工具,能够根据与特定化合物结合的口袋,从头设计全新蛋白质,为设计精准疗法铺平道路,且设计出的全新蛋白已通过晶体学和实验验证,可以与相应化合物结合。
应用领域:为生物医学研究提供了重要工具,有助于开发更精准的治疗方法,如设计能够关闭特定致病分子功能的蛋白质。
3、EVOLVEpro
图源:网站
推出团队:由美国麻省总医院布莱根分院与贝斯以色列女执事医疗中心的研究团队推出。
功能特点:基于深度学习和机器学习技术,利用生成对抗网络(GAN)和变分自编码器(VAE)等方法,通过分析大量蛋白质数据,能迅速识别出优化蛋白质结构的路径,生成新的蛋白质序列,并预测其可能的三维结构及生物活性。它可调整蛋白质的稳定性,帮助研究人员设计出更耐受极端环境的蛋白质,还能设计出多种不同用途的蛋白质,如酶、抗体及生物传感器等,且具有用户友好性,非专业用户也可通过无代码界面使用该工具。
应用领域:在制药、疫苗研发以及生物材料开发等多领域有重大影响,可用于快速设计新型药物靶点,加速新一代疫苗的开发等。
局限性:AI 生成的蛋白质可能具有不确定性,其在实际应用中的安全性和有效性需通过大量实验验证,同时还需关注潜在的伦理问题和技术风险。
4、accelprotein™
图源:天鹜官网
推出团队:由上海交通大学洪亮教授团队研发。
功能特点:通过预训练方法,学习自然界已知的所有蛋白质序列和结构特征,探索与理解自然界中蛋白质序列与功能的映射规律,从而能够高效地设计出稳定性好、活性高、功能性强的 AI 蛋白质。该模型采用几何深度学习方法简化架构,降低模型参数,便于大规模预训练和推理,并利用小样本乃至零样本学习方法,提高工程泛化能力,可在仅有少数湿实验数据的情况下实现蛋白质性能优化,大大提高蛋白质设计效率。
应用领域:可应用于体外检测、合成生物学、生物医药等多个领域,为这些领域提供性能优异的蛋白质产品。
抗体设计:2024 年诺贝尔化学奖获得者之一的 David Baker 首次使用生成式 AI 从头设计出了全新的抗体,有望让 AI 从头设计蛋白进入抗体药物市场。
图源:网站
酶的设计与优化: 分解塑料的酶:借助 AlphaFold2,科学家们能够更深入地研究酶的结构与功能,从而设计出能分解塑料的酶,为解决塑料污染问题提供了新的途径。 工业催化酶:无锡合成生物学和生物制造研究中心利用 AI 设计蛋白质平台,对工业催化酶展开深入研究,通过以 AI 为核心的蛋白质生成和预测模型,提高技术研发成功率和速度,加速其从实验室到市场的转化进程。 酶活性提升:普言生物通过 AI 技术构建的大规模语言模型,对重组人源化胶原蛋白进行百亿级别序列筛选,生成的序列经过实验验证其蛋白功能相比传统重组胶原蛋白提升约 10 倍以上。
药物研发:
提升药物研发效率:AlphaFold3 能够更准确预测不同大分子之间复合物的结构,以及大分子、小分子和离子之间的相互作用,帮助科学家更精确地针对疾病机制开发更有效药物,从而大幅提高药物研发的效率和成功率。 设计新型药物:天骛科技依托自主研发的 AI 蛋白质设计通用大模型 AccelProtein™,已成功交付了二十余款蛋白质设计项目,为处于早期研发阶段的蛋白类药物以及生产工艺环节所使用的工具蛋白提供设计优化服务。
蛋白质结构预测:AlphaFold2 的出现解决了困扰生物学界 50 多年的 “蛋白质折叠” 难题,使得人类对蛋白质结构预测的精准度达到了此前难以企及的高度,自问世以来,该模型得到 190 个国家和地区 200 多万研究人员的应用,为蛋白质设计及相关研究提供了重要基础。
合成生物学应用:普言生物利用 AI 技术开发了涵盖多型重组人源化胶原蛋白、纤连蛋白、弹性蛋白等 10 余种高性能功能蛋白,搭建了中试平台和生物工厂,并在不到 2 年时间内完成多种功能蛋白的研发及量产。
竞赛获奖项目:
蛋白质工程大赛:德国慕尼黑理工大学的计算生物学家布克哈德・罗斯特及其同事赢得了由开放科学非营利组织协同创新组织主办的 “蛋白质工程大赛”。该活动中,参与者先预测不同酶变体的性质,表现最好的团队随后重新设计一种分解淀粉的酶,根据实验室结果确定最佳设计。
冬季蛋白质设计赛:在 “冬季蛋白质设计赛” 中,参赛者需重新设计一种现有蛋白质——一种在蛋白质纯化中广泛使用的植物病毒酶,使其分子更有效 。
适应性生物公司竞赛:该竞赛中,参赛者需设计出能够附着在表皮生长因子受体上的蛋白质,有 90 名参赛者提交了 700 多个设计,这些设计有望为癌症治疗提供新的思路和方法。 AI 设计蛋白质结合剂大赛:研究人员正努力创造可用于 T 细胞癌症治疗的小蛋白,吸引了来自 42 个国家的 64 个团队参赛,约 1.8 万个设计结果正在接受测试。
数据相关问题:
数据量与多样性不足:对于一些与药物和小分子结合的蛋白质,以及特定的复杂结构蛋白质,可用于训练的数据相对较少,导致 AI 设计的可靠性降低。而且现有的公开数据结构多样性有限,不能涵盖所有可能的蛋白质结构和相互作用类型,注释质量也参差不齐,影响模型对通用化学规则的学习。 数据获取难度大:许多制药公司的小分子结构及其与蛋白质相互作用的数据严格保密,难以获取,限制了 AI 学习的范围,不利于设计更广泛类型的蛋白质结合物。 数据噪音与误差:蛋白质组学数据往往存在噪音,来源多样,如实验误差、样本差异等,这使得难以从中准确识别有意义的模式,进而影响 AI 模型的训练效果和预测准确性。
模型性能局限:
准确性和可靠性待提高:尽管 AI 系统能够生成大量潜在蛋白质结构,但部分结构不符合实际需求,需要进一步实验验证和优化,尤其在预测蛋白质的生物功能、活性以及在复杂体内环境中的长期稳定性等方面,准确性仍需提升。 对蛋白质动态性和构象变化预测不足:蛋白质处于不断运动中,其构象受多种因素影响,但实验通常只能捕捉到最稳定构象,计算所有可能构象对超级计算机也是巨大挑战。现有建模方法难以准确预测蛋白质的动态特性和构象变化,而这对于设计具有特定功能的蛋白质至关重要,例如设计能够在不同条件下发挥作用的酶或具有特定构象变化功能的蛋白质。 难以区分结合蛋白的功能差异:即使结合蛋白能够很好地与目标结合,也不意味着它能发挥预期的生物功能,如有些结合蛋白可能激活靶点,而有些则可能阻断靶点,而当前一些程序如 AlphaFold 等并不总能区分这两种情况。 生成非天然结构:生成式 AI 系统容易 “幻化” 出自然界中不存在的蛋白质结构,反映了 AI 在追求最优解时可能忽视生物物理学的实际限制,这些非天然结构的蛋白质在实际应用中的可行性和稳定性存疑。
蛋白质结构与功能的复杂关系理解不足:
结构与功能的非对应性:相似的蛋白质形状并不总意味着相似的功能,而看似无关的酶却可能执行相同任务,这增加了从结构预测功能以及根据功能设计结构的难度,使得设计具有全新功能的酶等蛋白质面临重大挑战,需要深入分析酶在进化中的保守序列等,以确定对功能至关重要的部分。 氨基酸链的潜在影响:即使是进化保守的序列中,也可能包含看似无用实则关键的氨基酸链,它们会影响蛋白质与其他分子的结合或构象变化,而这些氨基酸链的作用往往难以直接识别和确定。
伦理和法律问题:
安全性和有效性:AI 设计蛋白质在人体内的作用机制和潜在风险还未被充分了解,例如一些经过 AI 设计的蛋白质可能引发意想不到的免疫反应,或对人体正常生理功能产生不良影响,若这些问题得不到妥善解决,将限制其应用。 伦理道德考量:AI 设计蛋白质技术的发展引发了一系列伦理问题,如是否会走向 “改造生命” 的道路,是否符合人类的尊严和价值,以及是否会对社会的稳定和发展产生深远影响等,例如制造出具有超强能力的 “超级人类” 可能打破现有的社会平衡。 知识产权和数据隐私:在蛋白质设计过程中,涉及大量的数据使用和模型开发,知识产权和数据隐私问题需要引起重视,如数据的来源和归属、模型的专利保护以及研究成果的共享和商业应用等方面,都需要建立合理的规范和准则。
跨学科合作与人才短缺:AI 蛋白质设计需要多学科的知识和技能,包括生物学、化学、物理学、计算机科学等,但目前相关领域的专业人才相对短缺,跨学科的合作也不够紧密,限制了技术的进一步发展和创新,难以充分发挥各学科的优势来解决复杂的问题。
有什么想法欢迎评论区留言讨论!
人工智能驱动的合成生物途径设计工具:
人工智能驱动的酶挖掘和优化设计工具: