导读
今年诺奖周,人工智能可谓大赢家,其中AlphaFold作为获奖领域更是其中的翘楚,然而在AlphaFold获得如此成就之际,却一直面临着壁垒,科研人员无法便捷的使用AlphaFold3。
科学家一直以来都期望AlphaFold3的代码能进行开源,以更广泛地应用于蛋白质的预测。
近日,DeepMind公司正式宣布开源AlphaFold3代码,对于科学研究来说,这无疑是一大好消息。
林 岩 | 撰文
DeepMind宣布开源AlphaFold3代码
11月11日,备受瞩目的AI蛋白质预测工具AlphaFold3宣布开源,这一决定无疑让全球的科研人员为之振奋。
与之前的版本相比,AlphaFold3的最大突破在于它能够与其他分子协同模拟蛋白质。然而,与AlphaFold2开源代码的做法不同,DeepMind最初仅通过一个限制了预测数量和类型的网络服务器提供访问权限,该服务器阻止了科学家利用AlphaFold3预测蛋白质在潜在药物存在下的行为。
DeepMind公司最初表示,仅通过网络服务器提供AlphaFold3是为了在促进科研访问和保护商业利益之间找到平衡。事实上,DeepMind的伦敦衍生公司Isomorphic Labs正在将AlphaFold3应用于药物发现。
然而,AlphaFold3在发布时未公开其代码或模型权重(即通过训练软件在蛋白质结构和其他数据上获得的参数),这一做法让不少科学家感到遗憾,也引发了不少的批评。
自今年10月初,AlphaFold3的两位创立者荣获诺贝尔化学奖以来,其背后的代码更加备受关注。就在近日,DeepMind公司正式宣布,科学家们可以下载AlphaFold3的软件代码,并在非商业应用中使用这一AI工具。
“我们非常期待看到大家将如何利用这一工具。”DeepMind公司的AlphaFold团队负责人John Jumper表示。他与首席执行官Demis Hassabis共同因AlphaFold的工作而获得了2024年诺贝尔化学奖的荣誉。
蛋白质预测领域,百花齐放
AlphaFold3开源后,DeepMind也迎来了竞争。
过去几个月里,多家公司推出了基于AlphaFold3的开源蛋白质结构预测工具,这些工具依赖于原始论文中描述的伪代码。中国的科技巨头百度和TikTok开发者字节跳动,以及位于美国加利福尼亚州旧金山的初创公司Chai Discovery,都已经推出了受AlphaFold3启发的模型。
然而,这些模型存在一个关键限制,与AlphaFold3一样,它们均未获得商业应用(如药物发现)的许可。不过,Chai Discovery的模型Chai-1可以通过网络服务器用于此类工作。另一家位于旧金山的公司Ligo Biosciences则发布了无限制的AlphaFold3版本,但该软件尚未具备包括模拟药物和非蛋白质分子在内的全套功能。
其他团队正在开发没有这些限制的AlphaFold3版本:纽约市哥伦比亚大学的计算生物学家Mohammed AlQuraishi希望在今年年底前推出一个名为OpenFold3的完全开源模型。这将使制药公司能够使用专有数据(如与各种药物结合的蛋白质结构)重新训练他们的模型版本,从而可能提高性能。
开放性将助力科学发现
过去一年里,各家公司发布了大量生物AI模型,它们对开放性的态度各不相同。威斯康星大学麦迪逊分校的计算生物学家Anthony Gitter对营利性公司进入他的领域并不反感,只要这些公司在期刊和预印本服务器上分享工作时遵守与其他科学家相同的规则。
DeepMind科学AI部门负责人Pushmeet Kohli表示,几个AlphaFold3复制品的出现表明,即使没有开源代码,该模型也是可复制的。他补充说,他希望看到更多关于该领域出版规范的讨论,因为该领域正越来越多地由学术和企业研究人员共同占据。
随着AlphaFold3的共享,Jumper迫不及待地想要看到更多这样的惊喜出现,即使它们并不总是能结出硕果。
“人们会以奇怪的方式使用它,”他预测道,“有时它会失败,有时它会成功。”
AlphaFold3的开源不仅标志着AI在蛋白质结构预测领域的重大进步,也为全球科研人员提供了一个前所未有的合作与创新的平台,未来的生物科学领域将因AI的助力而更加精彩纷呈。
参考资料
AI protein-prediction tool AlphaFold3 is now open source
https://www.nature.com/articles/d41586-024-03708-4