在2024年5月,《自然》杂志上发布了Google DeepMind最新的蛋白质结构预测AI——AlphaFold3,这一消息引起了广泛关注。然而,与之前的AlphaFold2版本不同,这次发布的论文并未附带描述该进展的计算机代码。这一缺失引发了科学界的广泛讨论和批评,也促使全球研究人员竞相开发自己的AlphaFold3开源版本,以确保科学的透明性和可重复性。AlphaFold2的成功与AlphaFold3的争议
AlphaFold2的发布是结构生物学的一个突破时刻,其影响深远。单个蛋白质的结构预测开启了理解生物系统和小分子药物发现的新途径。大规模预测研究使得进化分析和遗传变异解释成为可能。开源代码被扩展和修改,用于蛋白质设计和蛋白质-蛋白质组装预测的新方法和应用。这些例子表明,随后的研究和基准测试之所以成为可能,是因为代码和模型是开放且可下载的。
然而,AlphaFold3的发布却缺少了代码或可执行文件,令许多科学家感到失望。尽管AlphaFold3扩展了AlphaFold2的能力,涵盖小分子、核酸和化学修饰,但没有提供高通量测试和使用软件的方法。这不符合科学进步的原则,这些原则依赖于学界能够评估、使用和建立在现有工作之上。并且,这次合作的动态和目标有所变化。DeepMind与Alphabet旗下的药物开发公司Isomorphic Labs合作,而不是以前的公共资助的欧洲分子生物学实验室的欧洲生物信息学研究所。不公开完整代码的主要原因似乎与这些新的合作关系和商业利益有关。《自然》的政策旨在平衡开放科学与这些商业和实际考虑,尽管开放科学至关重要,但限制数据和代码也有合理理由,包括保护保密性、确保安全性和解决缺乏标准化数据报告基础设施的问题。标准的偏离
此次发布在几个方面偏离了科学界的标准。首先,缺乏可用代码损害了同行评审,这是科学出版的基石,也是期刊通常遵循的标准。福克斯查斯癌症中心的罗兰·邓布拉克作为审稿人,尽管多次请求,仍未能在审稿期间获得代码。其次,模型在托管网络服务器上的有限可用性,每天最多可进行十次预测,限制了科学家们验证研究发现或大规模应用预测的能力。特别是无法对类似化学探针和药物的新有机分子进行预测,这使得测试或使用该方法变得十分困难。最后,发布的伪代码需要数月的时间才能转化为可用代码,这浪费了宝贵的时间和资源。即使尝试这样的重现过程,受限的访问也引发了结果是否能完全验证的问题。科研成本和开放性
机器学习方法的计算成本对于学术机构来说变得越来越高,这使得许多计算研究和潜在的突破掌握在盈利公司手中。虽然公司有权利用他们的创新成果,但在无法重现结果的利用学术出版物为自己背书,这不仅违背了科学的基础原则,还破坏了科学事业。这篇AlphaFold3的发表所披露的信息适合在公司网站上公告(事实上,作者确实用公司网站预告了这些进展),但未能符合科学界对可用性、可扩展性和透明性的标准。
科学界的行动与未来
科学界的强烈反响促使DeepMind在5月13日宣布将在六个月内为学术用途提供AlphaFold3代码和模型。然而,研究人员已经在努力开发自己的开源版本,以确保不受限制,并推动科学的透明性和可重复性。加州大学旧金山分校的斯蒂芬妮·A·万科维奇等600多名科学家共同撰写了一封公开信,强调了开放代码对科学进步的重要性,并呼吁期刊严格执行其政策,确保科学研究的可重复性和透明性。总之,AlphaFold3的发布虽然引发了一些争议,但也激发了科学界对开放性和透明性的更高要求。这不仅有助于加速科学进步,也确保了研究成果能够被广泛应用和验证,从而推动人类健康和科学发现的共同进步。