中国科大校友专访：AlphaFold3开源是众望所归

教育 2024-11-20 10:01 上海

采访嘉宾自我介绍：

我叫王宗安，2008年到2012年在中科大读的本科，2012年到2020年在美国芝加哥大学深造，直到2020年初完成博士学位。回国之后在深圳的华大生命科学研究院担任工程师。在学校读书的时候，我的研究方向是蛋白质计算，工作之后继续在同一方向研究。

问题一：人工智能如何用来研究蛋白质？这项技术的发展历程是什么？

我们可以从两个方面来探讨，首先是人工智能，其实就是深度学习，属于机器学习的一个分类，其次是蛋白质研究，我们主要限定在蛋白质折叠方向的计算研究，具体来说，即通过计算手段来研究蛋白质折叠之后的最终结构，也就是生物学中很重要的蛋白质折叠问题，即蛋白质结构预测。同时也是今年获得诺贝尔化学奖表彰的一个方向，另一个设计表彰的方向就是蛋白质的计算设计。我本人其实更熟悉第一个方向。

其实用计算方法来解决蛋白质折叠问题的历史发展脉络相当清晰。1994年，由 John Moult 等几位科学家联合创办了蛋白质结构预测关键评估（Critical Assessment of Protein Structure Prediction）这一重要比赛，简称CASP。由学术界牵头，鼓励学术界和工业界开发计算工具，来预测蛋白质折叠的最终结构。这个比赛每两年举办一次，一直到今年，已经走过了整整30年，今年是第16届，下个月月底就可能出现今年比赛的结果了。而整个历程中的里程碑事件也很清楚：

2002年的第五届CASP出现了第一个重大的里程碑事件，首次使用同源模版构建蛋白质折叠结构。

第二个重大的里程碑事件出现在2012年的第10届CASP，同时也可以说从02年到12年这十年间的五届比赛，结果基本上都处于停滞状态，没有明显进步。但其实很多科学在早期的发展都相当缓慢。而到了2012年首次使用了接触图（contact map）来预测结构，取得了一定进展。

紧接着是2014年的第11届CASP，出现了多序列比对（MSA）技术，又过了两年到第12届CASP首次使用了残差网络，也是深度学习/人工智能首次亮相，并且取得了很好的结果。

在2018年第13届CASP上，第一代AlphaFold，也就是original AlphaFold 参与比赛，它所采用的技术路线依然是2016年的技术路线。

到了2020年，出现了第二代AlphaFold，即AlphaFold2，它和AlphaFold1可以说是两种截然不同的技术，第二代的创新性非常强大，所以今年的诺贝尔奖颁奖辞中明确指出，化学奖的一半是颁发给AlphaFold2。因为在不同语境之下，AlphaFold这个词可以指代一代、二代、甚至三代。但诺贝尔化学奖清楚表明是表彰AlphaFold2，AlphaFold2预测了几乎所有的已知蛋白质。

2020年11月30日当天晚上出了比赛结果，12月就相对外公布了AlphaFold，但文章和代码并没有同时公布。相关论文在2021年7月15日发表在《自然》（Nature）期刊上，因为AlphaFold所属的DeepMind公司在英国。也在同一天，大卫·贝克课题组的RoseTTAFold论文发表美国的《科学》（Science）期刊上。又过了一周，7月22日，AlphaFold的DeepMind公司公布了第一批在蛋白质组水平上的结构预测，总共35万个，包含了98.5%人源蛋白组的2万个结构，以及大概20种诸如斑马鱼、大肠杆菌等模式生物的全蛋白组的预测结构。这就是后来AlphaFold数据库的原型，在这个基础上他们的团队持续扩充，最终扩充到了2.14亿个，即全部人类已知的蛋白质序列。所谓的蛋白质序列就是直接通过蛋白质测序得到的序列。

问题二：John M. Jumper是一位怎样的科学家？共事时有什么经历？

我的博士课题的前一半就是他直接指导的，到了后半阶段，他就已经接近要离校了，我的博士研究是在他已有工作、他的博士论文的基础上做了一些延展。但我并不了解他作为一名老师是怎样的。我们学校要求所有人在第一年都要做助教，我当时并不知道他做助教的风格。

但后来几年与他共事之后，我觉得如果有问题，就可以直接问他。他给人的感觉是，如果提问的人很谦虚，是向他虚心求教，他平时就是很谦虚的人，此时他会表现得更加谦虚。但如果提问的人做出一副不屑一顾的态度，因为大家都认为自己很聪明，所以一旦有人抱着自己屈尊俯就的不屑态度去提问，他反而可能表现得很倨傲。实际上Jumper很乐于传授知识，但一般也不会主动跟学生去讨论问题。另一方面，他自己也很忙，绝大多数时间在家工作，照顾刚出生的两个孩子，每天大概来学校一个小时左右，是为了跟其他导师讨论，主要是跟年轻一些的导师交流。我们的导师Karl Freed年长很多，Jumper和我是Karl导师这一辈培养的最后两个博士了。另外一位是年轻的导师Tobin Sosnick，Jumper会和Tobin聊上一个多小时，结束后就离开了。

所以，如果有人有问题，得赶紧抓住他提问，他既不好为人师，另外也很忙，时间很有限。

问题三：毕业之后和Jumper还有联系吗？

很少了。在他获得诺贝尔奖之后我给他发了一封邮件，但我知道估计他的邮箱早已塞满了祝贺邮件，大概过了两周，他回复了邮件。而且我们，包括我们组内的师兄弟，毕业前后的最主要关系是关系很好的同事，不仅是中国人，美国人也是如此。同事之间私下并没有很多交往，在学校的时候，同事或者同组员关系融洽，但不代表私下也会玩到一起。平时科研时大家都很忙碌，也会花更多时间在研究上面，大家都很有边界感。

问题四：在公司和在学校的科研有什么不同？

我在博士毕业之后，在学校以博士后的身份多待了几个月，算作为缓冲期。所以在学校我作为员工的时间很短，作为学生的时间很长。

首先，这个比较可能不是很公平，因为学生有毕业压力，而员工是合同制，所以没有毕业压力。

其次，也有相同点。华大集团总共有一万一千人，而华大研究院是华大全资的一级子公司，主要以科研为主，在华大研究院的两千多人中有80%到90%的研究员，这点跟学校就很像。去年整个华大集团发表了382篇论文，大部分都是华大研究院作为第一作者单位或通讯作者单位发表的。而在CNS上，包括正刊和子刊发表了约30多篇论文。所以，华大在生命科学领域，是全世界所有同类公司中排名前十，根据自然指数（Nature Index），去年华大排名第八，而这前十名的公司中只有两家是非药企，华大便是其中之一，另一家是谷歌的母公司字母表（也是DeepMind的母公司），而剩下的八家都是诸如诺华、罗氏等药企。

而华大从生命科学研究的角度来说跟学校并没有太多差别，如果说有的话，首先可能是压力小，朝九晚六，也不加班。其次学术压力也相对小，在学校无论博后还是学生，学术环境竞争还是比较激烈的。另外，公司有相对丰厚的薪酬。以Jumper为例，他现在在美国即便在哈佛或者芝加哥大学担任化学系讲席教授，可能一年的薪酬约20多万美金，而在DeepMind一年的薪酬可能就高达500万甚至1000万美元，即便如此，这也不算夸张。

另外还有一个区别就是我们不一定要申请基金，尽管公司鼓励研究人员申请国自然、省自然或者市自然以及各类基金，我们每年都要写申请书，如果获得了基金，公司会有额外奖励，但如果没有申请上，也没有损失。

问题五：为什么选择将自己的研究完全开源？

首先在学术界，不是所有课题组会把自己写的软件开源，但我认为开源应该受到学术界鼓励甚至强制。有些课题组发表论文之后，也不想把自己的技术商业化，但处于竞争考虑，他们依然选择不开源。因为一旦开源，使用的团队数量增加，那么日后发表同类论文的难度也会增加，这种现象在芝加哥大学也有，业内非常顶尖的课题组为了规避竞争，会选择不开源。

其次，我们鼓励开源，因为开源之后，别人可以重复你的研究工作，在完全开源之后，你的所有研究都应当能够经得起他人的检验以及复现。

另外，鼓励开源让更多人使用，而且每个课题组的研究重心各不相同，那么他们就能帮助添加一些拓展功能，此外还有助于除漏洞。例如像大卫·贝克课题组发展的Rosetta软件，后来还发展成了Rosetta社区，已经运营超过20年了，全世界数十万人都在使用，其中绝大多数的功能相当于外部第三方用户自己添加的，大家一起来使用，添砖加瓦，共同促进了整个领域的繁荣。

我们还可以看到AlphaFold2的应用实例，它随着论文的发表同时也开源了自己的推理部分，虽然训练部分没开源。但开源了推理部分之后，大家都能使用。在论文发表的短短三年内，引用次数已经超过2.7万次，作为化学领域的论文，这个引用量非常庞大。其中一个原因就是开源之后，大家各种尝试，推动它的边界。就在它开源的最初一两个月，全世界的课题组都在做稀奇古怪的尝试，每个课题组的研究重心、研究方向都不一样，所以都在尝试AlphaFold能不能适合自己的研究体系，或者加一些魔改、或者做一些巧妙的改动。也就说，DeepMind可能自己无法测试到的边界，由全世界数以十万计的第三方用户们来共同测试完成。这也体现在诺贝尔奖的颁奖辞中：AlphaFold2已经被全世界190多个国家和地区，超过100万名科研工作者使用。

现在流行科学民主，Scientifi democracy，或者说科学可及性，科研曲高和寡固然好，但曲高和众更好。但今年五月发布的AlphaFold3却没有开源，因为发表在《自然》期刊上论文都规定要求开源，期刊也因此遭受了不少批评，所以迫于各种外界压力，团队承诺今年年底或明年年初会开源。但我们尚不清楚其开源形式，最值得期待的情况就是如同AlphaFold2一样，可以使用推理模型，而训练模型属于商业机密，很可能不会开源。而次好一些的情况是只开源推理代码，但不开放训练权重，没有参数就得要第三方自己去训练参数，这也是很有可能的，也符合学术规范。目前AlphaFold3论文的引用量只有三五百，这低于同期AlphaFold2的引用量，但实际上第三代更加强大，允许各种分子。引用量的减少可能与不开源相关，应为使用的人数量少了，它只提供了一个在线服务器，使用起来并不方便。而且功能也有所限制，在这样的情况下大家无法测试它的边界，去充分尝试自己感兴趣的课题。

问题六：未来人工智能还可能在哪些领域得到更好的应用？

我的个人感受是和蛋白质相关，和生物体相关的东西很多。但人工智能仍然需要大数据，但凡去折叠这个问题首先就得匹配相当大量的数据，需要积累足够多的结构数据。当年AlphaFold2通过不断积累获得了20万个结构，现在每年增加一万多个结构，从AlphaFold2出来的序列数据已经多达数亿条，已经是一个相当大的数据体量。

另外，蛋白质折叠问题从数学上来说属于定义良好（well defined）的问题，非常适合使用人工智能、深度学习来探索，因为应用数学中一个问题但凡能够良好定义，就适合人工智能去拓展。

问题七：如何评价像Foldit这种通过游戏进行科研的形式？

我在科大读本科的时候就安装过这个游戏，它出现得很早，软件体量很小，但打开玩了几分钟之后就再也没继续了。作为游戏，很可惜，它的可玩性不大，就是不好玩。

其次作为科研工具，它的用处也不大，实验科学家、计算科学家并不会把它真正应用到自己的实验课题中。虽然它的最终目标是蛋白质折叠后的结构，也属于结构预测工具，但可惜并没有应用到科研中。

我个人认为它的价值更多在于新闻和媒体价值。

另外一个是它会利用几十万人同时在线的计算机资源，可能我的认识不一定准确。我记得在安装之后，用户会给游戏一定的许可，即使在电脑休眠状态下，游戏也可以运用个人电脑的计算资源从后台统一来运算。这在计算机资源还比较紧张的当年，通过游戏方式让全民参与蛋白质折叠问题的研究。

问题八：平时如何在学习、工作中保持专注？

我当年在大学读书的时候，智能手机还没有普及，也没有电脑。主要就是对着书本和草稿纸，这样保持专注反而很容易，连走神分心的渠道都没有。

而现在智能手机放在身边，就很容易隔一段时间看一下朋友圈什么的，我觉得大家都是这样的工作状态。对我个人来说，要保持专注取决于工作内容是否重要、是否有趣。如果是的话，那我可能较长一段时间会专心致志地工作，不会去做其他事情，否则我也很难长时间保持工作状态。

另外，要保持精力的话锻炼身体是不错的选项，能精力充沛地投入工作。也可以借助咖啡、茶等外部刺激手段，都有助于保持专注。

问题九：有没有推荐的科普读物？

去年我读了一本关于科学和科学家的文学书籍，我个人觉得很好，书名叫做《当我不再理解世界》，由人民文学出版社翻译出版，智利作家撰写的科学小说，一共有四篇，基于真实的科学家，三个短篇和一个中篇，文风很像茨威格。但我认为要比《人类群星闪耀时》写得还好。

第一个故事的主人公是弗里兹·哈勃，第二个故事写了卡尔史瓦西，第三个故事写了两位数学家：望月新一和格罗滕迪克，最后一篇是三位物理学家：海森堡、德布罗意和薛定谔。

科学家是真实的人物，但故事则根据真实事件经作者演绎而成，不是真事。我感觉他写的这四篇故事是想表明，这些科学家的出发点是为了更深刻地理解我们这个世界，但最终却使得我们的世界变得更加难以理解，这样一段心路历程，写得非常好。

问题十：有什么科研建议和经验分享？

我很惭愧，我觉得本科学习其实没有什么必要的经验，因为本科学习难度并不大，对于中科大的师弟师妹来说都不会有什么问题。

但我科研做得很一般，没有什么特别值得分享的经验。一定要说的话，我觉得选择比努力更重要，对于低年级的同学们，如果将来致力于科研的话，那么请慎重地选择自己的科研方向、科研课题组以及科研学术机构，这比个人纯粹的努力更重要。因为选择之后的差距可能会非常大，科研作为事业的话，已经不再是单纯的一门学科和课程，涉及的还包括学习本身之外的其他问题。

由于微信公众号乱序推送，您可能不再能准时收到墨子沙龙的推送。为了不与小墨失散，请将“墨子沙龙”设为星标账号，以及常点文末右下角的“在看”。

转载微信原创文章，请在文章后留言；“转载说明”在后台回复“转载”可查看。为了提供更好的服务，“墨子沙龙”有工作人员就各种事宜进行专门答复：各新媒体平台的相关事宜，请联系微信号“mozi-meiti”；线下活动、线上直播相关事宜，请联系微信号“mozi-huodong”。

墨子是我国古代著名的思想家、科学家，其思想和成就是我国早期科学萌芽的体现。墨子沙龙的建立，旨在传承、发扬科学传统，倡导、弘扬科学精神，提升公民科学素养，建设崇尚科学的社会氛围。

墨子沙龙面向热爱科学、有探索精神和好奇心的普通公众，通过面对面的公众活动和多样化的新媒体平台，希望让大家了解到当下全球最尖端的科学进展、最先进的科学思想，探寻科学之秘，感受科学之美。

墨子沙龙由中国科学技术大学上海研究院及浦东新区南七量子科技交流中心主办，受到中国科大新创校友基金会、中国科学技术大学教育基金会、浦东新区科学技术协会、中国科学技术协会及浦东新区科技和经济委员会等支持。

关于“墨子沙龙”

http://mp.weixin.qq.com/s?__biz=MzI2NDIzMjYyMA==&mid=2247528323&idx=1&sn=6ff9f50b36737688067433e045e44e7e

墨子沙龙

墨子沙龙是中国科学技术大学上海研究院于2016年起举办的沙龙活动，主要以面向大众的自然科学科普为主，后期还将陆续添加人文、艺术、健康等主题的讲座或讨论内容。墨子沙龙每月一次，邀请国内外知名科学家为大家讲述科学的那些事儿。

最新文章

【直播预约】亿万年前，体型巨大的恐龙是如何飞向蓝天的？

诺贝尔物理学奖获得者如何用“千里眼”观测宇宙？

中国科大校友专访：AlphaFold3开源是众望所归

给猫猫建立运动方程，也能发论文？

量子优越性大比拼：量子计算机vs经典计算机，谁才是赢家？ | 十万个量子为什么（六）

量子有神功！量子计算机如何拥有巨大潜能？

深切缅怀赵凯华先生 | 赵凯华先生教学科研生涯回顾

人工智能未来会完全取代人类科学家吗？何川教授：目前还没看到这种可能性

一本优秀的“量子力学使用手册”：谈谈格里菲斯《量子力学概论》的优缺点

中国“居里夫人”何泽慧的科学救国之路 | 物理繁星闪耀时（六）

寻找超导量子比特信息丢失的原因

“天元”vs“悟空”：定住八十万原子，还得靠猴哥？

墨子沙龙招募！超多远程兼职岗位等你来

价值150万的太空船票开售，普通人上天的机会还有多远？

为特朗普当选“日掷千金”的马斯克，竟在量子领域早有布局？

人工智能喜提诺奖，科学是否已经Next Level了？| 活动回顾

量子计算何以修炼成计算界的“灌篮高手” ？| 十万个量子为什么（五）

地球有了“第二个月亮”？如何防止“小月亮”撞到地球？

诺奖物理学家眼中的世界，和我们的有什么不同？十个小故事带你了解“上帝粒子”发现者

从物理到智能：当诺奖得主遇上诺奖得主 | Wilczek's Multiverse (1)

两位诺奖得主恩师，被称为“孔子式物理学家”的吴大猷 | 物理繁星闪耀时（五）

为什么21世纪是生物的世纪？沃尔夫奖获得者何川揭示如何破解遗传密码

未经允许，千万别给科学家擦黑板！

“分子美食学”是伪科学？蛋黄酱：我不同意！

化合物质数量已超1.5亿个，留给人类创造的空间还有多大？| 活动回顾

从“量子”到“墨子”：小小卫星如何组成太空中的量子星座？ | 十万个量子为什么（四）

只要遇到一个红灯，就会一路红灯？真不是你运气太差！

【活动报名】神奇的遗传画笔，如何解开RNA甲基化领域的长期谜题？

核电站专家：如何在自己家里建造一座核反应堆？

诺奖得主精心总结获奖之道：遵循这十条“秘籍”，手把手教你拿诺奖

人类有可能炸掉月亮吗？需要多少颗核弹？

中国量子力学研究第一人，王守竞如何加入理论物理的“狂欢”？| 物理繁星闪耀时（四）

量子光学大家吴令安&汪凯戈专访：耄耋将军思千里，铿锵木兰阅九州

美国物理学会会士新增公布！中国科大周海东、陆朝阳两位校友当选

中国科学技术大学校长履新！他提出的“悟空”号实现了我国天文卫星零的突破

诺奖得主John Hopfield：从小动手实验使我真正感受到科学的魅力

2024诺贝尔化学奖公布，AI抢夺科学家的最重要荣誉

2024诺贝尔物理学奖揭晓！授予人工神经网络机器学习领域2位科学家

当年哈佛不要的人，刚刚获得2024年诺贝尔生理学或医学奖

最新诺奖预测出炉！你更看好哪位量子科学家?

2023年度墨子量子奖公布：两位欧洲学者因量子密钥分发早期实验获奖

国庆怎么请假最划算？？别管延迟退休了，你先看咋调休吧

二氧化碳的偶然量子共振特征，何以能对气候产生巨大影响？

一本核物理科普书插图，让年仅18岁的绘本大师初露锋芒

世界经济论坛报告：把握量子机遇，实现可持续的未来

海森堡：荒凉小岛上的闭关修炼，如何改变量子力学的未来

量子计算新突破：密码学迎来大考

获奖比例超过10%！诺贝尔物理学奖究竟颁给了哪些量子物理学家？ | 十万个量子为什么（三）

2024年度《国家科学评论》物理与信息科学前沿论坛 | 第二轮通知

为什么中文不需要空格

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉