随着人工智能(AI)技术的迅猛发展,AI在分子模拟领域的应用越来越受到关注。分子模拟作为研究分子结构、性质和动态行为的核心工具,对药物设计、材料科学等多个领域具有深远的影响。然而,传统的分子模拟方法在计算成本和模拟精度方面仍面临许多挑战。近年来,神经网络势(NNP)等AI技术的崛起,为分子模拟领域带来了新的突破,带来了更多的可能性。
为了帮助大家深入了解AI在分子模拟领域的最新进展,我将Corin和Ari Wagen两兄弟的播客访谈内容进行了中文编译。Corin和Ari是分子模拟公司Rowan的创始人,该公司致力于量子化学模拟,并且最近获得了Nat Friedman AI资助计划的支持。在这次访谈中,他们深入探讨了神经网络势(NNP)的工作原理、分子动力学(MD)的作用、计算化学在药物设计中的重要性以及分子模拟领域的未来发展趋势。
人物介绍:
主持人:Abhi(Abhishaike Mahajan) Abhi是一位对分子模拟和AI领域有着深入研究的科学家和作家。目前,他在Dyno Therapeutics担任ML工程师,专注于利用机器学习开发更优的基因治疗病毒载体。此前,他在Anthem.ai(现已更名为Carelon)担任ML科学家,主要从事临床信息学研究。
Corin Wagen: Corin是Rowan公司的创始人兼首席执行官,该公司致力于开发现代化学计算工具。他表示,Rowan的目标是为科学家们提供一种“不打扰”的分子模拟软件,帮助他们专注于研究本身。Corin拥有哈佛大学Jacobsen小组的研究背景,曾在2019至2023年期间专注于选择性有机催化反应的研究。其学术背景还包括在麻省理工学院的化学本科教育。
Ari Wagen: Ari是Rowan的联合创始人之一,负责产品和战略的制定。在Rowan,Ari的重点是通过机器学习加速分子模拟,并为化学家们提供更加高效的工具。此前,他曾在东北大学就读。
分子模拟和神经网络势的基础概念:
对于不太熟悉分子模拟或神经网络势的朋友,可以参考我以往的推文,这些内容介绍了分子模拟的基本概念和神经网络势的工作原理:
分子模拟基础::介绍了分子模拟的基本概念、方法以及应用。
神经网络势入门:详细解析了神经网络势的工作机制及其优势。
访谈内容:
以下是本次访谈的中文版文字稿,希望能够为大家带来一些启发和帮助。
Abhi(主持人)
大家好,今天我要和 Corin 以及 Ari Wagen 两位聊聊天,他们是既是量子化学模拟初创公司Rowan的联合创始人,同时也是两兄弟。
Corin Wagen
感谢您邀请我们!
Abhi(主持人)
好的,首先,为了给今天的播客定个基调,你能先给我一个关于分子动力学和神经网络势的高层次概述吗?
Corin Wagen
分子动力学是一种研究分子随时间演变的动力学特性的方法。
许多计算都是专注于对静态分子的研究,并提出相关问题。而分子动力学则更进一步,它允许我们对运动方程进行时间积分。打个比方,我们可以像制作视频一样,观察分子是如何运动的,并从中学习。至于神经网络势能,它是一种能够准确预测许多事物的技术,但对我们来说,最关键的是能够预测分子的能量和力。
因此,这让我们能够以远低于传统方法的成本,获得接近量子力学真实结果的精度。也正是因为这样,它成为了一种比传统力场更准确的替代方案。
Abhi(主持人)
几个月前,当我开始学习这个领域时,我立刻就有了一个问题,那就是经典力学和量子力学之间该如何去划分。我看过你之前写过一篇名为《原子模拟的两种文化》的帖子。我很好奇,你能为听众简单回顾一下吗?
Corin Wagen
简单来说,了解这个领域的历史背景是有用的。
计算化学这个领域大约有100年的历史了。早在海森堡的时代,人们还只能依靠纸和笔来对双原子分子进行基于经典力学的计算。但随着计算机的出现,尤其是在七十年代,这个领域开始朝着两个不同的方向发展。一些人想要扩大那些非常严格、基于物理的方法——量子力学——将其应用于越来越大的系统,一直到硬件的极限。
因此,这发展成为了量子化学,所以现在你可以模拟多达几百个原子的系统,并且有非常高的准确性,这些准确性是基于第一性原理并通过层层近似得到的。而这个领域的另一半人说,让我们模拟我们真正关心的东西,比如DNA、蛋白质以及这些复杂的生物系统。
所以我们以模拟需要多快的速度为出发点,来反向推导出一个足够快的理论。这本质上就是分子力学。所以早期的CHARMM和AMBER工作的本质就是使用多项式来拟合量子力学,而且,你知道的,这种方法的效果出奇地好。
比如,你可以用它来模拟蛋白质的运动,或者模拟抗体的运动,以及溶液结构在某些物质周围的变化。而我认为,这一切在70年代末到80年代初的时候就已经彻底改变了这个领域的发展。于是现在我们有了两种对立的范式:一种是所谓的经典分子动力学,更偏向生物模拟方面的研究,它可以用来模拟你关心的那些现象,但却往往得出错误的结果,因为理论本身是有缺陷的;另一种是量子力学的研究方向。
你能得到非常准确的结果,但这些结果往往与我们当前关心的问题关联不大。所以,我认为一个巨大的挑战是,50年后的今天,我们如何开始尝试去弥合这个差距,并对我们所关心的事物进行准确的模拟。现在看起来,我们或许第一次有机会能够去做到这一点了。
Abhi(主持人)
这就是神经网络势的最终目标啊,旨在实现一个理想的帕累托最优前沿,既能提供非常快速的计算,又能确保极高的准确性。
Corin Wagen
是的,我觉得你说得完全正确。很多人都有这样的目标。因此,量子计算领域的人们也常用类似的表述。我认为神经网络势就是其中之一。
目前看来,它无疑是最接近目标且最有前景的方法。这正是我们以及我认为大多数研究人员非常兴奋的地方。
Abhi(主持人)
Corin Wagen
我觉得吧,我们其实不太清楚。就像是,刚看到一些关于ESM2的可解释性研究成果出来了,然后他们用稀疏自动编码器来试着理解特征空间里的实际特征对应的是什么。
我觉得还没人在神经网络势方面做过类似的事呢,不过希望以后会有人做。我想啊,要理解这怎么就能行呢,比如说怎么就能把速度提高这么多呢?在生命科学领域,咱们关注的东西,哪怕只是地球上可能存在的分子,范围也比所有可能存在的分子的范围受限得多。所以量子力学简直太完美了。就像人们做基准测试,把随机元素放在空间的随机位置,然后根据量子力学方面的研究方法(相对于像非近似方法这种非常高级的方法)的表现来给这些方法打分。
这样你就能这么得到近似值了。这是一种盲目的基准测试。你可以说,我们在铍、氡、锝和氪这些元素方面表现不好也没关系,我们不需要擅长这些。要是我们只学习人体中的 15 种元素,而且是那些与大气层接触时不会马上爆炸的元素,那我们要学的化学知识就只是一小部分,这样就能让我们的模型朝着这个方向产生归纳性偏差了。
Abhi(主持人)
这里可没有免费的午餐。要知道,你可能会在某些奇怪的分布外空间失败,不过你能接受这一情况。
Corin Wagen
是的,我觉得吧,也许这个领域之前都没意识到,我也是开始涉足了才知道,就化学来说,原子组合各种各样,起始分布特别庞大,哪怕只是取其中的一小部分,都能涵盖我们可能关心的所有东西。
Abhi(主持人)
我还有一个问题是,AlphaFold2发布之后,你会看到不少论文宣称 AlphaFold2 在激酶或者球状蛋白这类奇怪的分支上失败了。每当这个领域一有一些很有趣的成果冒出来,马上就会出现大量悲观情绪,而这种悲观情绪到底是不是真的呢,谁也不清楚。
或许就是这样的,这种情况每次都会出现。你觉得对于机器学习力场来说,情况会是怎样的呢?
Ari Wagen
我觉得啊,人们所指的就是这些长程相互作用。
我这儿有一个带电粒子,它和另一个带电粒子相距20埃,可模型的截断半径是10埃呢,所以这两个粒子互相感知不到。就好像在模型返回的能量计算里,它们相距无穷远似的。然后你就会说,看,这些神经网络势没什么用啊。
我认为人们正在研究很多不同的电荷处理方案。但我想啊,每当人们有这种悲观情绪的时候,都得问问:你指出的这种情况是不是一种已知的失败案例呢?是不是我们打算建模的东西呢?这重要吗?我们需要补救吗?
我觉得在电荷处理方面,这仍然是个很开放的问题。
Corin Wagen
是的,我认为完全正确。而且我觉得弄清楚失败在多大程度上可预测或不可预测是非常重要的,对吧?因为如果知道是哪80%的情况,那么在80%的情况下有效的东西就非常有用。
所以,如果它对球状蛋白不好,你就可以不把它用于球状蛋白。如果存在这种随机的幻觉问题,我认为这将是一个更大的问题。我们已经注意到这一点,Ari在最先进的模型方面做的基准测试比我多得多。我们发现有些模型在结果验证方面表现很好,有些则表现很差,还有些是针对热化学的。
而且我认为我们已经非常习惯计算化学中的近似法了。我们凭直觉就能知道什么是好的,什么是不好的。而对于神经网络势,我们也需要建立完全相同的直觉,这需要时间、实践和努力。
Abhi(主持人)
正如Ari提到的那样,很多这种神经网络势主要基于对原子间短程相互作用的建模,而像静电作用这样的长程相互作用则交给遵循常规经典力学过程的纯物理方程来处理。单纯对短程相互作用建模,把所有物理相关的处理都推给长程相互作用时,这种做法何时会失败呢?这一点是否明确?还是说这也不清楚呢?
Corin Wagen
我觉得这是个特别大的开放性问题。同时也是该领域面临的最大的架构方面的谜题之一。
你会发现人们观点针锋相对、各执一词,但似乎个个都很聪明。所以有一部分研究表明,消息传递就足够了,扩大规模就能解决这个问题,只要进一步扩大规模就行。是的,在数据量极少的情况下,你无法学习长程(远距离)的东西,因为学习这些需要更多的数据,但只要将规模扩大10倍就没问题了。
还有一部分研究表明,完全抛弃物理知识太过了。我们应该重新引入简单的物理知识,这会使情况更加稳健、更加稳定。然后还有一部分研究表明,架构全错了,比如化学的局域性比我们认为的要小。
我们需要在粗粒度连接尺度上混合诸如描述符之类的东西。我认为在我们取得更大进步之前,从根本上讲,这个问题很难回答。就像我们需要通过实验来弄清楚这个问题。我觉得我们无法纸上谈兵式地去解决这个问题。
Abhi(主持人)
嗯,有道理。你个人有没有在打赌啊?
Corin Wagen
我可以说,我们这代人正在尝试“消息传递就是一切所需”这个理念,因为这也是Meta的FAIR - Chem团队做过的事情。有很多类似玩具模型的系统,你会发现它们可能存在问题,但是如果你坚持这么做的话,对于所有重要的事情似乎都没问题,而且你能发现有些情况下,人们试图加入更复杂的解决方案,结果却更糟。
所以现在看来,默认选项就是尝试构建一个常规的图,然后再看看。我想,一旦我们完成了当前模型的基准测试,不管怎样我们都会从中学到很多东西,也许还能对下一代(模型)进行更新。
Abhi(主持人)
有一件事,我经常看到,我想很多人也看到过,就是在这些大型通用模型中常常会出现一种涌现行为,比如说 GPT3 中的零样本语言能力,还有与生物学领域更相关的这个Alphafold2的蛋白质构象生成能力。
在神经网络势领域是否也存在类似的情况?
Corin Wagen
这些模型的一个不同之处在于,在某种程度上它们的生成能力并非超强。所以在最基本的用例中,你会获取一群原子,可能还有一些元数据,如电荷和自旋,然后得到能量以及能量的导数 —-力。所以这是一种非常受限的输出模式。就像你在做模拟,你不想被能量惊到,不想得到意想不到的能量。理想的情况是,你得到的能量与你依据其进行训练的参考级事物所得到的能量完全相同。
我认为非常有趣的地方,也是我认为可能会让我们感到惊讶的地方在于,有很多关于多头输出的研究,或者说模型内部发生了什么?我们能否将这些组合起来?我们能否把从这些非常庞大、非常精确的模拟方法中得到的权重和表征全部结合起来,然后用它们做一些意想不到的事情?这是个比较模糊的想法,不是一个具体的提议,但是大家知道,有人用语言转换器展示了这样的情况:你采用一个数学模型和一个日语模型,然后它就能用日语做数学题。那么在化学领域类似的情况会是怎样的呢?
那会是什么样儿啊?我不太确定,不过要是你能训练一个模型,让它总是能根据结构预测能量的话,那你可就学到了很基础的东西。从某种意义上说,这是化学里最基本的关系,而且这种关系似乎是可以迁移的。就好像有一定量的内在直觉就应该可以迁移到其他任务中去。
Abhi(主持人)
我不太确定我是不是读对了,不过好像有Unke的那篇论文,还有Tim的结晶研究呢。
我想啊,对于那些好像没看过蒂姆推文的人来说,他们观察到了成核、晶体,像是晶体成核现象,使用的是之前从未用于观察成核现象的神经网络势。而且我觉得在回复里好像有人相当明确地指出,成核现象本身在现实生活中不应该发生,但在完全没有结构的地方出现了结构,这一点很酷。
你觉得这也可能是一种涌现行为的例子吗?
Ari Wagen
真的酷毙了。我觉得,这件事有一点让我特别兴奋,就是可以训练一个模型,使其适用于多个相态,对吧?要是Tim用液态和固态晶体数据来训练那个模型的话,看起来这个模型是能够实现这些相态转变的。
这样就能看到一条通向原子模拟基础模型或者能处理电荷和相态之类的模型的路径了。而且,希望最终它能处理自由基和过渡金属。人们正在思考的问题之一就是,我们要如何扩展这些模型的适用范围,使其适用于各种化学物质。
我觉得这和如何扩展这些模型以用于大型系统是非常不同的研究问题。这两个都是非常有前景且有趣的研究问题。
Corin Wagen
我认为这也确实教给了你一些有关信息流动的非常基本的东西。即便你可能会说,在那些条件下溶解的盐不应该形成固态盐,而且这个事件的描述不太准确,但这表明对液体的训练能让你了解一些有关固体的知识。
我认为这真的很酷。因为这首先就是大型预训练模型的一个前提,对吧?这意味着当我们输入所有这些数据时,不知为何来自其他领域的数据会让我所在的领域变得更好。否则的话,为什么不为每个蛋白质或者每项任务单独训练一个模型呢?
为什么要训练一个大型语言模型呢?为什么不训练一个代码模型、一个数学模型和一个翻译模型呢?我们有这样一种想法,即在语言空间中,你能将语言作为一个统一的事物来更好地掌握。而且对数学的训练不知为何会让我的代码变得更好,即便这种影响不是那么直接。我认为我们在这里也能看到这一点。对一个物相的训练会让我的另一个物相变得更好。这里存在着信息传递,这真的很酷。
Abhi(主持人)
对于化学家来说,他们是会天真地把这种信息流纳入关于液体和固体的思维模型呢,还是会觉得这些领域是相互独立的呢?
Corin Wagen
哦,要是你觉得检查模型的内部状态很难的话,那化学家面临的情况可要难得多了。我觉得存在一种化学语言,就像从结构和绘图的角度去思考一样,而且这个领域好像有某种特有的本体论或者形而上学之类的东西。
我觉得这个在各个阶段之间转换得挺顺利的。
我认为这确实触及到插值和外推的本质了。
这可是个很基本的问题,不仅在化学领域,在其他领域也存在。我觉得康威生命游戏就是这样,有元胞自动机,每个元胞只了解相邻元胞的位置,但能构建出庞大的涌现系统,表现出复杂的图灵完备行为。
那么,这究竟是插值还是外推呢?你可以理解为,在规则的空间里我们是在进行插值,但在结果的空间里我们实际上是在做外推
Abhi(主持人)
是的
Corin Wagen
我认为这个类比在这里对我来说是合理的,因为事实表明,水的结晶似乎应是规则空间内的外推。
但从这个模型来看,它似乎是规则空间内的插值。而且规则比看上去更具根本性。似乎应该有一类不同的物理行为分别支配着溶解态氯化钠和固态氯化钠。但至少从表面上看,它似乎能很好地学习这两种情况。
所以我认为,这是一种保守看待神经网络势的方式,即假设在给定范围内只要有足够的数据,它们不但能很好地学习这些数据的规则,还能学习该领域内包含的化学知识。
然后你可以进行模拟,看看(它们)能达到何种程度,从某种意义上说,就是看看在输出空间中它实际能涵盖多大范围。
Abhi(主持人)
关于增强采样这个话题,我觉得涉及机器学习(ML)的论文相对较少。
而且增强采样似乎是那种非常神奇的领域,在涉足之前你就应该清楚自己该做什么。你是否看到机器学习介入到非物理性的事情中,比如修改系统以到达有趣的点呢?
Corin Wagen
我觉得,没错,百分之百是这样的。Hannes和Bowen已经在这方面做了些工作。我觉得,John Chodera好像就此事发过几次推文了。这肯定会发生的。我想这件事这么难做好是因为,若要生成步骤,就需要生成一个与玻尔兹曼分布相符的分布。
不然的话,你得到的所有结合亲和力积分或者其他任何性质的积分都是错的。要是你能想象出很多增强采样的方法,在这些方法里只是把东西打乱,就像网格搜索那样,不过这些方法得不出正确答案。你需要它,从统计力学的角度来说,就是需要正确的玻尔兹曼接受准则。
而且让机器学习严格重现正确的物理极限是很难的,要么能做到,要么做不到。所以,必须得有个办法能把其他方案中所具备的可验证正确性融入其中去。
Abhi(主持人)
我发现小分子、蛋白质和材料的神经网络势之间有很大差别。
这些领域之间为啥有这么大差异呢?是规模扩大带来的限制吗?或者不同领域得做出不同的归纳偏置,又或者是存在更多文化方面的差异吗?
Ari Wagen
我认为这主要是该领域所处时代的产物。神经网络,尤其是深度神经网络,还相对年轻。
最初,很多研究重点在语言而非图像方面。现在,我们开始看到有人在为图神经网络构建几何库。所以,我们所看到的是人们最初选择关注的问题所导致的结果。这些模型还没有经历很多迭代周期。
人们最多推出了大概五代模型,也许更多。不过,如果你涉足一个问题领域,例如你是一名材料研究人员并打算构建一个材料模型。你尝试构建一个材料模型然后将其推出,之后开始在各种事物上对其进行测试并思考如何改进它。
可能在你弄清楚自己真正关心的领域之前,你不会大力地扩展研究范围。在早期计算化学和神经网络势空间中,我们看到一些人关心快速扩展规模,他们正在试图弄清楚如何将这些应用于蛋白质研究。
有些人可能关心材料发现和性能预测,还有些人关心精确重现密度泛函理论(DFT)的结果以取代量子化学。我认为我们Rowan的期望是,从能够取代量子化学(如DFT方法)开始。
一旦我们做到了并且感到满意,我们就会开始应对这些规模上的挑战。所以,我认为你会看到很多人确实开始研究这些原子模拟的基础模型了。只是我觉得现在还为时尚早。
Corin Wagen
这有点像电视刚出现时的情况,人们把新媒介套用在他们最熟悉的旧媒介上。最初,他们几乎不做任何改动,直接将戏剧拍摄成影片。然后,过了一段时间人们才意识到,可以通过使用戏剧性的变焦,比如不需要那么夸张的表情,可以添加特效等手段来增强表现力。是的,我想这就像是在新技术推出时,你对当时认为最紧迫的问题的一个快照。然后,从这一点开始不断迭代改进。
Abhi(主持人)
首先稍微回顾一下最初训练神经网络势的想法,整个概念为:通常采用密度泛函理论轨迹,获取其中的力和能量,然后训练一个模型来模拟这些,而非依赖物理方程本身。
Corin Wagen
是的,因为现在的模拟结果并不准确,所以总是存在很大的差距。就拿水来说,就算是最好的周期性密度泛函理论(DFT)模拟(也许还不是最好的),比如PBE水模拟,通常在常温下就像是固体。如果你看到一个PBE水模拟,通常它需要被加热到大约80度左右,因为这样水才能保持液态。
而且,我认为……
Abhi(主持人)
所以我们无法模拟水的沸点吗?
Corin Wagen
你可以证明,若采用足够多的近似值(过去几年已有若干相关论文),情况会有所改善。但沸点实际上相当棘手,因为涉及众多分子,存在固 - 气或者液 - 气界面,这是一种由能量上微小误差所导致的高度涌现性的特性。而且,我认为很多从事模拟研究的人员(至少我们)有一种直觉(无需代表整个领域发言),即我们能从微观层面看到自身的错误之处。
因此,我们能够进行超高层次的量子计算,运行通常用于生产的计算内容,从而看到我们的错误所在以及错误程度。我们可以进行比较,进而从宏观层面看到我们的预测并不准确。我们深信,利用神经网络势能够修正微观层面的预测。
与其他人一样,我们正在进行的实验是:这能否修正宏观层面的预测?这非常合乎逻辑。答案应该是肯定的,但实际并非如此,这绝不是必然的。
Abhi(主持人)
有没有类似的假设来解释为什么情况可能并非如此?
Corin Wagen
这在某种程度上与以下情况类似:
你可以想象有很多原因可能导致这个说法不成立。因此,密度泛函理论以及大多数量子化学理论都忽略的一个方面就是核量子效应。
就像氢隧穿什么的。我觉得大多数人的直觉是,除了那些挺受限的酶促反应过程,这不是啥特别大的事儿。你知道吧,这可能对水里质子转移的动力学有点影响,但是咱都知道,你可以用氘把血液里大部分氢给换掉,量还挺惊人的,可这对你也没多大影响。
所以呢,好像生物模型不应该对氢原子转移的精确动力学特别敏感,不过也许这想法不对,也许对于一个整个泡在水里的蛋白质来说,在这些事儿上哪怕差一点点都影响很大呢。
是的,我也不确定。
Abhi(主持人)
说到水的沸点这个话题,你觉得最近这方面的情况怎么样?我们无法测量一个足够大的系统,或者是否存在一些小的问题,我们是否需要比密度泛函理论更深入才能真正对水的沸点进行建模呢?
Corin Wagen
我们进行密度泛函理论(DFT)计算实际上有两种方法,但我认为这一点并未得到足够重视。这两种方法分别针对分子体系和周期性体系。我们试图描述体系的电子密度和电子结构。对于孤立的分子而言,这意味着采用基函数,例如以原子为中心的方式来描述密度。
而对于周期性体系(其体系实际上是无限的,如一块金属板或者一盒水分子),这种方式效果欠佳。因此,人们经常采用平面波方法,即使用傅里叶基来描述电子密度。而且后续还有很多操作需要去做。
因此,在密度泛函理论中有许多近似处理,这些近似处理在分子体系和周期性体系的密度泛函理论中的最终结果有所不同。我认为其中一个结果是,分子密度泛函理论中很多能对照超高精度计算进行严格验证的最精确方法,在周期性密度泛函理论中并不存在。
而且很多高精度计算在周期性密度泛函理论中也不存在。所以对于泛函来说,例如,无法很好地进行电子交换(如量子交换),而这对很多事情来说相当重要。我们知道,当在分子体系上运行这些泛函时,可以进行基准测试,例如,水分子之间的结合力会多出 20% 左右。不过,我不太确定(在周期性体系中会怎样)。
所以,当你处理周期性体系时,可能会想当然地认为情况差不多,比如结合力多了 20% 或者 40%,这就会使总体沸点产生很大的偏差。
Abhi(主持人)
如果我们想更准确,更缓慢地进行,采用耦合簇(理论)的话,那么我们能否对沸腾现象进行建模呢?
或者即便如此,是否还是会有潜在的问题开始显现呢?
Corin Wagen
我也这么想。我觉得没错。所以人们已经能够精准把握了。我或许能找到这方面的参考资料呢,你用一种技术确实能达到正确的沸点。所以,看起来这里并没有我们根本不了解的重大问题。
我觉得这恰恰表明,在生命科学领域,密度泛函理论被视为一种从头算(ab initio)的高精度方法。但在高精度模拟领域,密度泛函理论实际上就像是平民化的(方法),就像是失败者才用的蹩脚玩意儿。那些人都在研究这些超轨道优化的波函数方法,这些方法只能用于12个原子,从理论角度来看,他们是完全正确的。我觉得这恰恰表明,解决电子结构问题真的很难,你知道,其精确解是n的阶乘量级的(计算复杂度),这很糟糕。是的,就像三体问题一样,但更糟糕的是所有这些量子空间贯穿(相互作用)的东西,有数百个电子,真的很难。
Abhi(主持人)
是否有论文表明,现在每个使用密度泛函理论(DFT)来处理训练数据的人,关心的可能是潜在的更高质量的数据而非数据规模呢?你能想象在 5 年、10 年后,人们会超越密度泛函理论,去追求更高的准确性,还是说密度泛函理论对很多事情来说确实已经足够了呢
Ari Wagen
我不太清楚。这里要讲的一个有趣的模型是在耦合簇数据集上微调过的ANI模型。它在如今针对耦合簇数据的基准测试中表现出奇地好。所以我觉得我们可能会看到有人试图复现它。但我首先敢打赌的一件事是,人们将会抛弃周期性密度泛函理论(DFT)来生成训练数据。
因为最好的方法,或者说最好的DFT方法只在分子体系中得到应用。所以我认为一个挑战在于弄清楚,我能否训练一个模型,一个神经网络势,使其能用于周期性体系,但这个模型只在分子体系上接受过训练。
我认为这是个大问题,但如果你能让它起作用,那么从理论上讲,你就能够对周期性体系进行建模,其精度会高于任何已应用于周期性体系的DFT泛函所能达到的精度。
Abhi(主持人)
你觉得会看到这样一种模式吗?就是人们一开始处理的数据规模比较粗糙(宽泛),然后逐步提升,从而得到规模更小(也就是n值更低)但质量更高的数据。你觉得这会是未来的走向吗?
Corin Wagen
我觉得没错。咱们在这儿正努力解决这么棘手的问题呢,模拟这事儿确实很难做好。
我觉得能获取到的每个信息来源都很有价值。所以呢,也许在较低的理论层面上对很多东西进行预训练,用来初始化权重和偏差,这可能是个不错的做法。人们把去噪当作一项辅助任务,FAIR - Chem(Facebook(Meta)人工智能研究 - 化学)已经这么做了,看起来效果还不错。
混合不同的层级,像多保真度学习这种(在可行的情况下)就很不错,甚至还能加入实验数据呢。就像晶体结构,我们知道受力为零,这看起来挺好的。嗯,我想啊,我不太清楚这些东西各自能起多大作用,不过我觉得,更多解决问题的工具、更多真相来源的任何组合都是非常非常有价值的。
而且啊,人们甚至会这么做,你知道吗,你可以对整个模拟过程进行反向传播。比如说,如果你有一个实验得到的互变异构体比率,你就可以通过模拟进行反向传播,然后像在所有分子动力学步骤中那样进行训练,从而得到正确答案。
Abhi(主持人)
给出一个最终的状态
Corin Wagen
是的,给定一个最终的状态。或者像是一种不同的能量。问题在于,你会遇到维度方面的问题,因为你只有一个东西,而在很多状态下却只有一个实验结果。这似乎不足以从头去构建一个完整的模型。
Abhi(主持人)
这好像是个很典型的现实问题,就像是你只有一个最终奖励,再没别的了。
Corin Wagen
嗯,它的步数比国际象棋的步数还多呢,所以这很难
Abhi(主持人)
嗯,这是说得通的。
我想啊,就像我刚进入这个领域时的那种怀疑,就是,很明显人们可能会把这些计算机模拟的密度泛函理论(DFT)测量用于很多方面,但肯定也有某种物理测量方法也在被考虑。
我原以为会是核磁共振(NMR)成像呢,因为感觉这是唯一能实际测量分子动态运动的方法。但我好像从来没在论文里看到过它被实际使用。这是有什么原因吗?
Corin Wagen
核磁共振(NMR)的时间尺度很长,虽然可以尝试观测快速过程,但由于自旋态的寿命很长,因此能观测到的大概是微秒级别的过程。
如果存在两种不同的物质,就可以看到它们,并且可以进行脉冲操作来观测动力学过程,但这些物质必须具有较长的寿命。如果思考一下微秒的概念,就会知道它是10的 -6次方秒,对吧?而模拟步骤通常的时间尺度是10的 -15次方秒。
所以,仍然存在9个数量级的差距,就像是在底部还有很大的空间。是的。我认为,可以采用更快的光谱学方法,例如多维红外光谱法,这种方法能把(时间尺度)降到大约10的 -11次方秒。所以这就接近多了。
键振动的时间尺度与这个(10的 -11次方秒)更接近,所以这是有帮助的,但话说回来,这也很困难。例如,不能通过二维红外(光谱)绘制出蛋白质或者生物分子的样子以及它是如何运动的。但是你可以探测非常特定的东西,比如复合物的寿命,但我觉得,数据的价值以及每次测量获取的难度使得这一切变得很艰难。
而晶体学虽然总是被我们抱怨,但实际上运行得很好。例如,机器人可以查看晶体盘,能够得到很多晶体结构。而且很多这些更高级的光谱学方法需要耗费研究生数年的时间,显然这是一种昂贵的成本。
Abhi(主持人)
就拿 X 射线晶体学来说,我很惊讶它竟然能让人有动态感。
你是说它能给你一种动态的感觉,还是与动态相关的东西感觉呢?
Corin Wagen
Abhi(主持人)
所以这就像是一个零能量的东西。
Corin Wagen
嗯,零力,零力。这能让你有所收获,就像是某种有用的实验事实。就像是这个东西,不管它是什么,像是一个局部最小值。我觉得你不能据此推断出整个关系。
但如果我这么做的话,它显然在告诉你一些事情,然后有些事情是实验性的,应该很有用。
Abhi(主持人)
这个事实在这些神经网络势的论文中有被使用吗?就像是作为一个可能的最终状态。
Corin Wagen
你能想到有什么(用法)吗?我没见过有人用,但感觉最终应该会有的。
Ari Wagen
嗯。我没见过多少论文试图去拟合实验测量数据。看起来,应该能把它们作为任务添加进去,因为它们也在基准测试里,而好的基准测试是是基于实验数据的。特别是在进行基准测试时,对于这些周期性神经网络势,很多基准测试都是关于实验特性的。
我对这个领域的期望是,在构建这些模型时,如果可以的话,我们先从较小系统的特性开始进行基准测试和训练,然后逐步涉及到诸如体相和较大分子的特性。
Abhi(主持人)
你认为使用这类现实生活中的数据集是不是更难获取的成果呢?在我们真正加快计算机模拟测量之前,似乎不值得去涉足。
Corin Wagen
感觉现在有不少我们显然能做的事。而且我觉得这取决于实验数据最终有多关键。因为我想,到目前为止,我们对当前的技术水平可能持相当悲观的看法。但是,像薛定谔公司的的结合亲和力预测和分子对接这些技术。
虽然,它们并不完美,但确实有用,这显然就能提供价值。值得一提的是这是一家非常了不起的大公司,因为大家都在用他们的软件。而且你可以说,看起来效果相当不错。是的,确切的数值有偏差,R 平方(相关系数)不太理想,水的沸点(之类的情况),诸如此类,有些蛋白质需要(设定)限制条件。
但也不是完全没用。你可以说,看,通过基于密度泛函理论(DFT)进行训练,我们能让所有的作用力(计算)更精确。我们可以进行高质量的密度泛函理论计算,这似乎是经过验证的非常好的数据。也许这就足够了,也许它不能让你的相关系数 R 平方达到 1.000,但也不需要那样,也许实际上它能让你达到 90%、95% 的程度,而且不需要太多的实验数据来修正(这个结果)。我想我们还没有充分尝试这种显而易见的策略,所以还不能确定它会失败。所以我觉得,还没做这件事就去追求更高的目标,这是本末倒置的。
Abhi(主持人)
嗯,有道理。毕竟要投入数百万美元来实现更好的结晶以及更好的电子探测器呢。
Corin Wagen
计算数据这东西啊,没错,运行电脑是得花钱的。不过呢,你只要一点击运行,就能获取你的亚马逊云服务(AWS)积分,然后就万事大吉了。
Abhi(主持人)
我很好奇,在实践过程中神经网络势是如何进行基准测试的?
你之前有没有稍微提到过这个(问题)呢?比如你有这样一个潜在的最终状态,我们可以通过它进行反向传播。而神经网络势的目标之一是重现那个最终状态吗?还是说会希望它也能沿着轨迹运行,并且与密度泛函理论(DFT)得出的轨迹完全匹配呢?
Ari Wagen
Abhi(主持人)
所谓的稳定性,是说原子保持在原来的位置呢,还是说不会产生爆炸力呢?这儿稳定性的衡量标准是啥呢?我还真不知道这是咋实现的。
Corin Wagen
从定性的角度而言,早期的神经网络势在与训练集相似的情况中往往表现良好。但在进行分子动力学(MD)模拟时,它们会偏离数据分布,进而开始返回随机数。并且,从物理意义上来说,模拟会崩溃,就像是计算机中发生了剧烈故障一般。
所以人们已经制定了一些标准,其中一个标准就是,嗯,要确保不会出现那种情况。显然,这是很粗糙的做法。
Ari Wagen
在很多论文里,我们运行某个系统后,会得到这样的结果:一个势能面和另一个势能面并列呈现。
他们不会给你类似基准数值的东西,就只是两张并排的图。然后你会看到有些波谷和波峰,而有些则错得离谱。我觉得像这样更多的基准测试的话,我们能否重现势能面呢?也许不能重现精确的轨迹,不过要是能重现的话,那就太酷了。
我觉得至少分子动力学(MD)在室温或者更高温度下是非常混乱的。所以我想我更感兴趣的是,嘿,我们能否精确地重现势能面呢?如果可以的话,那就为各个系统设定一个很好的基准。我认为这会是一个非常有趣且有用的基准
Abhi(主持人)
我记得上大学的时候特别痴迷计算机视觉,当时有个梗是说人们在计算机视觉常用的CIFAR - 10基准测试上提高了0.01%。在分子动力学的基准测试里是不是也有类似的情况呢?就是人们在一些简单问题上表现很好,但这种成果其实没多大意义。
Corin Wagen
我认为基准测试经历了不同的阶段。
比如QM9是一个重要的基准,它包含了九原子分子和一系列不同的性质,曾经在过去广泛使用。我觉得人们已经意识到,或者说可能是人们做得太好了,或者它最终并没有变得特别有用。偶尔还是会看到它,但我觉得那只是早期阶段的产物。
目前我认为还没有一个统一的基准测试体系。虽然现在有一些机器学习的基准测试,但整体来说还没有一个标准化的框架。也许你(Ari)是更合适的人来讨论这个问题,因为你在这个领域的经验更丰富。
Ari Wagen
我觉得对于分子神经网络势,在基准测试方面还有很多初步的工作要做。这是我空闲时想填补的空白。
是的。对于研究材料的周期性模型来说,材料项目(Materials Project)在构建数据集和进行基准测试方面已经做得很不错了。所以,在MatBench发现排行榜上,有人发布消息称OrbV2击败了MatBench Discovery,然后几天后,来自FAIR - Chem的Open Materials 2024又略微超过了OrbV2。
他们说他们的模型在MatBench发现排行榜上名列前茅。我觉得有一件事我还没看到,那就是在MatBench发现排行榜上名列前茅的模型是否会以某种方式转化为股东价值呢?我想,目前还不能确定,我们拭目以待。但我认为我们应该试图弄清楚,需要哪些基准测试才能真正知道,这个东西对发现是否有用或者重要?
而且我认为,至少MatBench Discovery就是为了做到这一点而进行的一种尝试。
Abhi(主持人)
你能否解释一下 MatBench 是什么?
Ari Wagen
好啊,这是针对周期性系统的一系列基准测试呢。网站上有个很棒的表格,行里展示着不同的模型,这些基准测试的问题包括像“能否正确预测系统能量”“能否重现作用力”之类的。
他们最近添加了首个与分子动力学(MD)相关的,也就是关于热力学稳定性的基准测试。然后呢,他们有一种方法,可以通过对其他基准测试进行加权平均来计算模型的总分,这样就能对模型进行排序了,而且他们还有一些模型必须满足的合规性标准。
我不太清楚这些合规性标准具体是什么。不过呢,这只是一系列相当标准的基准测试,但这至少能让我们在有人发表新论文时,知道这篇论文跟这个领域之前发表的论文相比是好是坏。
Abhi(主持人)
关于这些模型实际产生股东价值这一话题,你可能已经提出过这一观点,即许多分子系统正在研究微观特性,希望能转化为宏观特性。是否存在(这样的情况呢)?令我惊讶的是,至少我还没有看到任何有关神经网络势的论文试图探究我是否在重现宏观特性这一问题
那么,有这样的研究吗?
Corin Wagen
我觉得是有这些论文的。有一些剑桥的人做了很棒的工作,基本上表明你能很好地得到水合自由能之类的结果。就比如这个分子被水溶剂化的程度有多强,你可以用大概一年前出现的一种很好的神经网络势很好地了解这一点。
我觉得这相当了不起。如果细节正确,结果也会正确。看到这个我真的很兴奋。我认为人们正在研究它与结合亲和力的关系,比如大的自由能微扰,像蛋白质 - 配体相互作用这类问题。之类问题最终在于速度仍然太慢了。
所以你必须采用各种近似方法,比如末态校正。目前还不完全清楚现有的模型是否能够非常精确地描述蛋白质 - 配体相互作用。所以有很多不确定因素,我认为总体结果还不明确。
Exscienta最近有一篇论文,基本上认为神经网络势能并没有更好。效果与只是重新拟合小分子力场中的扭转角的情况差不多。我认为这个领域面临的挑战之一是,你所提出的问题—宏观基准测试,比如,我们如何检验我们在关心的事情上做得更好,这些问题是正确的问题,对吧?
我认为这是非常合乎逻辑的问题。我们正在重建传统的药物和材料科学技术体系,不是从头开始,而是必须把各个部分移植过来。这就像把东西移植到CUDA(平台)。就像你需要一切都能正常运作。而我们在过去几年里,作为一个社区,还是在疯狂地构建基础设施,像是,怎么真正运行自由能Perturbation(FEP)之类的。
比如,我们如何得到像这些蛋白质的预测结果,像熔解温度、螺旋度,所有这些东西。比如,我们如何用自己的神经网络势来做这些?我们如何进行扩展?我认为有很多这类实际工作将要做并且正在积极开展。但我觉得这还处于非常早期的阶段,因为今年有两篇论文表明你可以将神经网络势(NNPs)用于完整的蛋白质,而且它们算是真正以有用的方式做到这一点的最早的两篇论文中的两篇。
所以我认为,现在还为时过早。
Abhi(主持人)
我觉得,在我研究这个领域的过程中发现了一个有趣的点,那就是关于动力学是否有用存在分歧,而你可能只想对可能的动态状态分布进行抽样。
Corin Wagen
当需要时序信息时,动力学显然是有用的,这或许是个显而易见的观点,但仍值得一提。如果我有某种激酶,它具有开环和闭环构象,若我想研究从开环到闭环需要多长时间,也就是其动力学情况如何,那么我确实需要用到动力学,因为这是一个与时间相关的动力学问题。
我认为,人们经常使用分子动力学并非是因为他们关心系统随时间的演化,而是更多地因为他们只是想要一种有效的方法来对不同状态进行采样。所以你试图运用一些统计力学方法,比如求平均值,并且想要得到各态历经性,也就是某种无偏采样,而分子动力学(MD)正是实现这一目的的一种非常有效的方法。
但在这种情况下,你可能会认为存在比分子动力学有效得多的采样方法,因为分子动力学的时间步长显然相互之间关联性很强,所以每个帧所含的信息量相当低。
Abhi(主持人)
我觉得尤其是很多纯计算机器学习方面的人对分子动力学这个领域非常悲观。在他们看来,他们可以用AlphaFold进行构象采样。AlphaFold似乎也有一种与分子动力学相当的灵活性。
你可以用DiffDock做对接之类的操作。我想在某些方面,分子动力学确实已经被机器学习的能力超越了,但我也相当乐观地认为,肯定有一些方面分子动力学仍然很重要,并且在未来也将继续保持其重要性。
我很想听听你对这种情况的看法。
Ari Wagen
我认为有必要指出一点,如今的分子动力学(MD)依赖于力场,而力场是量子化学的多项式近似。因此,人们所理解的分子动力学与对神经网络势分子动力学的期望有很大区别。
因此如今的分子动力学在某些任务中是有用的,例如自由能微扰,它能产生结合亲和力。在我看来,这一方法比分子对接要好得多,不过它耗时更多,而且也存在失败的情况。退一步讲,进行计算或模拟最直观的方式就是模拟实际发生的情况。
这种情况非常微观而且发生得很快,当我们服药时,体内的蛋白质和小分子药物确实在四处移动。它们随着时间的推移不断变化、相互作用,我认为如实模拟这种情况总是有用的。
Abhi(主持人)
我感觉自己确实有一种本能的冲动,想要忠实地对实际正在发生的事情进行建模。我很好奇,你觉得神经网络的未来会怎样?不过呢,我们现在还没有认识到神经网络潜力的价值,因为目前分子动力学(MD)的状况实在是很糟糕,好像根本没法用来做什么有用的事儿。
你能想象得到,当神经网络势(NNP)真的变得快速、可靠并且能够扩大规模的时候,是不是就会产生新的应用案例呢?
Corin Wagen
是的,我认为存在一些用例可以用于建模。举个简单的例子,共价反应性,对吧?比如对共价对接以及共价酶的反应性进行建模。通常,力场无法对反应进行建模,量子化学无法对大型系统进行建模。共价抑制剂是与大型系统发生反应的活性物质,所以就目前最先进的方法而言,这是相当棘手的问题。有各种各样的方法可以绕开这个问题,但效果都不是特别好。这正是一个值得投入研究的领域,因为如果真的能够成功模拟共价抑制剂的作用,那将是非常了不起的成就。
如今它们被广泛使用。你可以查看 KRas 相关的研究工作。能够对共价抑制进行实际建模似乎非常重要。而且我也认为,就像Ari之前所说的那样,存在一种直觉,如果你希望你的 DiffDock 之类的东西要足够精确,要获得超级有用的精确度,你就必须以某种方式隐式地学习化学知识,因为我们知道,结合一个带有羟基的分子,和结合一个具有更强氢键供体基团或者更弱氢键受体或者不同的高堆积倾向的分子是不一样的。
这些显然都很重要。所以也许你可以通过某种隐式的迂回方式,利用标记化语言模型来学习所有这些知识。比如你输入你的 ESM2,再输入你的标记器,就像最近的QuickBind论文那样,你在那里学习某种相互作用矩阵。
但似乎你只是在以一种有点奇怪的方式重新发明你希望神经网络势能去做的事情,就好像你为了得到你想要的任何精确度,在某种程度上,这些都是人们真正关心的修饰类型以及构效关系,而且至少在小分子领域,似乎你需要了解化学知识,也许最简洁的方法似乎就是教给模型化学知识然后对这个过程进行建模。
而且,也许会发现存在某种 DNA 编码文库的方法来处理所有这些问题,但在我看来,这种可能性似乎比较小。
Abhi(主持人)
是的。我觉得这实际上是阐述整个问题的一种非常有趣的方式。双方都没有暗中发现有关这个系统的秘密知识。
系统就是系统本身。你不妨拟合和模拟系统内部实际发生的情况,而不是只关注静态结构并寄希望于偶然发现正在发生的事情。
Corin Wagen
嗯,我觉得这也是个特定的问题。所以有些情况下,有一些你需要知道的隐秘知识。
就比如说,你之前写过有关毒性预测的内容。那种情况就是,你不是在模拟十年后的肝脏,不会有那种不会有肝脏的原子对原子的映射之类的东西。然后你把分子画进去,就这么摆弄摆弄,看看会发生什么。
就有些情况,你像是在摸索某个庞然大物之类的东西,试图找出有用的模式。我觉得这是很不一样的情况,但是,对于一些特定的、极其重要的问题,比如将两个已知的东西结合起来,我们知道这种结合非常关键的。
我们也知道做不到,从某种意义上讲,这是个直接模拟的问题。
Abhi(主持人)
关于肝脏物理建模这个话题,你难道不觉得,咱们最终能搞出那种超精细的模型,就像那种能理解正在发生的多体问题的模型吗?
然后呢,咱们能模拟像整个细胞、整个器官这样的东西。在接下来的 10 年里,这到底有没有真正实现的可能呢?还是说在很大程度上这仅仅是科幻领域的东西啊?
Corin Wagen
10年感觉是个非常宏大的目标。我觉得化学是认识世界的一种方式。药物化学家喜欢从原子的角度思考。比如,在一场讲座里,你能看到药物化学家看到满是组织学内容的幻灯片时一脸厌烦,但一看到分子结构就精神一振,这就是药物化学家的一种表现型。我不知道这是不是解决所有问题的正确方式。我觉得有很多问题,这很有趣,但也许对于某些高阶问题,表现型的方法会更好。
我觉得你提到的递归方法也是一个很有意思的思路。这种对细胞进行粗粒化处理的方式是一种粗略的说法。我觉得,即使是像抗体这样的系统,我也确信,如果我们能做一个原子级别的抗体模型,肯定能做出一些非常有用的工作。
我相信我们会有惊人的发现,但也可能我们有太多的归纳性偏好,有太多关于抗体的进化信息,所以进行严格的原子模拟并非极其关键,就像我们现有的模型会更有效一样。
我认为小分子是一个不受限的设计空间。你实际上是在定位每个原子,这就意味着需要更接近物理学的基础,而这是无法避免的。我认为,越是走向原子级别的模拟,这个观点就越加成立,尤其是在像非标准氨基酸这样的方向上。
Abhi(主持人)
溶剂效应是许多纯机器学习模型完全忽略的一个因素。这些模型假装溶剂效应根本不存在,不把它当作一个需要考虑的因素。
在处理这些结构时,不同的溶剂效应有多重要呢?DiffDock 所学习到的通用溶剂对很多情况来说足够吗?还是说体内实际上存在各种各样的溶剂呢?
Corin Wagen
我觉得吧,大概来说,pH值为7.4且有一些电解质的水,在蛋白质和配体这个尺度上,是个不错的替代物呢。我想,很明显的是,对于细胞膜来说,会有不符合这个规则的情况。在细胞这个尺度上,就不是pH值为7.4的水了,这我们都知道。不过在单个蛋白质及其紧邻物质这个尺度上,我觉得这是个相当不错的模型。我觉得溶剂效应变得极其重要的情况是在反应活性方面,比如结晶过程之类的情况。而且在材料科学领域也是如此,当你在更加多样化的环境里做研究的时候,就是这么个道理。
Abhi(主持人)
是的。我想啊,想象一下,要是你要涉及数千开尔文(温度单位)呢,这个时候模拟可就变得重要起来了。要针对这种情况训练一个模型可太难了。
Corin Wagen
是的。或者,就这些情况而言,我知道一个大难题就是预测各种条件下的溶解度,例如在结晶活性药物产品时的溶解度。
而且在这种情况下,你很容易就有三种不同溶剂的混合物,对吧?同样的情况甚至在电池内部也会发生。所以你有一些乙醇、一些碳酸盐和一些水。就是这样。对溶剂进行建模就成了一个复杂的组合问题。但是,在人体中,嗯,当然,癌细胞的酸性稍强一点,但总体上是非常相似的。
Abhi(主持人)
我其实并不知道这个。真有趣。
Corin Wagen
是的。有一些有趣的工作(研究),在其中你可以设计像酸释放有效载荷之类的东西。我认为,理论上,它们在癌细胞存在的情况下会有一定选择性地被激活。我觉得在做同样的事情时,它不如ADCs(抗体-药物偶联物)有效。
就像抗体比pH敏感基团更具选择性,但这是个很酷的想法。
Abhi(主持人)
我挺好奇的,你说抗体里面会不会存在一些有趣的量子效应呢?毕竟抗体就像其他大型生物分子一样,可能存在这种效应,但是因为太难研究,大多数人都直接忽略了。
Ari Wagen
这可真是块未经探索的领域呢。没有新工具的话,我都不知道要怎么才能发现那些正在发生的效应。
Abhi(主持人)
比如说微软的那篇《AI2BMD或BMD2AI》论文呢。
这篇论文是关于从头算神经网络势的,专门针对碎片化蛋白质进行训练,扩展能力特别强,能重现蛋白质中的真实动态。我觉得啊,要是我错了可别客气,得指出来啊。这好像是第一种用像量子水平精度这样的量子方法来研究大型生物分子的方式呢。你觉得这篇论文会引出很多有趣的东西吗?
--------------------------------------------------------------------
ps:小编认为Abhi可能判断有误,如果单从正式发表时间来看,这篇文献似乎比微软的早半年:《Biomolecular dynamics with machine-learned quantum-mechanical force fields trained on diverse chemical fragments》,但是AI2BMD早在23年7月份就公开发布了预印本,所以到底谁是首发,还真不好说。
Corin Wagen
我希望如此。我真的希望如此。我认为这里存在已知的未知和未知的未知之间的一种划分。我们知道,在很多情况下,我们不太清楚如何很好地处理蛋白质 - 配体结合亲和力。当涉及到抗体动力学领域时,也许这里有一些我不太了解的实验数据。
我完全不是抗体方面的专家。但我认为我们确实不知道将会发现什么。而我认为,作为一个基础研究问题,这是非常令人兴奋的。作为一名创业者,我并不真的将其视为我们正在考虑去解决抗体问题的市场。但我认为我们必须保持谦逊的态度。我们不知道,而且结果可能是任何情况。
Abhi(主持人)
这就很自然地引出了我关于分子动力学长期影响和贡献之类的问题。该领域的一大推动力是 D.E. shaw研究公司的 “Anto”,这是一台由硬件工程师制造、配备数千个定制专用集成电路、造价极其昂贵的超级计算机。
这台超级计算机催生了一些标题惊人的论文,例如《午餐前的 20 微秒分子动力学模拟》。对于非本领域人士而言,20 微秒对于进行动态模拟来说是极长的时间。然而,该公司从未推出过药物,基本上都是些论文成果。
他们现在有一个治疗部门,不过还没有从这个部门研发出任何药物。你认为 D.E. shaw研究公司和 “Anto” 有什么长期影响和贡献呢?
Corin Wagen
我觉得,也许有必要提一下他们和Relay的合作关系。Relay Therapeutics是一家位于剑桥的公司,我很尊敬他们。
帕特·沃尔特斯(Pat Walters)就在那儿,Relay有很多很棒的人才。最初的想法之一是利DESRES和Anton来发现已知靶点的变构位点,这些靶点已被证明对先前的治疗具有耐药性。我想,很难知道安东实际上起了多大的作用。
如果Relay成功让药物获批上市,Anto、分子动力学(MD)和DESRES能得到多少功劳呢?我想,是的,世界上可能只有少数人知道这个问题的答案,而在这个录音室里没有这样的人。
是的,我确实这么认为,如果你退一步看整个领域,部分问题在于,我们期望分子动力学在哪些方面发挥作用呢?我们想要进行模拟,因为最终它们应该比实验更快,就像我们应该能够在计算机中快速迭代一样。
其他领域就是这样使用模拟的。如果你看空气动力学,比如你模拟一堆机翼和襟翼,然后你就不必在机械车间制造那么多了,这显然是有用的。就像你有研发支出,有搜索问题,就像一个设计和模拟问题,而且你可以迅速缩小在现实生活中实际需要尝试的事物的范围,因为模拟具有足够的保真度。
我只是觉得我们还没达到那个程度,我觉得人们并没有真正思考这个问题,因为我们理所当然地认为,如果想要可靠的数据就必须在实验室里尝试一切,但这正是我们希望分子动力学发挥作用的地方。我认为在药物设计流程的小分子领域,这就是分子动力学应该发挥作用的地方,大概是在命中发现、从命中到先导化合物优化这个环节。
所以我们会谈到优先级排序,会谈到获取洞察力,会谈到一些筛选,但说到底,我们是一家位于波士顿的公司。如果你在肯德尔广场(Kendall Square)闲逛,会看到一栋又一栋大楼里的人都在手动进行搜索,而抽象地说,你会希望分子动力学能够做这些事。
我认为,不管分子动力学的影响是0%还是2%,它都没有达到我们抽象地认为它应该达到的程度,它没有做我们希望它做的事情,所以要努力达到那个程度,我想如果分子动力学已经是某种很棒的模拟主力,那对这个领域来说会很棒,但那样的话就不需要我们做现在正在做的事情了,我们的公司也就不会存在了。
Abhi(主持人)
奇怪的是,分子动力学(MD)显然是有一些成功的案例的。就像埃利奥特・赫什伯格(Elliot Hershberg)和布鲁斯・布斯(Bruce Booth)写过Nimbus Therapuetics和薛定谔公司(Schrodinger)的合作那样。他们基本上提供了后来成为畅销药的成果,却没从中得到一分钱,不过他们确实研发出了这些药。你觉得他们能这么出色地研发出这三种药是侥幸吗?而且除此之外,他们的其他治疗手段都没有真正成功过。
Corin Wagen
我认为现在判断薛定谔治疗方法是否正确还为时过早,因为这些都是最近才出现的。
Abhi(主持人)
确实如此。
Corin Wagen
Ari Wagen
我觉得薛定谔得到的那个(东西)不到 10 亿。嗯,对,我想是不到4亿。
Abhi(主持人)
我还以为他们啥都没得到呢。(我错了)
Corin Wagen
我想是一亿或者两亿。
Abhi(主持人)
好吧。
Corin Wagen
这里有两个结论。一是价值创造较低,或者价值获取较低。
我想,我有个想法,也可能只是直觉(我都不确定这能不能算个假设),就是价值创造看起来比较高,但实际上比看起来的要低,感觉你利用这些工具并没有承担太多风险。就好像你不会轻易把药送给别人,而是会和他们的实验团队合作。要知道,Nimbus 可是一家实实在在的公司,他们有非常聪明的人在努力研发药物呢。再加上你承担风险所带来的溢价,以及即便有模拟你仍然需要做的所有实验工作,我觉得这种分成在某种程度上是公平地反映了价值的。
Abhi(主持人)
是的。
我想,当我想到模拟的时候,我也会想到它有那种去理解在现实生活中难以理解的系统部分的潜力。在化学或者蛋白质设计、分子设计中,是否存在这样一种情况,即你需要通过模拟来理解一些没有模拟就确实无法理解的东西呢?
Ari Wagen
我觉得这里一个简单的例子就像是反应机制之类的情况。它们发生得太快了,以至于无法用电子显微镜进行研究。你不能把电子显微镜对准一个反应,但反应是协同进行的。是的,我觉得这些就是目前这些工具被大量使用并且真正体现价值的地方。
我认为,对于更大的问题而言,存在着一些预测精度阈值,这些工具必须达到这些阈值才会真正有价值。也许分子动力学(MD)对于某些蛋白质来说足够精确,但对于任何现成的蛋白质来说就不够精确了。你还有什么别的想法吗?
Corin Wagen
嗯,我觉得吧,总的来讲洞察力的作用很难去量化,就好比很难给洞察力贴上一个金钱价值的标签,也很难说它能给组织带来多少价值。不过呢,原子非常小,化学反应发生得特别快,在原子领域工作的人很容易过了几周、几个月、几年,都没有真正直观地了解正在发生的啥情况。
我想这就是人们为啥这么喜欢分子对接(docking)。你能读到好多论文都在争论对接没啥用,从信息理论的角度来说对接可以忽略不计,就像有人跟我说的,对接是没用的。但说到底,你要是跟药物化学家聊聊,问问他们喜欢啥,他们会说:“我就喜欢能看到自己的化合物能不能与(受体)口袋契合,哪怕只是了解下口袋大小和在三维空间里的契合情况,对我来说都很有用。就算(对接得出的)数值没意义,我也能得到很大满足感,还能帮我头脑风暴,就看看可能的契合情况就很有用。
” 它能帮我产生想法,我觉得这对人们是有用的。还有啊,像反应建模、共价抑制剂、动力学,比如观察物体的运动,像蛋白质口袋(的研究)。我觉得这些虽然没有直接影响到底线(收益等),但是构建能帮助科学家更好思考和建立直觉的非常有价值的工具这一点是被低估了的。
Abhi(主持人)
我觉得,我马上就想到,我知道你们在打造Rowan的时候采访了很多科学家。像那些研究药物化学的专家的直觉,就是这些工具确实有助于我理解正在发生的事情,这种直觉有多少是真实的呢?又有多少是不真实的呢?因为他们看到某些事情可能会发生,即便这与实际发生的事情并不相符。
有多少是,我不想用‘自我安慰’这个词,但多少有点自我安慰的成分呢?
Corin Wagen
是的,这或许是一种自我安慰吧。我觉得如果你的工具生成随机图片,人们会察觉出来的。我认为药物化学家实际上很快就会学会不信任计算工具。
这不难理解。你交谈过的很多人都有很强的防范心理,不会轻易相信计算机得出的结果,我想从他们的角度来看这可能是合理的。
不过我确实认为,概念上有用和正确并不总是一回事,如果你与正确有足够的关联性,人们就会认为它是有用的,即使它并非如此。它是某事物的一个好模型,但这并不意味着在这种情况下你正在寻求绝对真理的正确道路上。
是的,我真的不(这么认为),而且人们也很容易被漂亮的图片所吸引,所以如果你给他们一些适合放在幻灯片里的好看的东西,他们可能就会喜欢,因为这让他们觉得自己在工作中表现得更理性,而不是单纯地随机地筛选东西。即使随机筛选实际上是一种非常有效且被广泛采用策略。
Abhi(主持人)
我对这一领域的材料科学应用了解不多。关于催化剂设计以及材料科学中的相关领域,我很想了解更多。特别是在这些领域中,神经网络势(NNPs)的使用案例是什么?我很想听听您的见解。
Corin Wagen
是啊。在模拟的时候,人们会把材料科学当作一个整体来谈,但我觉得它其实是由八个小领域组成的,只是被掩盖起来了。有些情况是这样的,你在不同情境下对有机药物分子之类的进行建模时,基本上可以使用和药物设计相同的模型。
比如,一些领域像氧化还原液流电池、电池电解质,你可能研究的是不同的盐类或更多的磷酸盐,而不是氨基酸,但在某种程度上,问题本质上是类似的。像是溶液建模、分子动力学、聚合物特性,就像恒温器一样是对系统分布进行建模。而像太阳能、上转换这些过程就非常不同了。
我觉得从更大的范围来看材料科学,和药物设计有很大的不同。在药物设计中,有一套“手册”,甚至可能有几种手册:比如抗体设计手册、小分子设计手册,或者像你们可能正在编写AAV(腺相关病毒)设计手册。然而,在材料科学中,这种手册的概念并不存在。每个人的研究问题和解决方式都稍有不同。
所以我觉得在材料科学里引入很多非常专门化的工作流程工具效果不太好。有些人在设计有机发光二极管(OLED),有些人在设计新型墨水,有些人在设计电光材料。你得在这些领域具备通用性,才能广泛适用。
我觉得从最基本的层面来说,如果有一个理解化学的模型,这些在某种程度上都是化学问题,这样就能发挥作用,只是解决方案需要更具适应性。
Abhi(主持人)
我觉得,就我读过的为数不多的相关报道而言,材料科学方面的研究,尤其是蓝色发光二极管的制造以及半导体方面正在进行的研究工作,感觉就像是一个需要尝试上亿次才可能成功的领域。而像化学领域,比如药物设计,似乎设计方法更加理性一些。
这样区分是否合理呢?
Corin Wagen
我觉得在这两个领域里,都有理性的时候,也有最理性的做法就是筛选一百万种事物的时候。我觉得这就是理性的一部分,即弄清楚何时以及如何筛选一百万种事物,就像蓝色发光二极管(LED),你要调整它的带隙。
你能想象到如何改变分子从而改变带隙。但同时也存在堆积效应和稳定性的问题,研究得足够深入后就可以开始筛选了。我觉得药物设计也是如此。也许,我们通常从高通量筛选开始(这里指药物设计领域),从一个DNA编码库开始,还有一些片段浸泡之类的(操作)。我们一开始就引入随机性,一旦有了(有效的)结果,我们就可以利用药物化学家、计算工具等直觉和技能来合理地达成某个目标。
我认为化学作为一个领域,它最好也是最糟的一点就是介于能够被完全理解和无法被理解之间。在各个层面上都是这样,你需要理解事物,但又无法理解一切。
而这正是我喜欢它的部分原因。
Abhi(主持人)
要是你回头看看那个最先发明蓝色发光二极管的日本上班族,给他材料科学神经网络势之类的东西,会有什么实际好处吗?他能不能用这个做些有趣的事呢?
还是说,即便是这样,用这些工具也还是有点挑战性?
Corin Wagen
你能解释一下吗?其实我对蓝光LED的知识了解不多,只稍微看过一些关于带隙效应和LED的内容。我们的同事Jonathan写过一篇相关的博客文章,但我实际上不太清楚当时他们在解决的具体挑战到底是什么。
Abhi(主持人)
Corin Wagen
好的。
Abhi(主持人)
神经网络在这一点上能做些什么吗?
Corin Wagen
对于一个开放式问题,直接拒绝回答似乎有点不礼貌,但这并不像是一个我会选择用神经网络势(NNP)来解决的问题。我也不想成为那种闯入科学领域、声称模拟能解决一切问题的科技人士。如果你看像芯片设计这样的领域,总研发支出和模拟支出的比例是怎样的?我记得大概是5%左右,也就是说19:1的比例更倾向于实际操作,而不是依赖模拟。我觉得这反映了一个现实:现实是复杂的。作为从事模拟工作的人,我们需要保持谦逊,承认我们无法捕捉到一切,我们需要更“接地气”些。
就像你需要真正去做实验,去发现一些东西。如果你的模拟不管用,那就别浪费钱了,直接去做实验吧。这种思路是很重要的。不过话虽如此,模拟确实便宜得多。所以,只要有可能用模拟来解决问题,那当然更好。但我认为,仍有许多问题会在相当长的一段时间内依赖实验来解决。
Abhi(主持人)
这很有道理。
Ari Wagen
关于蓝色LED的事情,
Abhi(主持人)
是那个Veritasium的视频吗?
Ari Wagen
是的。我觉得或许可以利用这些材料模型中的一些来预测不同晶体结构的稳定性或者相对能量,并且至少弄清楚需要这些原子的何种比例。但是如果你从计算机得到一个答案,比如这个晶体结构可能可行,我完全不知道如何将其转化为实际操作。
你如何使用沉积机来制造这种特定的晶体结构呢?我认为这仍然会是一个漫长而艰巨的过程。所以真的很难有把握地说这里面确实有价值。但我认为还是有希望的。是吧。
Abhi(主持人)
我想象,如果类似“圣杯”的目标真的实现了。
Corin Wagen
Abhi(主持人)
当我一开始提到Rowan时,我把你们描述为一家量子化学模拟的初创公司,也就是说,你们是在构建一个用于实际执行量子化学计算的前端平台。但你们后来完全转向了开发自己的神经网络势。你们为什么会做出这样的转型?有什么特别的原因吗?
Ari Wagen
Abhi(主持人)
是否有一些新的挑战与此相关?我想,之前Rowan的主要重点似乎并不在科学本身,而是更多关注于UI/UX方面。而现在你们正在向更偏向“纯科学”的方向转型。对此你们遇到了什么样的挑战吗?
Corin Wagen
Abhi(主持人)
我觉得现在有很多人都在尝试基于他们在博士期间使用过的工具,创建一些公司来解决这些工具中的问题。但似乎他们遇到了一个问题,那就是现有的行业玩家(incumbents)其实并不太关心这些新工具,他们对现有的工具套件已经很满意了。而Rowan看起来更像是在押注一种全新的工具使用方式。你觉得那些试图现代化现有工具或者改进已有工具的人,会成功吗?
Ari Wagen
Abhi(主持人)
Corin Wagen
Abhi(主持人)
Corin Wagen
Abhi(主持人)
我想,你们的首批用户群应该会是化学领域的博士。
Corin Wagen
没错。
Abhi(主持人)
你们觉得第二波用户会是谁?是纯粹从事机器学习的人,还是结构生物学家?我想结构生物学家可能也属于第一批用户的一部分。那么,第二批用户会是谁呢?
Ari Wagen
我认为是那些在小型公司工作的人。无论他们是在材料科学的相关领域,还是在处理生物技术问题的公司。我觉得可能会是那些刚毕业的人,或者是那些他们的公司买不起这些传统工具的昂贵许可证,而正在寻找解决方案的人。
Corin Wagen
是的,不好意思,我想确认一下,你刚才提到第一批用户是化学家,或者拥有化学博士学位的人,对吧?
Abhi(主持人)
“整个机构加起来?”
Corin Wagen
整个机构加起来,也就是……
Abhi(主持人)
这很惊人,不是吗?
Corin Wagen
Abhi(主持人)
我想象自己是一个主要从事机器学习的人。
Corin Wagen
是的
Abhi(主持人)
Corin Wagen
Abhi(主持人)
Corin Wagen
Abhi(主持人)
我很好奇,你认为哪些工作流程将永远停留在艺术的领域?
Corin Wagen
Abhi(主持人)
你不认为像搜索算法这样的工具可以解决这个问题吗?
Corin Wagen
Abhi(主持人)
这很有道理。
Corin Wagen
Abhi(主持人)
我其实一直认为,自由能差异至少在某种程度上是相对简单的一键式操作,对吧?你只需替换分子就可以了。
我是不是遗漏了一些重要的细节?
Ari Wagen
Abhi(主持人)
是的,建立系统是一个挑战,设置将一个系统转变为另一个状态的条件也是非常有难度的,而这一切要实现自动化更是非常困难的。
Corin Wagen
Abhi(主持人)
你提到了一些可能会长期停留在艺术领域的内容。那么,你认为哪些事情是比较简单的工作,而大多数化学家可能并没有意识到?
这些事情应该完全在他们的能力范围内,如果他们能得到足够好的工具的话。
Corin Wagen
Abhi(主持人)
这可能会暴露我对化学知识的无知,但我对许多分子的初步印象是它们是非常灵活的。那么,实际了解几个构象状态能带来多少益处呢?
Corin Wagen
Abhi(主持人)
对于小分子,一旦将其引入体内,是不是会有强烈的怀疑,认为其会发生剧烈变化?
Corin Wagen
Abhi(主持人)
关于结构优化的话题,你曾在一篇博客文章中提到,使用开源的神经网络势方法可以在五分钟内优化常见抗生素阿奇霉素的结构,而使用基于DFT的方法则需要九个小时,最终两者的准确性相似。那么,这对化学家的最终收益是什么呢?是更快的迭代时间、在先导化合物优化中花费更少的时间,还是我没有想到的其他方面?
Corin Wagen
Abhi(主持人)
Corin Wagen
Abhi(主持人)
在普通的制药公司中,平均水平的计算化学家认为自己是有用的吗,还是更倾向于希望自己有一天能变得有用?
Corin Wagen
Abhi(主持人)
这很有道理
Corin Wagen
Abhi(主持人)
Corin Wagen
Abhi(主持人)
Corin Wagen
Abhi(主持人)
Ari Wagen
我觉得不同初创企业之间会有很大差异。我想我们已经开始看到这种情况了。像Orbital Materials这样的初创企业一直在以非常宽松的许可协议开源它们的神经网络势(NNPs)。所以我觉得,我能想象这样一个世界:一家初创企业决定,我们有时候确实会训练神经网络势,但我们已经认定,这并非我们战略的核心部分。这对我们发展企业实力没有帮助,所以我们打算将这项工作开源。
我觉得像 Meta FAIR Chem 这样的公司也是这么做的。
Abhi(主持人)
我都不知道,Facebook有一个人工智能的神经网络势能研究小组。
Ari Wagen
他们确实有一个这样的团队,我想是因为有这么一个故事:他们正在为新眼镜研发材料,需要能够很好地对材料进行建模。也许不知怎的,他们就想,应该在Meta(原Facebook)公司的某个部门进行材料方面的基础研究。这就是FAIR - Chem(Facebook人工智能研究院 - 化学部门)的人员开始训练神经网络势(NNP)的一种说法。
我不知道这种说法是否属实。但是,到目前为止,他们在开源自己的神经网络势,并且表示这是业务所需的东西,但这并非是帮助人们建立联系(Meta的目标)的核心部分,甚至可以说神经网络势与之完全不相干,所以他们很乐意将其开源。
我觉得也有一些初创企业乐意将其开源。他们一心想要成为一家模型构建和架构公司,如果这些人将自己的模型开源,我会非常惊讶,除非他们认为自己能够围绕着Databricks之类的东西建立某种很棒的开源业务。
我不知道,我觉得这会很困难。是的,所以我能想象到未来会是一种分裂的状态,但仍会有高质量的开源模型。
Abhi(主持人)
我觉得这些蛋白质基础模型公司很可能会出现赢者通吃的局面,也就是一种蛋白质模型真的足以对所有可能的蛋白质进行全面建模。
你觉得在模拟领域会出现这种情况吗?
Corin Wagen
Abhi(主持人)
先暂时不讨论科学方面的话题,我好像多次听到过一种说法:科学家往往是特别糟糕的顾客,因为他们的需求常常非常特殊,而且他们能拿出来满足这些需求的钱也是最少的。
如果你同意这一点,你是否经常需要说服科学家相信Rowan是值得的呢?还是你更倾向于先针对高层管理人员?或者你根本不同意这个观点?
Corin Wagen
Ari Wagen
Abhi(主持人)
你们有没有看到那个关于 Spring Discovery 的推文?Spring Discovery 是一个用于高通量筛选的平台,可以分析明场图像,这家公司在运营了大约十年后就关闭了。
Corin Wagen
是的,我确实看到过。
Abhi(主持人)
Corin Wagen
Abhi(主持人)
你离赚钱还差得很远。
Corin Wagen
Abhi(主持人)
你如何说服人们你所打造的东西是有用的?我认为Rowan是一款非常美观的软件,但你如何将这一点与所说的“这将为你带来实际价值,足以匹配我们所收取的费用”联系起来呢?
Ari Wagen
Corin Wagen
其他公司很少做这种事。我想努力做得更好,就像在生活中,当你有一个可以用模拟来回答的问题时,我们希望Rowan里有类似“回答空白问题”的功能。你一点击按钮,它就能给你答案,这就像是很体谅用户。我想这可能是因为我不是科班出身的计算主义者。不过,我觉得向科学家销售产品总体来说有好有坏,但总体是不错的。
他们非常以数据为导向。所以我们进行预测,至少就我们成功销售的情况来说,就是这样:你想预测这个东西吗?那我们就试试预测它。预测结果不错,他们就会说,哦,预测结果不错。好吧,这样的话就没什么可隐瞒的了。
Abhi(主持人)
我猜我最初的想法是,他们会查看结果,然后想:哦,如果在其他方面出错了怎么办?他们非常依赖数据,以至于对任何不符合他们所认为的“优秀软件”标准的东西都不愿意接受。
Ari Wagen
我认为很多人在测试某个新工具时,会诉诸于他们训练时常用的标准测试用例。所以如果这是一个新的语言模型,也许人们会问其中一个测试用例是“草莓”这个词中有多少个“R”。
这就形成了一个非正式的基准,每当有新模型推出时,人们首先问的就是这个问题。如果模型回答是两个,他们就会觉得这是个糟糕的模型。如果回答是三个,他们又会问另一个问题。我觉得人们第一次使用我们的软件时,也会做类似的事情。
Abhi(主持人)
他们为自己非正式地创建了一系列的合理性检查。
Ari Wagen
Corin Wagen
Abhi(主持人)
Ari Wagen
Abhi(主持人)
在这个背景下,我想问问你的看法。你认为目前的资源,比如ATLAS和MD Repo,是朝着良好的方向发展,还是你认为存在一些根本性的失败点?
Corin Wagen
Abhi(主持人)
目前还没有任何数据集可以达到你所期望的质量和数量的水平,对吗?
Corin Wagen
Abhi(主持人)
还没有进行测试。
Corin Wagen
是的,我们不能就这样轻易花费两亿美金购买CPU时间,生成大量的TB级数据,然后仅仅按一下播放键。
Abhi(主持人)
他们像是一些试图快速发展并生成大量数据的联盟。你认为他们最终得到的数据集可能不实用吗?
Corin Wagen
Abhi(主持人)
最终的结果将决定谁是真正的赢家。
Corin Wagen
Abhi(主持人)
对于你来说,Corin,这两亿的投资,你也会专注于生成高质量的数据,还是认为还有其他更重要的地方?
Corin Wagen
是的,我认为我同意Ari所说的一切,换一种视角来看:现在MD的速度与神经网络势能的速度之间存在着巨大的差距,而它们需要达到的速度要能够完成MD可以做的一切。
Abhi(主持人)
是的,这就是梦想。
Corin Wagen
这就是我们大家努力的目标。
Abhi(主持人)
是的,非常感谢你们参加节目,聊了三个小时。真的非常感谢。
Corin Wagen
感谢你们的邀请!