人工智能能否改善当前分子模拟的现状？

学术 2025-01-28 08:56 湖北

随着人工智能（AI）技术的迅猛发展，AI在分子模拟领域的应用越来越受到关注。分子模拟作为研究分子结构、性质和动态行为的核心工具，对药物设计、材料科学等多个领域具有深远的影响。然而，传统的分子模拟方法在计算成本和模拟精度方面仍面临许多挑战。近年来，神经网络势（NNP）等AI技术的崛起，为分子模拟领域带来了新的突破，带来了更多的可能性。

为了帮助大家深入了解AI在分子模拟领域的最新进展，我将Corin和Ari Wagen两兄弟的播客访谈内容进行了中文编译。Corin和Ari是分子模拟公司Rowan的创始人，该公司致力于量子化学模拟，并且最近获得了Nat Friedman AI资助计划的支持。在这次访谈中，他们深入探讨了神经网络势（NNP）的工作原理、分子动力学（MD）的作用、计算化学在药物设计中的重要性以及分子模拟领域的未来发展趋势。

人物介绍：

主持人：Abhi（Abhishaike Mahajan） Abhi是一位对分子模拟和AI领域有着深入研究的科学家和作家。目前，他在Dyno Therapeutics担任ML工程师，专注于利用机器学习开发更优的基因治疗病毒载体。此前，他在Anthem.ai（现已更名为Carelon）担任ML科学家，主要从事临床信息学研究。

Corin Wagen： Corin是Rowan公司的创始人兼首席执行官，该公司致力于开发现代化学计算工具。他表示，Rowan的目标是为科学家们提供一种“不打扰”的分子模拟软件，帮助他们专注于研究本身。Corin拥有哈佛大学Jacobsen小组的研究背景，曾在2019至2023年期间专注于选择性有机催化反应的研究。其学术背景还包括在麻省理工学院的化学本科教育。

Ari Wagen： Ari是Rowan的联合创始人之一，负责产品和战略的制定。在Rowan，Ari的重点是通过机器学习加速分子模拟，并为化学家们提供更加高效的工具。此前，他曾在东北大学就读。

分子模拟和神经网络势的基础概念：

对于不太熟悉分子模拟或神经网络势的朋友，可以参考我以往的推文，这些内容介绍了分子模拟的基本概念和神经网络势的工作原理：

分子模拟基础：：介绍了分子模拟的基本概念、方法以及应用。
分子建模与模拟周刊#7：计算化学的职业概况和就业前景
分子建模与模拟周刊#8：计算化学家为什么可以编造数据？
神经网络势入门：详细解析了神经网络势的工作机制及其优势。
分子建模与模拟周刊#5：突破分子模拟极限：神经网络势开启新纪元

访谈内容：

以下是本次访谈的中文版文字稿，希望能够为大家带来一些启发和帮助。

[00:00:00] 介绍

Abhi(主持人)

大家好，今天我要和 Corin 以及 Ari Wagen 两位聊聊天，他们是既是量子化学模拟初创公司Rowan的联合创始人，同时也是两兄弟。

顺便提一下，Rowan 最近被纳入了 Nat Friedman 的人工智能资助项目。恭喜你们哈！🎉除此之外，我认为 Corin 是当今分子动力学和机器学习交叉领域中最有趣的思想家之一。他还运营着一个非常棒的科学博客，我会在视频描述里附上链接。

感谢两位今天能来参加我们的节目。🎉

Corin Wagen

感谢您邀请我们！

Abhi(主持人)

好的，首先，为了给今天的播客定个基调，你能先给我一个关于分子动力学和神经网络势的高层次概述吗？

Corin Wagen

分子动力学是一种研究分子随时间演变的动力学特性的方法。

许多计算都是专注于对静态分子的研究，并提出相关问题。而分子动力学则更进一步，它允许我们对运动方程进行时间积分。打个比方，我们可以像制作视频一样，观察分子是如何运动的，并从中学习。至于神经网络势能，它是一种能够准确预测许多事物的技术，但对我们来说，最关键的是能够预测分子的能量和力。

因此，这让我们能够以远低于传统方法的成本，获得接近量子力学真实结果的精度。也正是因为这样，它成为了一种比传统力场更准确的替代方案。

[00:01:19] 经典模拟与量子模拟之间的区别

Abhi(主持人)

几个月前，当我开始学习这个领域时，我立刻就有了一个问题，那就是经典力学和量子力学之间该如何去划分。我看过你之前写过一篇名为《原子模拟的两种文化》的帖子。我很好奇，你能为听众简单回顾一下吗？

Corin Wagen

简单来说，了解这个领域的历史背景是有用的。

计算化学这个领域大约有100年的历史了。早在海森堡的时代，人们还只能依靠纸和笔来对双原子分子进行基于经典力学的计算。但随着计算机的出现，尤其是在七十年代，这个领域开始朝着两个不同的方向发展。一些人想要扩大那些非常严格、基于物理的方法——量子力学——将其应用于越来越大的系统，一直到硬件的极限。

因此，这发展成为了量子化学，所以现在你可以模拟多达几百个原子的系统，并且有非常高的准确性，这些准确性是基于第一性原理并通过层层近似得到的。而这个领域的另一半人说，让我们模拟我们真正关心的东西，比如DNA、蛋白质以及这些复杂的生物系统。

所以我们以模拟需要多快的速度为出发点，来反向推导出一个足够快的理论。这本质上就是分子力学。所以早期的CHARMM和AMBER工作的本质就是使用多项式来拟合量子力学，而且，你知道的，这种方法的效果出奇地好。

比如，你可以用它来模拟蛋白质的运动，或者模拟抗体的运动，以及溶液结构在某些物质周围的变化。而我认为，这一切在70年代末到80年代初的时候就已经彻底改变了这个领域的发展。于是现在我们有了两种对立的范式：一种是所谓的经典分子动力学，更偏向生物模拟方面的研究，它可以用来模拟你关心的那些现象，但却往往得出错误的结果，因为理论本身是有缺陷的；另一种是量子力学的研究方向。

你能得到非常准确的结果，但这些结果往往与我们当前关心的问题关联不大。所以，我认为一个巨大的挑战是，50年后的今天，我们如何开始尝试去弥合这个差距，并对我们所关心的事物进行准确的模拟。现在看起来，我们或许第一次有机会能够去做到这一点了。

Abhi(主持人)

这就是神经网络势的最终目标啊，旨在实现一个理想的帕累托最优前沿，既能提供非常快速的计算，又能确保极高的准确性。

Corin Wagen

是的，我觉得你说得完全正确。很多人都有这样的目标。因此，量子计算领域的人们也常用类似的表述。我认为神经网络势就是其中之一。

目前看来，它无疑是最接近目标且最有前景的方法。这正是我们以及我认为大多数研究人员非常兴奋的地方。

[00:03:48] 神经网路势(NNP)实际上在学习什么？

Abhi(主持人)

为了提供一些背景信息，很多神经网络势都是基于这个概念，或者说是训练在薛定谔方程的这种近似上，也就是密度泛函理论。

我一直觉得挺有趣的，这些神经网络势到底在学习物理学的哪些知识呢？你觉得它是不是正在学习薛定谔方程结果里的某个低维流形结构呢？或者你觉得它完全是在学别的东西呢？

我猜其他的一些背景是针对蛋白质结构模型的，主流理论认为它们是在做某种模糊同源搜索，然后在神经网络势的基础上进行局部能量最小化，而实际上里面到底发生了什么？

Corin Wagen

我觉得吧，我们其实不太清楚。就像是，刚看到一些关于ESM2的可解释性研究成果出来了，然后他们用稀疏自动编码器来试着理解特征空间里的实际特征对应的是什么。

我觉得还没人在神经网络势方面做过类似的事呢，不过希望以后会有人做。我想啊，要理解这怎么就能行呢，比如说怎么就能把速度提高这么多呢？在生命科学领域，咱们关注的东西，哪怕只是地球上可能存在的分子，范围也比所有可能存在的分子的范围受限得多。所以量子力学简直太完美了。就像人们做基准测试，把随机元素放在空间的随机位置，然后根据量子力学方面的研究方法（相对于像非近似方法这种非常高级的方法）的表现来给这些方法打分。

这样你就能这么得到近似值了。这是一种盲目的基准测试。你可以说，我们在铍、氡、锝和氪这些元素方面表现不好也没关系，我们不需要擅长这些。要是我们只学习人体中的 15 种元素，而且是那些与大气层接触时不会马上爆炸的元素，那我们要学的化学知识就只是一小部分，这样就能让我们的模型朝着这个方向产生归纳性偏差了。

Abhi(主持人)

这里可没有免费的午餐。要知道，你可能会在某些奇怪的分布外空间失败，不过你能接受这一情况。

Corin Wagen

是的，我觉得吧，也许这个领域之前都没意识到，我也是开始涉足了才知道，就化学来说，原子组合各种各样，起始分布特别庞大，哪怕只是取其中的一小部分，都能涵盖我们可能关心的所有东西。

[00:06:02] NNP可能在哪些方面失败

Abhi(主持人)

我还有一个问题是，AlphaFold2发布之后，你会看到不少论文宣称 AlphaFold2 在激酶或者球状蛋白这类奇怪的分支上失败了。每当这个领域一有一些很有趣的成果冒出来，马上就会出现大量悲观情绪，而这种悲观情绪到底是不是真的呢，谁也不清楚。

或许就是这样的，这种情况每次都会出现。你觉得对于机器学习力场来说，情况会是怎样的呢？

Ari Wagen

我觉得啊，人们所指的就是这些长程相互作用。

我这儿有一个带电粒子，它和另一个带电粒子相距20埃，可模型的截断半径是10埃呢，所以这两个粒子互相感知不到。就好像在模型返回的能量计算里，它们相距无穷远似的。然后你就会说，看，这些神经网络势没什么用啊。

我认为人们正在研究很多不同的电荷处理方案。但我想啊，每当人们有这种悲观情绪的时候，都得问问：你指出的这种情况是不是一种已知的失败案例呢？是不是我们打算建模的东西呢？这重要吗？我们需要补救吗？

我觉得在电荷处理方面，这仍然是个很开放的问题。

Corin Wagen

是的，我认为完全正确。而且我觉得弄清楚失败在多大程度上可预测或不可预测是非常重要的，对吧？因为如果知道是哪80%的情况，那么在80%的情况下有效的东西就非常有用。

所以，如果它对球状蛋白不好，你就可以不把它用于球状蛋白。如果存在这种随机的幻觉问题，我认为这将是一个更大的问题。我们已经注意到这一点，Ari在最先进的模型方面做的基准测试比我多得多。我们发现有些模型在结果验证方面表现很好，有些则表现很差，还有些是针对热化学的。

而且我认为我们已经非常习惯计算化学中的近似法了。我们凭直觉就能知道什么是好的，什么是不好的。而对于神经网络势，我们也需要建立完全相同的直觉，这需要时间、实践和努力。

[00:08:08] NNP中的短程和长程相互作用

Abhi(主持人)

正如Ari提到的那样，很多这种神经网络势主要基于对原子间短程相互作用的建模，而像静电作用这样的长程相互作用则交给遵循常规经典力学过程的纯物理方程来处理。单纯对短程相互作用建模，把所有物理相关的处理都推给长程相互作用时，这种做法何时会失败呢？这一点是否明确？还是说这也不清楚呢？

Corin Wagen

我觉得这是个特别大的开放性问题。同时也是该领域面临的最大的架构方面的谜题之一。

你会发现人们观点针锋相对、各执一词，但似乎个个都很聪明。所以有一部分研究表明，消息传递就足够了，扩大规模就能解决这个问题，只要进一步扩大规模就行。是的，在数据量极少的情况下，你无法学习长程（远距离）的东西，因为学习这些需要更多的数据，但只要将规模扩大10倍就没问题了。

还有一部分研究表明，完全抛弃物理知识太过了。我们应该重新引入简单的物理知识，这会使情况更加稳健、更加稳定。然后还有一部分研究表明，架构全错了，比如化学的局域性比我们认为的要小。

我们需要在粗粒度连接尺度上混合诸如描述符之类的东西。我认为在我们取得更大进步之前，从根本上讲，这个问题很难回答。就像我们需要通过实验来弄清楚这个问题。我觉得我们无法纸上谈兵式地去解决这个问题。

Abhi(主持人)

嗯，有道理。你个人有没有在打赌啊？

Corin Wagen

我可以说，我们这代人正在尝试“消息传递就是一切所需”这个理念，因为这也是Meta的FAIR - Chem团队做过的事情。有很多类似玩具模型的系统，你会发现它们可能存在问题，但是如果你坚持这么做的话，对于所有重要的事情似乎都没问题，而且你能发现有些情况下，人们试图加入更复杂的解决方案，结果却更糟。

所以现在看来，默认选项就是尝试构建一个常规的图，然后再看看。我想，一旦我们完成了当前模型的基准测试，不管怎样我们都会从中学到很多东西，也许还能对下一代（模型）进行更新。

[00:10:23] NNP中的涌现行为

Abhi(主持人)

有一件事，我经常看到，我想很多人也看到过，就是在这些大型通用模型中常常会出现一种涌现行为，比如说 GPT3 中的零样本语言能力，还有与生物学领域更相关的这个Alphafold2的蛋白质构象生成能力。

在神经网络势领域是否也存在类似的情况？

Corin Wagen

这些模型的一个不同之处在于，在某种程度上它们的生成能力并非超强。所以在最基本的用例中，你会获取一群原子，可能还有一些元数据，如电荷和自旋，然后得到能量以及能量的导数 —-力。所以这是一种非常受限的输出模式。就像你在做模拟，你不想被能量惊到，不想得到意想不到的能量。理想的情况是，你得到的能量与你依据其进行训练的参考级事物所得到的能量完全相同。

我认为非常有趣的地方，也是我认为可能会让我们感到惊讶的地方在于，有很多关于多头输出的研究，或者说模型内部发生了什么？我们能否将这些组合起来？我们能否把从这些非常庞大、非常精确的模拟方法中得到的权重和表征全部结合起来，然后用它们做一些意想不到的事情？这是个比较模糊的想法，不是一个具体的提议，但是大家知道，有人用语言转换器展示了这样的情况：你采用一个数学模型和一个日语模型，然后它就能用日语做数学题。那么在化学领域类似的情况会是怎样的呢？

那会是什么样儿啊？我不太确定，不过要是你能训练一个模型，让它总是能根据结构预测能量的话，那你可就学到了很基础的东西。从某种意义上说，这是化学里最基本的关系，而且这种关系似乎是可以迁移的。就好像有一定量的内在直觉就应该可以迁移到其他任务中去。

Abhi(主持人)

我不太确定我是不是读对了，不过好像有Unke的那篇论文，还有Tim的结晶研究呢。

我想啊，对于那些好像没看过蒂姆推文的人来说，他们观察到了成核、晶体，像是晶体成核现象，使用的是之前从未用于观察成核现象的神经网络势。而且我觉得在回复里好像有人相当明确地指出，成核现象本身在现实生活中不应该发生，但在完全没有结构的地方出现了结构，这一点很酷。

你觉得这也可能是一种涌现行为的例子吗？

Ari Wagen

真的酷毙了。我觉得，这件事有一点让我特别兴奋，就是可以训练一个模型，使其适用于多个相态，对吧？要是Tim用液态和固态晶体数据来训练那个模型的话，看起来这个模型是能够实现这些相态转变的。

这样就能看到一条通向原子模拟基础模型或者能处理电荷和相态之类的模型的路径了。而且，希望最终它能处理自由基和过渡金属。人们正在思考的问题之一就是，我们要如何扩展这些模型的适用范围，使其适用于各种化学物质。

我觉得这和如何扩展这些模型以用于大型系统是非常不同的研究问题。这两个都是非常有前景且有趣的研究问题。

Corin Wagen

我认为这也确实教给了你一些有关信息流动的非常基本的东西。即便你可能会说，在那些条件下溶解的盐不应该形成固态盐，而且这个事件的描述不太准确，但这表明对液体的训练能让你了解一些有关固体的知识。

我认为这真的很酷。因为这首先就是大型预训练模型的一个前提，对吧？这意味着当我们输入所有这些数据时，不知为何来自其他领域的数据会让我所在的领域变得更好。否则的话，为什么不为每个蛋白质或者每项任务单独训练一个模型呢？

为什么要训练一个大型语言模型呢？为什么不训练一个代码模型、一个数学模型和一个翻译模型呢？我们有这样一种想法，即在语言空间中，你能将语言作为一个统一的事物来更好地掌握。而且对数学的训练不知为何会让我的代码变得更好，即便这种影响不是那么直接。我认为我们在这里也能看到这一点。对一个物相的训练会让我的另一个物相变得更好。这里存在着信息传递，这真的很酷。

Abhi(主持人)

对于化学家来说，他们是会天真地把这种信息流纳入关于液体和固体的思维模型呢，还是会觉得这些领域是相互独立的呢？

Corin Wagen

哦，要是你觉得检查模型的内部状态很难的话，那化学家面临的情况可要难得多了。我觉得存在一种化学语言，就像从结构和绘图的角度去思考一样，而且这个领域好像有某种特有的本体论或者形而上学之类的东西。

我觉得这个在各个阶段之间转换得挺顺利的。

我认为这确实触及到插值和外推的本质了。

这可是个很基本的问题，不仅在化学领域，在其他领域也存在。我觉得康威生命游戏就是这样，有元胞自动机，每个元胞只了解相邻元胞的位置，但能构建出庞大的涌现系统，表现出复杂的图灵完备行为。

那么，这究竟是插值还是外推呢？你可以理解为，在规则的空间里我们是在进行插值，但在结果的空间里我们实际上是在做外推

Abhi(主持人)

是的

Corin Wagen

我认为这个类比在这里对我来说是合理的，因为事实表明，水的结晶似乎应是规则空间内的外推。

但从这个模型来看，它似乎是规则空间内的插值。而且规则比看上去更具根本性。似乎应该有一类不同的物理行为分别支配着溶解态氯化钠和固态氯化钠。但至少从表面上看，它似乎能很好地学习这两种情况。

所以我认为，这是一种保守看待神经网络势的方式，即假设在给定范围内只要有足够的数据，它们不但能很好地学习这些数据的规则，还能学习该领域内包含的化学知识。

然后你可以进行模拟，看看（它们）能达到何种程度，从某种意义上说，就是看看在输出空间中它实际能涵盖多大范围。

[00:16:58] 增强采样

Abhi(主持人)

关于增强采样这个话题，我觉得涉及机器学习（ML）的论文相对较少。

而且增强采样似乎是那种非常神奇的领域，在涉足之前你就应该清楚自己该做什么。你是否看到机器学习介入到非物理性的事情中，比如修改系统以到达有趣的点呢？

Corin Wagen

我觉得，没错，百分之百是这样的。Hannes和Bowen已经在这方面做了些工作。我觉得，John Chodera好像就此事发过几次推文了。这肯定会发生的。我想这件事这么难做好是因为，若要生成步骤，就需要生成一个与玻尔兹曼分布相符的分布。

不然的话，你得到的所有结合亲和力积分或者其他任何性质的积分都是错的。要是你能想象出很多增强采样的方法，在这些方法里只是把东西打乱，就像网格搜索那样，不过这些方法得不出正确答案。你需要它，从统计力学的角度来说，就是需要正确的玻尔兹曼接受准则。

而且让机器学习严格重现正确的物理极限是很难的，要么能做到，要么做不到。所以，必须得有个办法能把其他方案中所具备的可验证正确性融入其中去。

[00:18:16] 生命科学和材料科学中NNP的文化差异

Abhi(主持人)

我发现小分子、蛋白质和材料的神经网络势之间有很大差别。

这些领域之间为啥有这么大差异呢？是规模扩大带来的限制吗？或者不同领域得做出不同的归纳偏置，又或者是存在更多文化方面的差异吗？

Ari Wagen

我认为这主要是该领域所处时代的产物。神经网络，尤其是深度神经网络，还相对年轻。

最初，很多研究重点在语言而非图像方面。现在，我们开始看到有人在为图神经网络构建几何库。所以，我们所看到的是人们最初选择关注的问题所导致的结果。这些模型还没有经历很多迭代周期。

人们最多推出了大概五代模型，也许更多。不过，如果你涉足一个问题领域，例如你是一名材料研究人员并打算构建一个材料模型。你尝试构建一个材料模型然后将其推出，之后开始在各种事物上对其进行测试并思考如何改进它。

可能在你弄清楚自己真正关心的领域之前，你不会大力地扩展研究范围。在早期计算化学和神经网络势空间中，我们看到一些人关心快速扩展规模，他们正在试图弄清楚如何将这些应用于蛋白质研究。

有些人可能关心材料发现和性能预测，还有些人关心精确重现密度泛函理论（DFT）的结果以取代量子化学。我认为我们Rowan的期望是，从能够取代量子化学（如DFT方法）开始。

一旦我们做到了并且感到满意，我们就会开始应对这些规模上的挑战。所以，我认为你会看到很多人确实开始研究这些原子模拟的基础模型了。只是我觉得现在还为时尚早。

Corin Wagen

这有点像电视刚出现时的情况，人们把新媒介套用在他们最熟悉的旧媒介上。最初，他们几乎不做任何改动，直接将戏剧拍摄成影片。然后，过了一段时间人们才意识到，可以通过使用戏剧性的变焦，比如不需要那么夸张的表情，可以添加特效等手段来增强表现力。是的，我想这就像是在新技术推出时，你对当时认为最紧迫的问题的一个快照。然后，从这一点开始不断迭代改进。

[00:21:13] 模拟与现实之间的差距

Abhi(主持人)

首先稍微回顾一下最初训练神经网络势的想法，整个概念为：通常采用密度泛函理论轨迹，获取其中的力和能量，然后训练一个模型来模拟这些，而非依赖物理方程本身。

我觉得有趣的是，对于大多数分子动力学领域来说，实际上几乎不可能收集到真实的基础数据集。因为其是完全依赖于纯粹的计算模拟测量的。那么，在这个领域，大家是怎么看待模拟与实际行为之间的差距的呢？

这个差距存在吗？

Corin Wagen

是的，因为现在的模拟结果并不准确，所以总是存在很大的差距。就拿水来说，就算是最好的周期性密度泛函理论（DFT）模拟（也许还不是最好的），比如PBE水模拟，通常在常温下就像是固体。如果你看到一个PBE水模拟，通常它需要被加热到大约80度左右，因为这样水才能保持液态。

就是说，这只是其中的一件事罢了。我觉得吧，一旦你涉足这个领域有一段时间了，就会把它当作理所当然的事情。然后当你退一步审视的时候就会想，嘿，这不是挺让人困扰的吗？，不是吗？对于所有生命来说最基本的溶剂在这里并没有被很好地模拟出来，不是吗？

而且，我认为……

Abhi(主持人)

所以我们无法模拟水的沸点吗？

Corin Wagen

你可以证明，若采用足够多的近似值（过去几年已有若干相关论文），情况会有所改善。但沸点实际上相当棘手，因为涉及众多分子，存在固 - 气或者液 - 气界面，这是一种由能量上微小误差所导致的高度涌现性的特性。而且，我认为很多从事模拟研究的人员（至少我们）有一种直觉（无需代表整个领域发言），即我们能从微观层面看到自身的错误之处。

因此，我们能够进行超高层次的量子计算，运行通常用于生产的计算内容，从而看到我们的错误所在以及错误程度。我们可以进行比较，进而从宏观层面看到我们的预测并不准确。我们深信，利用神经网络势能够修正微观层面的预测。

与其他人一样，我们正在进行的实验是：这能否修正宏观层面的预测？这非常合乎逻辑。答案应该是肯定的，但实际并非如此，这绝不是必然的。

Abhi(主持人)

有没有类似的假设来解释为什么情况可能并非如此？

Corin Wagen

这在某种程度上与以下情况类似：

你可以想象有很多原因可能导致这个说法不成立。因此，密度泛函理论以及大多数量子化学理论都忽略的一个方面就是核量子效应。

就像氢隧穿什么的。我觉得大多数人的直觉是，除了那些挺受限的酶促反应过程，这不是啥特别大的事儿。你知道吧，这可能对水里质子转移的动力学有点影响，但是咱都知道，你可以用氘把血液里大部分氢给换掉，量还挺惊人的，可这对你也没多大影响。

所以呢，好像生物模型不应该对氢原子转移的精确动力学特别敏感，不过也许这想法不对，也许对于一个整个泡在水里的蛋白质来说，在这些事儿上哪怕差一点点都影响很大呢。

是的，我也不确定。

Abhi(主持人)

说到水的沸点这个话题，你觉得最近这方面的情况怎么样？我们无法测量一个足够大的系统，或者是否存在一些小的问题，我们是否需要比密度泛函理论更深入才能真正对水的沸点进行建模呢？

Corin Wagen

我们进行密度泛函理论（DFT）计算实际上有两种方法，但我认为这一点并未得到足够重视。这两种方法分别针对分子体系和周期性体系。我们试图描述体系的电子密度和电子结构。对于孤立的分子而言，这意味着采用基函数，例如以原子为中心的方式来描述密度。

而对于周期性体系（其体系实际上是无限的，如一块金属板或者一盒水分子），这种方式效果欠佳。因此，人们经常采用平面波方法，即使用傅里叶基来描述电子密度。而且后续还有很多操作需要去做。

因此，在密度泛函理论中有许多近似处理，这些近似处理在分子体系和周期性体系的密度泛函理论中的最终结果有所不同。我认为其中一个结果是，分子密度泛函理论中很多能对照超高精度计算进行严格验证的最精确方法，在周期性密度泛函理论中并不存在。

而且很多高精度计算在周期性密度泛函理论中也不存在。所以对于泛函来说，例如，无法很好地进行电子交换（如量子交换），而这对很多事情来说相当重要。我们知道，当在分子体系上运行这些泛函时，可以进行基准测试，例如，水分子之间的结合力会多出 20% 左右。不过，我不太确定（在周期性体系中会怎样）。

所以，当你处理周期性体系时，可能会想当然地认为情况差不多，比如结合力多了 20% 或者 40%，这就会使总体沸点产生很大的偏差。

Abhi(主持人)

如果我们想更准确，更缓慢地进行，采用耦合簇（理论）的话，那么我们能否对沸腾现象进行建模呢？

或者即便如此，是否还是会有潜在的问题开始显现呢？

Corin Wagen

我也这么想。我觉得没错。所以人们已经能够精准把握了。我或许能找到这方面的参考资料呢，你用一种技术确实能达到正确的沸点。所以，看起来这里并没有我们根本不了解的重大问题。

我觉得这恰恰表明，在生命科学领域，密度泛函理论被视为一种从头算（ab initio）的高精度方法。但在高精度模拟领域，密度泛函理论实际上就像是平民化的（方法），就像是失败者才用的蹩脚玩意儿。那些人都在研究这些超轨道优化的波函数方法，这些方法只能用于12个原子，从理论角度来看，他们是完全正确的。我觉得这恰恰表明，解决电子结构问题真的很难，你知道，其精确解是n的阶乘量级的（计算复杂度），这很糟糕。是的，就像三体问题一样，但更糟糕的是所有这些量子空间贯穿（相互作用）的东西，有数百个电子，真的很难。

Abhi(主持人)

是否有论文表明，现在每个使用密度泛函理论（DFT）来处理训练数据的人，关心的可能是潜在的更高质量的数据而非数据规模呢？你能想象在 5 年、10 年后，人们会超越密度泛函理论，去追求更高的准确性，还是说密度泛函理论对很多事情来说确实已经足够了呢

Ari Wagen

我不太清楚。这里要讲的一个有趣的模型是在耦合簇数据集上微调过的ANI模型。它在如今针对耦合簇数据的基准测试中表现出奇地好。所以我觉得我们可能会看到有人试图复现它。但我首先敢打赌的一件事是，人们将会抛弃周期性密度泛函理论（DFT）来生成训练数据。

因为最好的方法，或者说最好的DFT方法只在分子体系中得到应用。所以我认为一个挑战在于弄清楚，我能否训练一个模型，一个神经网络势，使其能用于周期性体系，但这个模型只在分子体系上接受过训练。

我认为这是个大问题，但如果你能让它起作用，那么从理论上讲，你就能够对周期性体系进行建模，其精度会高于任何已应用于周期性体系的DFT泛函所能达到的精度。

Abhi(主持人)

你觉得会看到这样一种模式吗？就是人们一开始处理的数据规模比较粗糙（宽泛），然后逐步提升，从而得到规模更小（也就是n值更低）但质量更高的数据。你觉得这会是未来的走向吗？

Corin Wagen

我觉得没错。咱们在这儿正努力解决这么棘手的问题呢，模拟这事儿确实很难做好。

我觉得能获取到的每个信息来源都很有价值。所以呢，也许在较低的理论层面上对很多东西进行预训练，用来初始化权重和偏差，这可能是个不错的做法。人们把去噪当作一项辅助任务，FAIR - Chem（Facebook（Meta）人工智能研究 - 化学）已经这么做了，看起来效果还不错。

混合不同的层级，像多保真度学习这种（在可行的情况下）就很不错，甚至还能加入实验数据呢。就像晶体结构，我们知道受力为零，这看起来挺好的。嗯，我想啊，我不太清楚这些东西各自能起多大作用，不过我觉得，更多解决问题的工具、更多真相来源的任何组合都是非常非常有价值的。

而且啊，人们甚至会这么做，你知道吗，你可以对整个模拟过程进行反向传播。比如说，如果你有一个实验得到的互变异构体比率，你就可以通过模拟进行反向传播，然后像在所有分子动力学步骤中那样进行训练，从而得到正确答案。

Abhi(主持人)

给出一个最终的状态

Corin Wagen

是的，给定一个最终的状态。或者像是一种不同的能量。问题在于，你会遇到维度方面的问题，因为你只有一个东西，而在很多状态下却只有一个实验结果。这似乎不足以从头去构建一个完整的模型。

Abhi(主持人)

这好像是个很典型的现实问题，就像是你只有一个最终奖励，再没别的了。

Corin Wagen

嗯，它的步数比国际象棋的步数还多呢，所以这很难

Abhi(主持人)

嗯，这是说得通的。

我想啊，就像我刚进入这个领域时的那种怀疑，就是，很明显人们可能会把这些计算机模拟的密度泛函理论（DFT）测量用于很多方面，但肯定也有某种物理测量方法也在被考虑。

我原以为会是核磁共振（NMR）成像呢，因为感觉这是唯一能实际测量分子动态运动的方法。但我好像从来没在论文里看到过它被实际使用。这是有什么原因吗？

Corin Wagen

核磁共振（NMR）的时间尺度很长，虽然可以尝试观测快速过程，但由于自旋态的寿命很长，因此能观测到的大概是微秒级别的过程。

如果存在两种不同的物质，就可以看到它们，并且可以进行脉冲操作来观测动力学过程，但这些物质必须具有较长的寿命。如果思考一下微秒的概念，就会知道它是10的 -6次方秒，对吧？而模拟步骤通常的时间尺度是10的 -15次方秒。

所以，仍然存在9个数量级的差距，就像是在底部还有很大的空间。是的。我认为，可以采用更快的光谱学方法，例如多维红外光谱法，这种方法能把（时间尺度）降到大约10的 -11次方秒。所以这就接近多了。

键振动的时间尺度与这个（10的 -11次方秒）更接近，所以这是有帮助的，但话说回来，这也很困难。例如，不能通过二维红外（光谱）绘制出蛋白质或者生物分子的样子以及它是如何运动的。但是你可以探测非常特定的东西，比如复合物的寿命，但我觉得，数据的价值以及每次测量获取的难度使得这一切变得很艰难。

而晶体学虽然总是被我们抱怨，但实际上运行得很好。例如，机器人可以查看晶体盘，能够得到很多晶体结构。而且很多这些更高级的光谱学方法需要耗费研究生数年的时间，显然这是一种昂贵的成本。

Abhi(主持人)

就拿 X 射线晶体学来说，我很惊讶它竟然能让人有动态感。

你是说它能给你一种动态的感觉，还是与动态相关的东西感觉呢？

Corin Wagen

它根本无法提供动态感。显然，它是一个静态结构。我认为它所显示的是，晶体通常处于基态，对吧？

或者说，是受热和堆积效应的影响。

Abhi(主持人)

所以这就像是一个零能量的东西。

Corin Wagen

嗯，零力，零力。这能让你有所收获，就像是某种有用的实验事实。就像是这个东西，不管它是什么，像是一个局部最小值。我觉得你不能据此推断出整个关系。

但如果我这么做的话，它显然在告诉你一些事情，然后有些事情是实验性的，应该很有用。

Abhi(主持人)

这个事实在这些神经网络势的论文中有被使用吗？就像是作为一个可能的最终状态。

Corin Wagen

你能想到有什么（用法）吗？我没见过有人用，但感觉最终应该会有的。

Ari Wagen

嗯。我没见过多少论文试图去拟合实验测量数据。看起来，应该能把它们作为任务添加进去，因为它们也在基准测试里，而好的基准测试是是基于实验数据的。特别是在进行基准测试时，对于这些周期性神经网络势，很多基准测试都是关于实验特性的。

我对这个领域的期望是，在构建这些模型时，如果可以的话，我们先从较小系统的特性开始进行基准测试和训练，然后逐步涉及到诸如体相和较大分子的特性。

Abhi(主持人)

你认为使用这类现实生活中的数据集是不是更难获取的成果呢？在我们真正加快计算机模拟测量之前，似乎不值得去涉足。

Corin Wagen

感觉现在有不少我们显然能做的事。而且我觉得这取决于实验数据最终有多关键。因为我想，到目前为止，我们对当前的技术水平可能持相当悲观的看法。但是，像薛定谔公司的的结合亲和力预测和分子对接这些技术。

虽然，它们并不完美，但确实有用，这显然就能提供价值。值得一提的是这是一家非常了不起的大公司，因为大家都在用他们的软件。而且你可以说，看起来效果相当不错。是的，确切的数值有偏差，R 平方（相关系数）不太理想，水的沸点（之类的情况），诸如此类，有些蛋白质需要（设定）限制条件。

但也不是完全没用。你可以说，看，通过基于密度泛函理论（DFT）进行训练，我们能让所有的作用力（计算）更精确。我们可以进行高质量的密度泛函理论计算，这似乎是经过验证的非常好的数据。也许这就足够了，也许它不能让你的相关系数 R 平方达到 1.000，但也不需要那样，也许实际上它能让你达到 90%、95% 的程度，而且不需要太多的实验数据来修正（这个结果）。我想我们还没有充分尝试这种显而易见的策略，所以还不能确定它会失败。所以我觉得，还没做这件事就去追求更高的目标，这是本末倒置的。

Abhi(主持人)

嗯，有道理。毕竟要投入数百万美元来实现更好的结晶以及更好的电子探测器呢。

Corin Wagen

计算数据这东西啊，没错，运行电脑是得花钱的。不过呢，你只要一点击运行，就能获取你的亚马逊云服务（AWS）积分，然后就万事大吉了。

[00:36:18] NNP中的基准测试

Abhi(主持人)

我很好奇，在实践过程中神经网络势是如何进行基准测试的？

你之前有没有稍微提到过这个（问题）呢？比如你有这样一个潜在的最终状态，我们可以通过它进行反向传播。而神经网络势的目标之一是重现那个最终状态吗？还是说会希望它也能沿着轨迹运行，并且与密度泛函理论（DFT）得出的轨迹完全匹配呢？

Ari Wagen

我做过和见过的很多基准测试工作，也都是一些不太令人兴奋的事情。比如，它是否能够从DFT中重现能量和力；或者有时人们现在使用的一些基准测试，如SRME，主要是热力学稳定性基准测试。

如果我运行一个分子动力学（MD）模拟，基准测试试图衡量的不是它是否能重现轨迹，而是它是否稳定

Abhi(主持人)

所谓的稳定性，是说原子保持在原来的位置呢，还是说不会产生爆炸力呢？这儿稳定性的衡量标准是啥呢？我还真不知道这是咋实现的。

Corin Wagen

从定性的角度而言，早期的神经网络势在与训练集相似的情况中往往表现良好。但在进行分子动力学（MD）模拟时，它们会偏离数据分布，进而开始返回随机数。并且，从物理意义上来说，模拟会崩溃，就像是计算机中发生了剧烈故障一般。

所以人们已经制定了一些标准，其中一个标准就是，嗯，要确保不会出现那种情况。显然，这是很粗糙的做法。

Ari Wagen

在很多论文里，我们运行某个系统后，会得到这样的结果：一个势能面和另一个势能面并列呈现。

他们不会给你类似基准数值的东西，就只是两张并排的图。然后你会看到有些波谷和波峰，而有些则错得离谱。我觉得像这样更多的基准测试的话，我们能否重现势能面呢？也许不能重现精确的轨迹，不过要是能重现的话，那就太酷了。

我觉得至少分子动力学（MD）在室温或者更高温度下是非常混乱的。所以我想我更感兴趣的是，嘿，我们能否精确地重现势能面呢？如果可以的话，那就为各个系统设定一个很好的基准。我认为这会是一个非常有趣且有用的基准

Abhi(主持人)

我记得上大学的时候特别痴迷计算机视觉，当时有个梗是说人们在计算机视觉常用的CIFAR - 10基准测试上提高了0.01%。在分子动力学的基准测试里是不是也有类似的情况呢？就是人们在一些简单问题上表现很好，但这种成果其实没多大意义。

Corin Wagen

我认为基准测试经历了不同的阶段。

比如QM9是一个重要的基准，它包含了九原子分子和一系列不同的性质，曾经在过去广泛使用。我觉得人们已经意识到，或者说可能是人们做得太好了，或者它最终并没有变得特别有用。偶尔还是会看到它，但我觉得那只是早期阶段的产物。

目前我认为还没有一个统一的基准测试体系。虽然现在有一些机器学习的基准测试，但整体来说还没有一个标准化的框架。也许你（Ari）是更合适的人来讨论这个问题，因为你在这个领域的经验更丰富。

Ari Wagen

我觉得对于分子神经网络势，在基准测试方面还有很多初步的工作要做。这是我空闲时想填补的空白。

是的。对于研究材料的周期性模型来说，材料项目（Materials Project）在构建数据集和进行基准测试方面已经做得很不错了。所以，在MatBench发现排行榜上，有人发布消息称OrbV2击败了MatBench Discovery，然后几天后，来自FAIR - Chem的Open Materials 2024又略微超过了OrbV2。

他们说他们的模型在MatBench发现排行榜上名列前茅。我觉得有一件事我还没看到，那就是在MatBench发现排行榜上名列前茅的模型是否会以某种方式转化为股东价值呢？我想，目前还不能确定，我们拭目以待。但我认为我们应该试图弄清楚，需要哪些基准测试才能真正知道，这个东西对发现是否有用或者重要？

而且我认为，至少MatBench Discovery就是为了做到这一点而进行的一种尝试。

Abhi(主持人)

你能否解释一下 MatBench 是什么？

Ari Wagen

好啊，这是针对周期性系统的一系列基准测试呢。网站上有个很棒的表格，行里展示着不同的模型，这些基准测试的问题包括像“能否正确预测系统能量”“能否重现作用力”之类的。

他们最近添加了首个与分子动力学（MD）相关的，也就是关于热力学稳定性的基准测试。然后呢，他们有一种方法，可以通过对其他基准测试进行加权平均来计算模型的总分，这样就能对模型进行排序了，而且他们还有一些模型必须满足的合规性标准。

我不太清楚这些合规性标准具体是什么。不过呢，这只是一系列相当标准的基准测试，但这至少能让我们在有人发表新论文时，知道这篇论文跟这个领域之前发表的论文相比是好是坏。

[0:41:49] 分子动力学是真的有用？

Abhi(主持人)

关于这些模型实际产生股东价值这一话题，你可能已经提出过这一观点，即许多分子系统正在研究微观特性，希望能转化为宏观特性。是否存在（这样的情况呢）？令我惊讶的是，至少我还没有看到任何有关神经网络势的论文试图探究我是否在重现宏观特性这一问题

那么，有这样的研究吗？

Corin Wagen

我觉得是有这些论文的。有一些剑桥的人做了很棒的工作，基本上表明你能很好地得到水合自由能之类的结果。就比如这个分子被水溶剂化的程度有多强，你可以用大概一年前出现的一种很好的神经网络势很好地了解这一点。

我觉得这相当了不起。如果细节正确，结果也会正确。看到这个我真的很兴奋。我认为人们正在研究它与结合亲和力的关系，比如大的自由能微扰，像蛋白质 - 配体相互作用这类问题。之类问题最终在于速度仍然太慢了。

所以你必须采用各种近似方法，比如末态校正。目前还不完全清楚现有的模型是否能够非常精确地描述蛋白质 - 配体相互作用。所以有很多不确定因素，我认为总体结果还不明确。

Exscienta最近有一篇论文，基本上认为神经网络势能并没有更好。效果与只是重新拟合小分子力场中的扭转角的情况差不多。我认为这个领域面临的挑战之一是，你所提出的问题—宏观基准测试，比如，我们如何检验我们在关心的事情上做得更好，这些问题是正确的问题，对吧？

我认为这是非常合乎逻辑的问题。我们正在重建传统的药物和材料科学技术体系，不是从头开始，而是必须把各个部分移植过来。这就像把东西移植到CUDA（平台）。就像你需要一切都能正常运作。而我们在过去几年里，作为一个社区，还是在疯狂地构建基础设施，像是，怎么真正运行自由能Perturbation（FEP）之类的。

比如，我们如何得到像这些蛋白质的预测结果，像熔解温度、螺旋度，所有这些东西。比如，我们如何用自己的神经网络势来做这些？我们如何进行扩展？我认为有很多这类实际工作将要做并且正在积极开展。但我觉得这还处于非常早期的阶段，因为今年有两篇论文表明你可以将神经网络势（NNPs）用于完整的蛋白质，而且它们算是真正以有用的方式做到这一点的最早的两篇论文中的两篇。

所以我认为，现在还为时过早。

Abhi(主持人)

我觉得，在我研究这个领域的过程中发现了一个有趣的点，那就是关于动力学是否有用存在分歧，而你可能只想对可能的动态状态分布进行抽样。

Corin Wagen

当需要时序信息时，动力学显然是有用的，这或许是个显而易见的观点，但仍值得一提。如果我有某种激酶，它具有开环和闭环构象，若我想研究从开环到闭环需要多长时间，也就是其动力学情况如何，那么我确实需要用到动力学，因为这是一个与时间相关的动力学问题。

我认为，人们经常使用分子动力学并非是因为他们关心系统随时间的演化，而是更多地因为他们只是想要一种有效的方法来对不同状态进行采样。所以你试图运用一些统计力学方法，比如求平均值，并且想要得到各态历经性，也就是某种无偏采样，而分子动力学（MD）正是实现这一目的的一种非常有效的方法。

但在这种情况下，你可能会认为存在比分子动力学有效得多的采样方法，因为分子动力学的时间步长显然相互之间关联性很强，所以每个帧所含的信息量相当低。

Abhi(主持人)

我觉得尤其是很多纯计算机器学习方面的人对分子动力学这个领域非常悲观。在他们看来，他们可以用AlphaFold进行构象采样。AlphaFold似乎也有一种与分子动力学相当的灵活性。

你可以用DiffDock做对接之类的操作。我想在某些方面，分子动力学确实已经被机器学习的能力超越了，但我也相当乐观地认为，肯定有一些方面分子动力学仍然很重要，并且在未来也将继续保持其重要性。

我很想听听你对这种情况的看法。

Ari Wagen

我认为有必要指出一点，如今的分子动力学（MD）依赖于力场，而力场是量子化学的多项式近似。因此，人们所理解的分子动力学与对神经网络势分子动力学的期望有很大区别。

因此如今的分子动力学在某些任务中是有用的，例如自由能微扰，它能产生结合亲和力。在我看来，这一方法比分子对接要好得多，不过它耗时更多，而且也存在失败的情况。退一步讲，进行计算或模拟最直观的方式就是模拟实际发生的情况。

这种情况非常微观而且发生得很快，当我们服药时，体内的蛋白质和小分子药物确实在四处移动。它们随着时间的推移不断变化、相互作用，我认为如实模拟这种情况总是有用的。

Abhi(主持人)

我感觉自己确实有一种本能的冲动，想要忠实地对实际正在发生的事情进行建模。我很好奇，你觉得神经网络的未来会怎样？不过呢，我们现在还没有认识到神经网络潜力的价值，因为目前分子动力学（MD）的状况实在是很糟糕，好像根本没法用来做什么有用的事儿。

你能想象得到，当神经网络势（NNP）真的变得快速、可靠并且能够扩大规模的时候，是不是就会产生新的应用案例呢？

Corin Wagen

是的，我认为存在一些用例可以用于建模。举个简单的例子，共价反应性，对吧？比如对共价对接以及共价酶的反应性进行建模。通常，力场无法对反应进行建模，量子化学无法对大型系统进行建模。共价抑制剂是与大型系统发生反应的活性物质，所以就目前最先进的方法而言，这是相当棘手的问题。有各种各样的方法可以绕开这个问题，但效果都不是特别好。这正是一个值得投入研究的领域，因为如果真的能够成功模拟共价抑制剂的作用，那将是非常了不起的成就。

如今它们被广泛使用。你可以查看 KRas 相关的研究工作。能够对共价抑制进行实际建模似乎非常重要。而且我也认为，就像Ari之前所说的那样，存在一种直觉，如果你希望你的 DiffDock 之类的东西要足够精确，要获得超级有用的精确度，你就必须以某种方式隐式地学习化学知识，因为我们知道，结合一个带有羟基的分子，和结合一个具有更强氢键供体基团或者更弱氢键受体或者不同的高堆积倾向的分子是不一样的。

这些显然都很重要。所以也许你可以通过某种隐式的迂回方式，利用标记化语言模型来学习所有这些知识。比如你输入你的 ESM2，再输入你的标记器，就像最近的QuickBind论文那样，你在那里学习某种相互作用矩阵。

但似乎你只是在以一种有点奇怪的方式重新发明你希望神经网络势能去做的事情，就好像你为了得到你想要的任何精确度，在某种程度上，这些都是人们真正关心的修饰类型以及构效关系，而且至少在小分子领域，似乎你需要了解化学知识，也许最简洁的方法似乎就是教给模型化学知识然后对这个过程进行建模。

而且，也许会发现存在某种 DNA 编码文库的方法来处理所有这些问题，但在我看来，这种可能性似乎比较小。

Abhi(主持人)

是的。我觉得这实际上是阐述整个问题的一种非常有趣的方式。双方都没有暗中发现有关这个系统的秘密知识。

系统就是系统本身。你不妨拟合和模拟系统内部实际发生的情况，而不是只关注静态结构并寄希望于偶然发现正在发生的事情。

Corin Wagen

嗯，我觉得这也是个特定的问题。所以有些情况下，有一些你需要知道的隐秘知识。

就比如说，你之前写过有关毒性预测的内容。那种情况就是，你不是在模拟十年后的肝脏，不会有那种不会有肝脏的原子对原子的映射之类的东西。然后你把分子画进去，就这么摆弄摆弄，看看会发生什么。

就有些情况，你像是在摸索某个庞然大物之类的东西，试图找出有用的模式。我觉得这是很不一样的情况，但是，对于一些特定的、极其重要的问题，比如将两个已知的东西结合起来，我们知道这种结合非常关键的。

我们也知道做不到，从某种意义上讲，这是个直接模拟的问题。

Abhi(主持人)

关于肝脏物理建模这个话题，你难道不觉得，咱们最终能搞出那种超精细的模型，就像那种能理解正在发生的多体问题的模型吗？

然后呢，咱们能模拟像整个细胞、整个器官这样的东西。在接下来的 10 年里，这到底有没有真正实现的可能呢？还是说在很大程度上这仅仅是科幻领域的东西啊？

Corin Wagen

10年感觉是个非常宏大的目标。我觉得化学是认识世界的一种方式。药物化学家喜欢从原子的角度思考。比如，在一场讲座里，你能看到药物化学家看到满是组织学内容的幻灯片时一脸厌烦，但一看到分子结构就精神一振，这就是药物化学家的一种表现型。我不知道这是不是解决所有问题的正确方式。我觉得有很多问题，这很有趣，但也许对于某些高阶问题，表现型的方法会更好。

我觉得你提到的递归方法也是一个很有意思的思路。这种对细胞进行粗粒化处理的方式是一种粗略的说法。我觉得，即使是像抗体这样的系统，我也确信，如果我们能做一个原子级别的抗体模型，肯定能做出一些非常有用的工作。

我相信我们会有惊人的发现，但也可能我们有太多的归纳性偏好，有太多关于抗体的进化信息，所以进行严格的原子模拟并非极其关键，就像我们现有的模型会更有效一样。

我认为小分子是一个不受限的设计空间。你实际上是在定位每个原子，这就意味着需要更接近物理学的基础，而这是无法避免的。我认为，越是走向原子级别的模拟，这个观点就越加成立，尤其是在像非标准氨基酸这样的方向上。

[00:53:14] 溶剂化效应

Abhi(主持人)

溶剂效应是许多纯机器学习模型完全忽略的一个因素。这些模型假装溶剂效应根本不存在，不把它当作一个需要考虑的因素。

在处理这些结构时，不同的溶剂效应有多重要呢？DiffDock 所学习到的通用溶剂对很多情况来说足够吗？还是说体内实际上存在各种各样的溶剂呢？

Corin Wagen

我觉得吧，大概来说，pH值为7.4且有一些电解质的水，在蛋白质和配体这个尺度上，是个不错的替代物呢。我想，很明显的是，对于细胞膜来说，会有不符合这个规则的情况。在细胞这个尺度上，就不是pH值为7.4的水了，这我们都知道。不过在单个蛋白质及其紧邻物质这个尺度上，我觉得这是个相当不错的模型。我觉得溶剂效应变得极其重要的情况是在反应活性方面，比如结晶过程之类的情况。而且在材料科学领域也是如此，当你在更加多样化的环境里做研究的时候，就是这么个道理。

Abhi(主持人)

是的。我想啊，想象一下，要是你要涉及数千开尔文（温度单位）呢，这个时候模拟可就变得重要起来了。要针对这种情况训练一个模型可太难了。

Corin Wagen

是的。或者，就这些情况而言，我知道一个大难题就是预测各种条件下的溶解度，例如在结晶活性药物产品时的溶解度。

而且在这种情况下，你很容易就有三种不同溶剂的混合物，对吧？同样的情况甚至在电池内部也会发生。所以你有一些乙醇、一些碳酸盐和一些水。就是这样。对溶剂进行建模就成了一个复杂的组合问题。但是，在人体中，嗯，当然，癌细胞的酸性稍强一点，但总体上是非常相似的。

Abhi(主持人)

我其实并不知道这个。真有趣。

Corin Wagen

是的。有一些有趣的工作（研究），在其中你可以设计像酸释放有效载荷之类的东西。我认为，理论上，它们在癌细胞存在的情况下会有一定选择性地被激活。我觉得在做同样的事情时，它不如ADCs（抗体-药物偶联物）有效。

就像抗体比pH敏感基团更具选择性，但这是个很酷的想法。

[00:55:17] 生物大分子中的量子效应

Abhi(主持人)

我挺好奇的，你说抗体里面会不会存在一些有趣的量子效应呢？毕竟抗体就像其他大型生物分子一样，可能存在这种效应，但是因为太难研究，大多数人都直接忽略了。

Ari Wagen

这可真是块未经探索的领域呢。没有新工具的话，我都不知道要怎么才能发现那些正在发生的效应。

Abhi(主持人)

比如说微软的那篇《AI2BMD或BMD2AI》论文呢。

这篇论文是关于从头算神经网络势的，专门针对碎片化蛋白质进行训练，扩展能力特别强，能重现蛋白质中的真实动态。我觉得啊，要是我错了可别客气，得指出来啊。这好像是第一种用像量子水平精度这样的量子方法来研究大型生物分子的方式呢。你觉得这篇论文会引出很多有趣的东西吗？

--------------------------------------------------------------------

ps:小编认为Abhi可能判断有误，如果单从正式发表时间来看，这篇文献似乎比微软的早半年：《Biomolecular dynamics with machine-learned quantum-mechanical force fields trained on diverse chemical fragments》，但是AI2BMD早在23年7月份就公开发布了预印本，所以到底谁是首发，还真不好说。

Corin Wagen

我希望如此。我真的希望如此。我认为这里存在已知的未知和未知的未知之间的一种划分。我们知道，在很多情况下，我们不太清楚如何很好地处理蛋白质 - 配体结合亲和力。当涉及到抗体动力学领域时，也许这里有一些我不太了解的实验数据。

我完全不是抗体方面的专家。但我认为我们确实不知道将会发现什么。而我认为，作为一个基础研究问题，这是非常令人兴奋的。作为一名创业者，我并不真的将其视为我们正在考虑去解决抗体问题的市场。但我认为我们必须保持谦逊的态度。我们不知道，而且结果可能是任何情况。

[00:57:03] DESERS和Anton的遗产

Abhi(主持人)

这就很自然地引出了我关于分子动力学长期影响和贡献之类的问题。该领域的一大推动力是 D.E. shaw研究公司的 “Anto”，这是一台由硬件工程师制造、配备数千个定制专用集成电路、造价极其昂贵的超级计算机。

这台超级计算机催生了一些标题惊人的论文，例如《午餐前的 20 微秒分子动力学模拟》。对于非本领域人士而言，20 微秒对于进行动态模拟来说是极长的时间。然而，该公司从未推出过药物，基本上都是些论文成果。

他们现在有一个治疗部门，不过还没有从这个部门研发出任何药物。你认为 D.E. shaw研究公司和 “Anto” 有什么长期影响和贡献呢？

Corin Wagen

我觉得，也许有必要提一下他们和Relay的合作关系。Relay Therapeutics是一家位于剑桥的公司，我很尊敬他们。

帕特·沃尔特斯（Pat Walters）就在那儿，Relay有很多很棒的人才。最初的想法之一是利DESRES和Anton来发现已知靶点的变构位点，这些靶点已被证明对先前的治疗具有耐药性。我想，很难知道安东实际上起了多大的作用。

如果Relay成功让药物获批上市，Anto、分子动力学（MD）和DESRES能得到多少功劳呢？我想，是的，世界上可能只有少数人知道这个问题的答案，而在这个录音室里没有这样的人。

是的，我确实这么认为，如果你退一步看整个领域，部分问题在于，我们期望分子动力学在哪些方面发挥作用呢？我们想要进行模拟，因为最终它们应该比实验更快，就像我们应该能够在计算机中快速迭代一样。

其他领域就是这样使用模拟的。如果你看空气动力学，比如你模拟一堆机翼和襟翼，然后你就不必在机械车间制造那么多了，这显然是有用的。就像你有研发支出，有搜索问题，就像一个设计和模拟问题，而且你可以迅速缩小在现实生活中实际需要尝试的事物的范围，因为模拟具有足够的保真度。

我只是觉得我们还没达到那个程度，我觉得人们并没有真正思考这个问题，因为我们理所当然地认为，如果想要可靠的数据就必须在实验室里尝试一切，但这正是我们希望分子动力学发挥作用的地方。我认为在药物设计流程的小分子领域，这就是分子动力学应该发挥作用的地方，大概是在命中发现、从命中到先导化合物优化这个环节。

所以我们会谈到优先级排序，会谈到获取洞察力，会谈到一些筛选，但说到底，我们是一家位于波士顿的公司。如果你在肯德尔广场（Kendall Square）闲逛，会看到一栋又一栋大楼里的人都在手动进行搜索，而抽象地说，你会希望分子动力学能够做这些事。

我认为，不管分子动力学的影响是0%还是2%，它都没有达到我们抽象地认为它应该达到的程度，它没有做我们希望它做的事情，所以要努力达到那个程度，我想如果分子动力学已经是某种很棒的模拟主力，那对这个领域来说会很棒，但那样的话就不需要我们做现在正在做的事情了，我们的公司也就不会存在了。

Abhi(主持人)

奇怪的是，分子动力学（MD）显然是有一些成功的案例的。就像埃利奥特・赫什伯格（Elliot Hershberg）和布鲁斯・布斯（Bruce Booth）写过Nimbus Therapuetics和薛定谔公司（Schrodinger）的合作那样。他们基本上提供了后来成为畅销药的成果，却没从中得到一分钱，不过他们确实研发出了这些药。你觉得他们能这么出色地研发出这三种药是侥幸吗？而且除此之外，他们的其他治疗手段都没有真正成功过。

Corin Wagen

我认为现在判断薛定谔治疗方法是否正确还为时过早，因为这些都是最近才出现的。

Abhi(主持人)

确实如此。

Corin Wagen

就像 MALT1 那种情况一样，还有新冠（病毒）这一情况。我觉得还有其他一些情况，因为出现才不过几年，所以目前还尚无定论。我认为，看待这些情况时，你得相信下面两种观点中的一种。所以我想到的Nimbus的情况是，他们把酪氨酸激酶 2（TYK2）抑制剂卖给了武田制药，对吧？

而且我认为价格是 60 亿美元。你还记得多少钱吗？

Ari Wagen

我觉得薛定谔得到的那个（东西）不到 10 亿。嗯，对，我想是不到4亿。

Abhi(主持人)

我还以为他们啥都没得到呢。（我错了）

Corin Wagen

我想是一亿或者两亿。

Abhi(主持人)

好吧。

Corin Wagen

这里有两个结论。一是价值创造较低，或者价值获取较低。

我想，我有个想法，也可能只是直觉（我都不确定这能不能算个假设），就是价值创造看起来比较高，但实际上比看起来的要低，感觉你利用这些工具并没有承担太多风险。就好像你不会轻易把药送给别人，而是会和他们的实验团队合作。要知道，Nimbus 可是一家实实在在的公司，他们有非常聪明的人在努力研发药物呢。再加上你承担风险所带来的溢价，以及即便有模拟你仍然需要做的所有实验工作，我觉得这种分成在某种程度上是公平地反映了价值的。

[01:02:27] 模拟数据的独特增值之处

Abhi(主持人)

是的。

我想，当我想到模拟的时候，我也会想到它有那种去理解在现实生活中难以理解的系统部分的潜力。在化学或者蛋白质设计、分子设计中，是否存在这样一种情况，即你需要通过模拟来理解一些没有模拟就确实无法理解的东西呢？

Ari Wagen

我觉得这里一个简单的例子就像是反应机制之类的情况。它们发生得太快了，以至于无法用电子显微镜进行研究。你不能把电子显微镜对准一个反应，但反应是协同进行的。是的，我觉得这些就是目前这些工具被大量使用并且真正体现价值的地方。

我认为，对于更大的问题而言，存在着一些预测精度阈值，这些工具必须达到这些阈值才会真正有价值。也许分子动力学（MD）对于某些蛋白质来说足够精确，但对于任何现成的蛋白质来说就不够精确了。你还有什么别的想法吗？

Corin Wagen

嗯，我觉得吧，总的来讲洞察力的作用很难去量化，就好比很难给洞察力贴上一个金钱价值的标签，也很难说它能给组织带来多少价值。不过呢，原子非常小，化学反应发生得特别快，在原子领域工作的人很容易过了几周、几个月、几年，都没有真正直观地了解正在发生的啥情况。

我想这就是人们为啥这么喜欢分子对接（docking）。你能读到好多论文都在争论对接没啥用，从信息理论的角度来说对接可以忽略不计，就像有人跟我说的，对接是没用的。但说到底，你要是跟药物化学家聊聊，问问他们喜欢啥，他们会说：“我就喜欢能看到自己的化合物能不能与（受体）口袋契合，哪怕只是了解下口袋大小和在三维空间里的契合情况，对我来说都很有用。就算（对接得出的）数值没意义，我也能得到很大满足感，还能帮我头脑风暴，就看看可能的契合情况就很有用。

” 它能帮我产生想法，我觉得这对人们是有用的。还有啊，像反应建模、共价抑制剂、动力学，比如观察物体的运动，像蛋白质口袋（的研究）。我觉得这些虽然没有直接影响到底线（收益等），但是构建能帮助科学家更好思考和建立直觉的非常有价值的工具这一点是被低估了的。

Abhi(主持人)

我觉得，我马上就想到，我知道你们在打造Rowan的时候采访了很多科学家。像那些研究药物化学的专家的直觉，就是这些工具确实有助于我理解正在发生的事情，这种直觉有多少是真实的呢？又有多少是不真实的呢？因为他们看到某些事情可能会发生，即便这与实际发生的事情并不相符。

有多少是，我不想用‘自我安慰’这个词，但多少有点自我安慰的成分呢？

Corin Wagen

是的，这或许是一种自我安慰吧。我觉得如果你的工具生成随机图片，人们会察觉出来的。我认为药物化学家实际上很快就会学会不信任计算工具。

这不难理解。你交谈过的很多人都有很强的防范心理，不会轻易相信计算机得出的结果，我想从他们的角度来看这可能是合理的。

不过我确实认为，概念上有用和正确并不总是一回事，如果你与正确有足够的关联性，人们就会认为它是有用的，即使它并非如此。它是某事物的一个好模型，但这并不意味着在这种情况下你正在寻求绝对真理的正确道路上。

是的，我真的不（这么认为），而且人们也很容易被漂亮的图片所吸引，所以如果你给他们一些适合放在幻灯片里的好看的东西，他们可能就会喜欢，因为这让他们觉得自己在工作中表现得更理性，而不是单纯地随机地筛选东西。即使随机筛选实际上是一种非常有效且被广泛采用策略。

[01:06:34] 材料科学中的NNP

Abhi(主持人)

我对这一领域的材料科学应用了解不多。关于催化剂设计以及材料科学中的相关领域，我很想了解更多。特别是在这些领域中，神经网络势（NNPs）的使用案例是什么？我很想听听您的见解。

Corin Wagen

是啊。在模拟的时候，人们会把材料科学当作一个整体来谈，但我觉得它其实是由八个小领域组成的，只是被掩盖起来了。有些情况是这样的，你在不同情境下对有机药物分子之类的进行建模时，基本上可以使用和药物设计相同的模型。

比如，一些领域像氧化还原液流电池、电池电解质，你可能研究的是不同的盐类或更多的磷酸盐，而不是氨基酸，但在某种程度上，问题本质上是类似的。像是溶液建模、分子动力学、聚合物特性，就像恒温器一样是对系统分布进行建模。而像太阳能、上转换这些过程就非常不同了。

我觉得从更大的范围来看材料科学，和药物设计有很大的不同。在药物设计中，有一套“手册”，甚至可能有几种手册：比如抗体设计手册、小分子设计手册，或者像你们可能正在编写AAV（腺相关病毒）设计手册。然而，在材料科学中，这种手册的概念并不存在。每个人的研究问题和解决方式都稍有不同。

所以我觉得在材料科学里引入很多非常专门化的工作流程工具效果不太好。有些人在设计有机发光二极管（OLED），有些人在设计新型墨水，有些人在设计电光材料。你得在这些领域具备通用性，才能广泛适用。

我觉得从最基本的层面来说，如果有一个理解化学的模型，这些在某种程度上都是化学问题，这样就能发挥作用，只是解决方案需要更具适应性。

Abhi(主持人)

我觉得，就我读过的为数不多的相关报道而言，材料科学方面的研究，尤其是蓝色发光二极管的制造以及半导体方面正在进行的研究工作，感觉就像是一个需要尝试上亿次才可能成功的领域。而像化学领域，比如药物设计，似乎设计方法更加理性一些。

这样区分是否合理呢？

Corin Wagen

我觉得在这两个领域里，都有理性的时候，也有最理性的做法就是筛选一百万种事物的时候。我觉得这就是理性的一部分，即弄清楚何时以及如何筛选一百万种事物，就像蓝色发光二极管（LED），你要调整它的带隙。

你能想象到如何改变分子从而改变带隙。但同时也存在堆积效应和稳定性的问题，研究得足够深入后就可以开始筛选了。我觉得药物设计也是如此。也许，我们通常从高通量筛选开始（这里指药物设计领域），从一个DNA编码库开始，还有一些片段浸泡之类的（操作）。我们一开始就引入随机性，一旦有了（有效的）结果，我们就可以利用药物化学家、计算工具等直觉和技能来合理地达成某个目标。

我认为化学作为一个领域，它最好也是最糟的一点就是介于能够被完全理解和无法被理解之间。在各个层面上都是这样，你需要理解事物，但又无法理解一切。

而这正是我喜欢它的部分原因。

Abhi(主持人)

要是你回头看看那个最先发明蓝色发光二极管的日本上班族，给他材料科学神经网络势之类的东西，会有什么实际好处吗？他能不能用这个做些有趣的事呢？

还是说，即便是这样，用这些工具也还是有点挑战性？

Corin Wagen

你能解释一下吗？其实我对蓝光LED的知识了解不多，只稍微看过一些关于带隙效应和LED的内容。我们的同事Jonathan写过一篇相关的博客文章，但我实际上不太清楚当时他们在解决的具体挑战到底是什么。

Abhi(主持人)

挑战几乎可以说是“如何在一种材料上完美地沉积另一种材料”，必须做到完全精准。

否则某些关键的特性就无法实现。此外，还涉及带隙（band gap）的问题。他需要设计出一种特殊的结构，以确保电子能够正确地流动。我记不清具体细节了。我记得看过一个相关的视频，其中提到他每天工作15个小时，专注于操作沉积机器，不断尝试各种可能性。

而因为他自己建造了这台机器，他可以自由地尝试不同的方法和组合。这看起来更像是一种非常宏观的过程，他是通过动手操作并测量结果来探索解决方案的。

Corin Wagen

好的。

Abhi(主持人)

神经网络在这一点上能做些什么吗？

Corin Wagen

对于一个开放式问题，直接拒绝回答似乎有点不礼貌，但这并不像是一个我会选择用神经网络势（NNP）来解决的问题。我也不想成为那种闯入科学领域、声称模拟能解决一切问题的科技人士。如果你看像芯片设计这样的领域，总研发支出和模拟支出的比例是怎样的？我记得大概是5%左右，也就是说19:1的比例更倾向于实际操作，而不是依赖模拟。我觉得这反映了一个现实：现实是复杂的。作为从事模拟工作的人，我们需要保持谦逊，承认我们无法捕捉到一切，我们需要更“接地气”些。

就像你需要真正去做实验，去发现一些东西。如果你的模拟不管用，那就别浪费钱了，直接去做实验吧。这种思路是很重要的。不过话虽如此，模拟确实便宜得多。所以，只要有可能用模拟来解决问题，那当然更好。但我认为，仍有许多问题会在相当长的一段时间内依赖实验来解决。

Abhi(主持人)

这很有道理。

Ari Wagen

关于蓝色LED的事情，

我可能也看过同样的视频。

Abhi(主持人)

是那个Veritasium的视频吗？

Ari Wagen

是的。我觉得或许可以利用这些材料模型中的一些来预测不同晶体结构的稳定性或者相对能量，并且至少弄清楚需要这些原子的何种比例。但是如果你从计算机得到一个答案，比如这个晶体结构可能可行，我完全不知道如何将其转化为实际操作。

你如何使用沉积机来制造这种特定的晶体结构呢？我认为这仍然会是一个漫长而艰巨的过程。所以真的很难有把握地说这里面确实有价值。但我认为还是有希望的。是吧。

Abhi(主持人)

我想象，如果类似“圣杯”的目标真的实现了。

你就可以随意放大规模，那些事情确实会变得可能。但这距离现实又太遥远了，以至于很难去想象。

Corin Wagen

是的，我觉得我更乐意去思考离我们今天的现状只有一两步远的事情。如果试图去想象离我们今天四五步远的未来，那就有点像科普幻想的范畴了。

比如说未来神经网络势能会帮你设计一个定制药物，然后还顺便帮你叠好床单之类的事情。我不知道……反正我们的公司在那种未来到来之前，可能早就已经成功或失败了。

[01:13:57] 构建NNP的道路

Abhi(主持人)

当我一开始提到Rowan时，我把你们描述为一家量子化学模拟的初创公司，也就是说，你们是在构建一个用于实际执行量子化学计算的前端平台。但你们后来完全转向了开发自己的神经网络势。你们为什么会做出这样的转型？有什么特别的原因吗？

Ari Wagen

最初的Rowan确实是这样的。我们一开始的目标是构建一个网络平台，帮助人们运行他们的计算化学工作流。我们完全没有打算去训练神经网络势，甚至连神经网络势是什么都不太清楚——至少我是不知道的。直到去年秋天，卡内基梅隆大学的Isayev团队发布了他们的AIMNet2模型，这是ANI模型的继任者。

我们把它集成到了Rowan上，结果它在工业界和学术界的用户中得到了大量的使用。我们对它的性能感到非常惊讶。甚至可以说，直到今天，它依然是领先的神经网络势模型之一。在思考“对于我们的用户来说，这类工具的最有用版本应该是什么样”时。

我们意识到市场上并没有人在构建这样的东西。我觉得，那是我们停下来环顾四周、问自己“谁会解决这个问题”的时刻，而我们发现，只有我们站在那里，准备好去解决这个问题。

于是我们增加了一位第三联合创始人，专门负责领导这一方向上的工作。

Abhi(主持人)

是否有一些新的挑战与此相关？我想，之前Rowan的主要重点似乎并不在科学本身，而是更多关注于UI/UX方面。而现在你们正在向更偏向“纯科学”的方向转型。对此你们遇到了什么样的挑战吗？

Corin Wagen

其实，我觉得根据我们目前发布的内容得出这个假设是合理的，但实际上，从一开始我们就在尝试做应用型的研发（applied R&D）。

让我简单回顾一下Rowan的起源。我读的是实验化学博士，但我碰巧有一些模拟（simulation）和软件开发的经验。所以我在自己的研究中能够使用模拟工具来支持实验工作。

这个过程非常强大，感觉像是化学的未来，非常棒。然而，这种方法对我研究组里的其他人或整个系来说并不具有可扩展性。因为我所做的事情并不是其他人也能轻易复制的——解决方案不能是“花三年时间学习编程然后回来再说”，对大多数研究生来说，这根本不现实。

所以，Rowan的核心使命是：我们应该为科学家们打造他们需要的工具。分子设计、与分子和材料交互的未来应该包含模拟工具。模拟应该成为日常工作流程中更重要的一部分，而不仅仅是局限于某些计算科学家。如果你看科幻电影，科学家们都在用电脑模拟各种东西。其他领域已经把模拟工具作为工作的一部分了，而在化学中，它的应用还远远不够。如果从这样的未来目标倒推，我们的想法是要构建面向所有科学家的工具，而不仅仅是计算科学家。它不能需要花一周时间才能运行一次，必须要更快。

因此我们最初做的是量子化学模拟，但它太慢了。于是我们疯狂地尝试各种想法来加速这个过程：从零开始编写代码，尝试各种近似方法，调整各种参数和开关……所有这些尝试最终都没有价值，因为它们全都失败了。事实证明，在一个已经有百年历史的科学领域里尝试让现有方法快上两个数量级是非常困难的。

你只能得到很多20%左右的改进。然后我们看到了神经网络势（neural network potentials），并把它们放到了我们的网站上。那是我们第一次发现用户真的喜欢我们做的东西。那一刻就像突然点亮了灯泡一样——原来这才是我们一直在等的东西。我们之前的技术方向完全点错了技能树。

Abhi(主持人)

我觉得现在有很多人都在尝试基于他们在博士期间使用过的工具，创建一些公司来解决这些工具中的问题。但似乎他们遇到了一个问题，那就是现有的行业玩家（incumbents）其实并不太关心这些新工具，他们对现有的工具套件已经很满意了。而Rowan看起来更像是在押注一种全新的工具使用方式。你觉得那些试图现代化现有工具或者改进已有工具的人，会成功吗？

Ari Wagen

你会有一个“采用曲线”（adoption curve），这是人们在创业公司中经常考虑的事情。你会有那些早期采用者和创新者，他们愿意尝试新事物，愿意学习，甚至愿意用一种全新的思维方式来看待模拟和设计工具在工作流程中的位置。

我觉得这些人是愿意尝试像我们这样的工具，也愿意尝试其他公司正在开发的工具。随着时间推移，人们会退休，而新的博士生会毕业并进入行业工作。我认为，这种人才的更替将是推动这些公司工具变革的最大驱动力。因为新进入职场的人，也许在做研究或者职业初期，会开始使用新工具。他们没有已经偏好的工具，也没有固有的思维模式和偏见，因此更愿意尝试新的工具。

所以，我觉得这一变化的过程会非常缓慢。

Abhi(主持人)

“Corin，你多次提到过你在读博士期间用过的工具有多么糟糕。我感觉当科学家谈论他们工具有多糟糕时，总是很模糊。”

“他们从来不会具体说明，比如，‘这个功能完全做不了’。这些工具到底具体哪里难用？什么地方特别糟糕？”

Corin Wagen

“比如说，你想运行一个简单的计算。”“我有一个分子，我想优化它，弄清楚它会是什么形状。

这是一个非常基础的计算化学任务。”“但实际上做这件事需要这样的流程：”

你先把分子画出来，好吧，这一步看起来还算合理；然后你需要为它写一个输入文件，在这个过程中，你得记住一堆非常晦涩的缩写，用来描述你希望这个计算怎么运行。如果你想让它运行得更稳健，或者用一些前沿的技术，

你还得添加许多非标准的设置。接着，你需要把所有这些文件传输到某个远程服务器上；然后运行一个巨大的Fortran可执行文件。这个程序可能会运行成功，也可能内存不足崩溃，或者出现内存泄漏等问题。

运行完后，它会给你生成一个一百多兆的文本文件。然后你需要用grep工具在这个文件中寻找答案的位置，记住你需要搜索的短语，把找到的结果剪切、粘贴出来，再试着理解这些结果的意义。“所以你可以在这方面变得很熟练。”

因此，熟练的计算化学家通常会有一堆awk脚本，在需要时随时调用。但整个过程充满了繁琐的“咒语式操作”，而且是一个非常“多步骤”的过程。即使计算本身只需要15秒钟。

你也要花10到30分钟来完成整个操作流程——这还是在你非常熟悉这一切的前提下，包括文件准备、运行计算、分析结果。

“如果你想指导一个年轻的研究生，带他们入门，情况会更糟。”

你可能会说：“好吧，在你进入实验室之前，我们先看看这个分子是否会有正确的形状。” 然后你得给他们一份包含30步的操作指南，告诉他们如何完成这件事。这种使用流程中存在很大的阻力。

“再比如，如果你想做一些更聪明的事情呢？”假设你想扫描一堆对接构象，评估每种对接构象的应变能，并对每个不同的配体自动进行高通量计算，再提取结果生成图表。

这种任务会变得非常繁重，甚至令人望而却步。

[01:21:13] 打造分子模拟的solidWorks

Abhi(主持人)

实际上，关于模拟在研究工作流中的作用，你有一篇非常棒的博客文章，讨论了分子模拟软件应该如何尝试模仿 SolidWorks 的设计理念。具体来说，就是它应该易于使用，不试图替代现实世界中实际构建事物的过程，而是辅助人类的直觉，而不是试图取代它。

从很多方面来看，Rowan实际上是在尝试构建分子模拟领域的“SolidWorks”。你认为真正实现这一目标的最大障碍是什么？

Corin Wagen

“一个问题是我们的现实模型并不是特别准确。”

因此，SolidWorks的工作方式是，你建模一个机器零件，尽管它可能不涉及很多直觉判断，但如果你切割一块金属，它最终会看起来和你切割的一样。这个过程是确定性的：你可以说“这些零件会这样装配在一起”。然而，在分子模拟中，关于我们如何建模事物、几何形状和属性的过程中，存在一定的不确定性和模糊性。

我们正在尝试用神经网络势（neural network potentials）来解决这一问题：让准确的模拟以更有用的速度和更高的鲁棒性扩展，这也是我们一直在讨论的内容。

“另一个问题是用户体验和人机交互的难度。”

几代实验化学家都学到了一些关于模拟的观念，其中之一就是：这是专家的工作，非常复杂，而且如果你做错了，人们会生气。这导致了一种“习得的无助感”。还有一种观念是：“这是别人做的事情——论文里写的，或者我组织里的其他人在做。我能看出来它没用，但我不知道为什么他们还能有工作。”

“还有一种观念是：‘这不是我能做的事，我也不相信从中得出的任何结果。’

再有一种类型的人会觉得：“这看起来很酷，但不在我的能力范围内。” 就像在科学探索的“角色选择”中，他们走了不同的路径。

就像，我觉得那些领域对我来说已经永远关闭了。也许我本可以做模拟，但或许如果我换份工作，我会试着学一些相关的东西。“我认为，Rowan的一个令人兴奋但也充满挑战的地方在于，我们正在尝试构建一种工具，让许多科学家都能使用，包括那些传统上没有从事过模拟工作的科学家。”

我们可以解决很多问题，比如产品层面、工程层面、鲁棒性、工作流程、工具包装等方面，目标是让这些工具简单、易懂且可靠，同时还能提供高质量的结果。但更基础的问题是教育：“你可能从未做过模拟。

这些工具擅长这些事情，而不擅长那些事情。在某些场景下它是可行的，但你需要非常仔细地核对结果。它大约需要这么长时间。”我们实际上是在培养一种新的行为习惯。比如说，在你冲进实验室做某个实验之前，也许可以花十分钟检查一下这个想法是否明显是个蠢主意，避免浪费接下来三周的时间。这要求行为发生某种变化，而我发现这比我预期的更难，因为我是一个早期采用者。我一直对模拟感到兴奋，而使用Rowan的部分用户也是这样的人。但增长的关键在于，我们能否吸引那些还在犹豫，或者天生对模拟持怀疑态度的人群。

Abhi(主持人)

我想，你们的首批用户群应该会是化学领域的博士。

Corin Wagen

没错。

Abhi(主持人)

你们觉得第二波用户会是谁？是纯粹从事机器学习的人，还是结构生物学家？我想结构生物学家可能也属于第一批用户的一部分。那么，第二批用户会是谁呢？

Ari Wagen

我认为是那些在小型公司工作的人。无论他们是在材料科学的相关领域，还是在处理生物技术问题的公司。我觉得可能会是那些刚毕业的人，或者是那些他们的公司买不起这些传统工具的昂贵许可证，而正在寻找解决方案的人。

Corin Wagen

是的，不好意思，我想确认一下，你刚才提到第一批用户是化学家，或者拥有化学博士学位的人，对吧？

是的。不过我觉得你可能低估了这里的差距。如果你看一家前20的制药公司，问一下这个机构里真正使用Schrodinger或类似工具的人有多少，我从几个不同的来源了解到，这个数字通常只有40到50人左右。

Abhi(主持人)

“整个机构加起来？”

Corin Wagen

整个机构加起来，也就是……

Abhi(主持人)

这很惊人，不是吗？

Corin Wagen

这真的令人惊讶。它是一种高级用户工具。我认为这是因为它并不是为化学家设计的工具，而是为那些在使用它方面拥有博士学位的人准备的。问题就在于此。因此，即使像我不想称之为斗争，但我们面临的一个挑战是，你可能在其他化学领域拥有博士学位，但并不是在模拟领域。

显然，你非常聪明，也明显是一个积极进取的人。那么我们该如何让你发现这一工具的价值，并能从我们所构建的工具中受益呢？因为我们知道，能够使用模拟的人，确实能认识到模拟的价值，但还有一千多个化学博士呢？

我认为这对于我们以及几乎所有人来说，都是一片蓝海，充满了需要优秀工具的人。

Abhi(主持人)

我想象自己是一个主要从事机器学习的人。

Corin Wagen

是的

Abhi(主持人)

我会对使用任何分子模拟工具感到非常恐惧，正因为你所提到的原因：在这背后发生了很多事情，而我并不真正理解。

你认为在分子模拟的世界中，是否存在一些我只是不知道的工作流程，这些工作流程实际上可以被商品化，并适应我这种非化学家的思维方式？在我看来，这个领域的一切都是一种艺术，无法简化到我所能理解的层面。

Corin Wagen

为了实现一键式的工作流程，你需要具备一定的科学成熟度，比如在运行几个检查后，你能判断“是的，这个结果应该不错”，然后你就可以盲目信任输出的答案。我们正在努力让更多的工作流程达到这样的标准。

我们Rowan当前的许多工作流程都是这样运作的，我们避免添加那些不符合这种方式的流程，因为这感觉太残忍了。但我认为，你使用化学工具需要理解化学，这在现在看来是个合理的入门要求，Rowan在很长一段时间内恐怕也无法从零开始教授人们化学。

也许我们正在尝试与课程合作，参与教育过程。但如果你对化学毫无了解，比如不知道什么是pKa或者反应是什么样的，那会很困难。我们在讲不同的语言。我觉得我们需要关注的是那些理解化学，但对模拟一无所知的人。

我们认为真正应该为其服务的人是那些能理解化学但对模拟毫无经验的人。这正是我们需要解决的问题。如果你是一位优秀的化学家，却从未接触过任何计算机，我们应该能够在你现有的基础上帮助你，告诉你“我们能提供什么帮助”。

我们能为你节省时间。你可以信任我们，我们不会对你撒谎，不会以高高在上的态度对待你或试图向你推销虚假产品。我们可以模型化的内容和这些内容的实际用途在哪里，这正是我们还在不断迭代的部分，但我相信我们能够成功。

Abhi(主持人)

是的，直觉上让人有些惊讶的是，即使你是一名化学家，实际上要使用模拟软件，还是需要对模拟有一定了解，比如至少完成过相关领域的博士学位。这种感觉就像几乎每个生物学家都觉得自己对编程有些许了解一样。

那么，为什么在模拟方面存在如此明显的差距呢？是文化问题，还是工具真的那么糟糕，还是两者兼而有之？

Corin Wagen

我认为这两者是相互交织的。文化因素也许很重要，这在某种程度上是合理的。我觉得，各个领域都有自己的文化。

特别是有机化学是我的主攻领域，我认为它是科学领域中最古老的之一。现代科学实践的基础源于19世纪30年代的有机化学家弗里德里希·沃勒，现代研究大学的建立与他密不可分，这里有着丰富的传统。

在90年代出现的一些研究在化学界被认为是“新”的，当人们转向机器学习（ML）这一新领域的过程中，这种气氛变化非常明显。例如，《Attention Is All You Need》发表于2017年，而密度泛函（density functional）来自2010年，但在某些软件包中仍然没有。

因为这些方法太新了。我不知道，总的来说，人们对有机化学有一种艺术感，也是一种技术。我的导师和他的导师都有自己传承下来的做法，而你知道，那位导师曾是一名纳粹分子，然后在他之前的导师……这种情况让人对基于工具的创新感到怀疑，打破这种壁垒非常困难。

而我认为，生物学则显得更加像个“西部拓荒时代”的领域。

[01:30:05] 分子模拟工作流

Abhi(主持人)

我很好奇，你认为哪些工作流程将永远停留在艺术的领域？

Corin Wagen

首先，这个问题非常偏向化学领域，比如反应预测和理解反应是如何发生的，即反应机制。

如果你有一些反应物和产物，并且试图理解它们是如何转变的，真正理解它们相互转化的机制，以及参与的分子数、几何结构、合理的可能性和不合理的可能性是什么，这些都是非常重要的。

我们该如何展开这项搜索呢？这实际上是一个非常开放和创意的问题。我在这方面完成了博士，所以我可能有些偏见。我觉得这就像是一种分子版的福尔摩斯探案，你必须以正确的方式将计算和实验结合起来。这是非常困难的。对我来说，这就是一个很简单的例子：你可以进行自动过渡态寻找，如果你知道自己在寻找什么，它们效果还是不错的。

但关于“这将如何发生”的问题是极具艺术性的，我认为那里并不存在系统性的解决方案。

Abhi(主持人)

你不认为像搜索算法这样的工具可以解决这个问题吗？

Corin Wagen

像网络搜索那样的搜索算法？是的，但因为涉及的变量太多，很快就会变得复杂。

你可以有二聚体，可以有更高阶的组合，也可能涉及溶剂的参与，这些都是长尾现象，可能我在这里有些过于挑剔了。这就是一种网络组合的问题，感觉很难做到准确。

对，我觉得这也需要加入实验中的归纳偏倚。而且很可能在相当长一段时间内都需要这样做。

Abhi(主持人)

这很有道理。

Corin Wagen

所以这并不容易被黑箱化。你需要将这些因素考虑进去。我认为自由能微扰（FEP）就是一个例子，根据与谁交谈的不同，很多人认为它是非常困难甚至是不可能的，无法做到简单的一键式工作流程。

这真的很依赖于你和谁在交流。我对这两方面都有强烈的观点，但我觉得这可能是可以解决的，应该能够以一键的方式实现。只是大多数情况下，它还没有完全达到那个水平。

Abhi(主持人)

我其实一直认为，自由能差异至少在某种程度上是相对简单的一键式操作，对吧？你只需替换分子就可以了。

我是不是遗漏了一些重要的细节？

Ari Wagen

在自由能微扰（FEP）中，由于这些模拟的运行成本极其高昂，为了节省模拟成本，你会希望它们能够在一夜之间完成。这是不太可能的，这里涉及到很多复杂的统计工作，对我来说，这是一个很繁琐的过程，在这个过程中，他们会同时运行蛋白质模型，同时考虑分子A和分子B，FEP会在这两个分子相似度之间移动，比如你会在模型之间的光谱上选择不同的位置。所以我们在这里模拟的是30%的A和70%的B。这个过程通常会应用于一系列分子，并根据它们的相似性进行排序，从A到B，再从B到C，最后到D。因此，这其中涉及到很多复杂的统计工作。

此外，蛋白质通常太大，无法在一夜之间完成建模。因此，人们会随机削减蛋白质的某些部分，以使系统能够运行。你削减了一部分蛋白质后，开始运行并确保其稳定性。如果你削减了错误的部分，你就得尝试削减另一部分。

理论上，运行一个含有蛋白质、分子和溶剂的视频以计算自由能听起来确实很不错，但为了将其转化为一个可处理的问题，考虑到今天的计算成本和架构等因素，需要做大量的手动工作，里面有许多猜测和检验的环节。

Abhi(主持人)

是的，建立系统是一个挑战，设置将一个系统转变为另一个状态的条件也是非常有难度的，而这一切要实现自动化更是非常困难的。

Corin Wagen

是的，我觉得确实如此，很多分析都是基于直觉的，昨天就有一篇论文指出输入构象实际上是很重要的，尽管你希望它不那么重要，但事实是它确实会影响结果。

所以你必须确保构象是正确的。如果有潜在的碱性和酸性位点，担心质子转移也很重要，因为这会导致配体与蛋白质之间的质子转移。而且，在不同的电荷状态之间转换也是困难的。这些都是可以解决的问题。

一种办法是，如果你能更快地运行模拟，就能够解决这些问题。如果能进行更长时间的模拟，我们就不会那么在意输入构象。然而，如果模拟时间过长，有时蛋白质会开始分解和展开，或者配体会漂移出来，所以你必须确保这种情况不会发生。

我认为这些问题都是应该解决的，也许神经网络势能会解决这些问题，也可能其他的进展会带来解决方案，但这都是非常细致复杂的工作。

Abhi(主持人)

你提到了一些可能会长期停留在艺术领域的内容。那么，你认为哪些事情是比较简单的工作，而大多数化学家可能并没有意识到？

这些事情应该完全在他们的能力范围内，如果他们能得到足够好的工具的话。

Corin Wagen

我认为，理解分子的构象和形状是最基本但往往被低估的事情，这在很大程度上决定了分子的行为。这是一个基础性的概念，我们在日常物品中理所当然地接受，但你在研究一个分子时，可能完全不知道它的形状。

严格来说，我在整个项目中也曾经历过这样的情况。是的，我认为这是一个相对容易预测且非常有用的内容，直观性也很强。尤其是当我们面对更大的分子，比如大环和超出五条规则的分子，它们能够靶向蛋白质-蛋白质相互作用（PPI）以及有趣的肽系统时，实际上理解这些分子的形状和趋势，以及取代基如何影响构象和特性，都是非常困难的。

这并不是显而易见的，这在该领域中是一个突出的挑战：理解一个分子最终会是什么形状。如果我把这个辅助基团换掉，它会完全重新映射我的大环分子的整体构象吗？这方面的理解是有用的，这一点非常重要，而且在计算上相对容易解决。

Abhi(主持人)

这可能会暴露我对化学知识的无知，但我对许多分子的初步印象是它们是非常灵活的。那么，实际了解几个构象状态能带来多少益处呢？

Corin Wagen

是的，有些分子确实非常灵活，比如一种庞大的脂肪酸，它就像一条由碳链组成的蛇。

可以说，这些分子是天然无序的小分子，因此我认为这并不是特别有帮助，因为无论如何它们都会四处扭动。通常，在能量景观上存在很多可达状态，但如果你在分布的1%或0.1%处，且能量上升几大卡每摩尔，那么如果你以这种构象结合，就会降低结合的可能性，因为你必须扭曲才能进入结合位置。因此，提升小分子药物效能的一个常见方法就是“冻结”某个构象，将其锁定在结合状态。这是人们现在利用量子化学做的事情之一，你可以创建一个关于所有潜在构象的图谱，例如什么是结合构象，它的能量比基态高了多少，以及你因为不处于基态构象而损失了多少。

然后你只需设计一个具有正确构象的分子。这是专家、获得博士学位的人所做的事情，但普通人也可以而且应该这样做。这很直观，直接关联到那些易于理解的事物上。

Abhi(主持人)

对于小分子，一旦将其引入体内，是不是会有强烈的怀疑，认为其会发生剧烈变化？

Corin Wagen

我认为小分子的自由度要少得多，因此发生剧烈变化的可能性也小得多。在某些方面，小分子就是更简单的。你关注的只是它是否会被质子化，但你不太可能遇到大量的电解质效应，或者更不容易形成复合物。

它们通常可以结合到白蛋白上或其他蛋白质。但我认为在水中和体内的构象在初步近似时往往是相似的，基本上可以认为是相同的。

Abhi(主持人)

关于结构优化的话题，你曾在一篇博客文章中提到，使用开源的神经网络势方法可以在五分钟内优化常见抗生素阿奇霉素的结构，而使用基于DFT的方法则需要九个小时，最终两者的准确性相似。那么，这对化学家的最终收益是什么呢？是更快的迭代时间、在先导化合物优化中花费更少的时间，还是我没有想到的其他方面？

Corin Wagen

我认为在SolidWorks的视角下，这个观点非常有道理，结构优化就像是你进行任何其他工作的起点。

如果你要进行对接，或者试图弄清楚它的反应机制，你首先需要从正确的结构开始。在边际上，某个计算的运行速度影响到你的云计算支出，但这并不是大问题。我认为关键在于当你能够达到一种数量级的变化时，就会引发行为的转变。

因此，一个运行一个月的计算，对任何学术界以外的人都没有用处；而一个运行九小时的计算则有所不同。这意味着我可以明天再来看这个，我们可以在下周的组会上讨论一下。而一个在你去喝杯咖啡或者上厕所的时间内完成的计算，就让你有了“哦，我今天就能做到这一点并理解它”的感觉。

目标是让这个过程能够像实时响应一样直观，你绘制你的结构，立刻得到正确的结果。我认为，从洞察力和设计工具的角度来看，减少计算时间将成倍增加最终用户的实用性。

在Rowan，我们确实看到了这样的情况，一些用户能够坐下来进行实验，他们进行设计、模拟、思考、设计、模拟、思考，反复循环。当他们优化的属性只需要30秒就能完成计算时，人们会在这方面频繁操作，例如进行氧化还原电位的预测。

这更多是在合成方面的应用，旨在弄清楚在某个分子上添加或移除电子的难易程度。我们有一个几乎瞬时运行的良好解决方案。因此，如果你想要一个具有特定氧化还原特性的分子，尝试一下，再试试其他选项，继续尝试。

这开始呈现出你所希望的未来在越来越多领域的样子。如果我们也能对药物结合亲和力进行这样的操作，那就太棒了，你会说，哦，这个结合得不是很好，哦，我们如果在这里添加一点东西会怎样？

这样的未来对于药物发现来说将是令人惊叹的，但实现起来却相当困难。

[01:41:06] 计算化学的作用

Abhi(主持人)

是的，这很有道理。你会隐约感受到这种文化转变：等待一个月来计算某个结果，会让你完全忽视它，而如果只需几个小时就能完成计算，你就会认真去调查。

你认为在薛定谔崛起的过程中是否发生了类似的变化？在药物开发方面有那些教训可以借鉴，特别是这种变化是如何发生的？我想这个问题的答案可能只有少数人知道，不过我很好奇你对此是否有一些内部的见解。

Corin Wagen

我不确定自己是否有“秘密知识”。我认为确实发生过变化，就像Vertex的兴起和薛定谔的崛起，这标志着计算机在药物发现中首次变得有用。你可以追溯到50年代和60年代，那时计算机在模拟领域几乎没有什么用处。

接着，开始出现一些内部工具和外部工具，逐渐进入大众市场。人们建立了计算团队，或者像Vertex这样的新公司围绕计算展开。然后，你开始有专家，科学家利用计算来支持各种工作。

我听说目前计算化学家的角色常常被描述为一种“助手”，以支持药物化学家工作。有时这表现为建模，有时是数据处理，比如在数据上构建小规模的机器学习模型。我听到过一些人说：“我会做任何有用的事情。

”有时这甚至包括去买咖啡。这确实是一种尝试很多不同工作的角色。我认为，我们已经看到这一点：现在几乎是每个组织的一部分，几乎每个顶级制药公司都在使用薛定谔，几乎每个团队都有一位计算人员，但这一角色的实际效用似乎略有停滞，可能并没有完全停滞，但确实有所减缓。

就好像在这些组织里，并没有越来越多的人从事计算相关工作。

Abhi(主持人)

在普通的制药公司中，平均水平的计算化学家认为自己是有用的吗，还是更倾向于希望自己有一天能变得有用？

Corin Wagen

我认为他们是有用的，我真的认为他们很有价值，但他们会有很多……我对这些人没有任何个人恩怨。

我对他们的看法很高，他们往往非常谦逊。他们意识到自己的模型是有缺陷的，如果他们想要保持受信任和有用，这一点他们通常都能做到，诚实地面对这一点。他们会说：“嘿，这就是模型预测的结果。我们认为这个会很好。

但有时实验人员对计算的看法往往滞后于现实，所以实验科学家可能会有些不合理的怀疑，而计算科学家则可能又显得有些过于乐观。因此，在这方面存在某种辩证关系。我确实认为人们对自己的角色有清晰的认识，并乐于发挥作用。

[01:44:06] NNP的未来

Abhi(主持人)

这很有道理

Corin Wagen

我们更常从小分子的角度来看待事物，因为这更符合化学的特点。我和你谈过的很多论点都是围绕我们所构建的内容如何对化学有用。

对于Rowan来说，一个最坏的情况就是，一切都转向基因编辑，我们再也不需要考虑原子了。你对此有什么看法吗？

Abhi(主持人)

如果你把所有人类的生化过程看作是一个流程图。

我记得你曾说过，小分子在相互作用中就像是在一个框中切换到另一个框。添加蛋白质或基因元素就像是完全添加一个新的框。它们确实在不同的领域内发挥作用，仅仅从类比本身来看，就会有这种感觉。

此外，小分子本身很小，它们可以渗入到较大物质无法到达的地方。我确实认为存在一个世界，在这个世界中，小分子似乎在变得越来越大。许多基于蛋白质组学的药物似乎正在趋向于更小，比如从抗体过渡到纳米抗体。

这里可能存在一个平衡点，所有的东西都像大环分子一样。但谁又能确切知道呢？我认为许多治疗方法的革命是非常突发的，往往是凭空出现的，而这很可能在这里再次发生。

Corin Wagen

是的，思考这个问题很有趣。我过去几周一直在琢磨的一个主要区别是，蛋白质和生物制剂方法与小分子之间的一个大不同之处在于，单位面积的信息密度几乎要高得多。

我看到许多趋势，比如非天然氨基酸、大环分子，所有的一切都变得更加复杂。随着我们希望超越20种氨基酸，我们希望能够接触更多的可调节参数，基本上是在优化某个事物时能够转动更多的旋钮。

我想，即使是大分子，设计开始感觉不再像是进化过程，而更像是一个小分子的问题。但这并不意味着小分子工具就一定是所有问题的正确答案。

Abhi(主持人)

这是一种有趣的表达方式。传统上，我确实认为，很多蛋白质设计都像是试图遵循人体生理的规律，这比小分子要强得多。

我记得你把分子比作“零日漏洞”。而蛋白质确实像是，我们试图适应自然界中已经存在的某些结合靶点。我认为非标准氨基酸的出现确实在很大程度上改变了游戏规则。

我可能是最不适合对此发表看法的人，但确实感觉这一领域正在朝着有趣的方向发展。目前有一些蛋白质建模的论文试图考虑非标准氨基酸的存在。我觉得这仍然处于早期阶段。

但我确实觉得，这是一个领域，其中动力学是你唯一所拥有的，因为你没有关于非标准氨基酸的数十年历史性数据。

Corin Wagen

是的，我认为这是正确的。我想在其他方法不奏效时，依赖物理学是一种不错的选择，希望物理学能派上用场。

即使它可能不是每个任务的最佳工具，但至少它是可靠的。

Abhi(主持人)

当像Anthropic的Claude和OpenAI的ChatGPT这样的通用人工智能公司开发自己的基础模型时，它们都是托管在自己的平台上。

不同的机器人之间几乎没有任何互联互通。你认为神经网络势能也会出现类似的现象吗？会有一群由一些有志于学术研究的人创建的开源神经网络势能，同时也会有很多创业公司开发自己的神经网络势能，而没人愿意相互兼容吗？

Ari Wagen

我觉得不同初创企业之间会有很大差异。我想我们已经开始看到这种情况了。像Orbital Materials这样的初创企业一直在以非常宽松的许可协议开源它们的神经网络势（NNPs）。所以我觉得，我能想象这样一个世界：一家初创企业决定，我们有时候确实会训练神经网络势，但我们已经认定，这并非我们战略的核心部分。这对我们发展企业实力没有帮助，所以我们打算将这项工作开源。

我觉得像 Meta FAIR Chem 这样的公司也是这么做的。

Abhi(主持人)

我都不知道，Facebook有一个人工智能的神经网络势能研究小组。

Ari Wagen

他们确实有一个这样的团队，我想是因为有这么一个故事：他们正在为新眼镜研发材料，需要能够很好地对材料进行建模。也许不知怎的，他们就想，应该在Meta（原Facebook）公司的某个部门进行材料方面的基础研究。这就是FAIR - Chem（Facebook人工智能研究院 - 化学部门）的人员开始训练神经网络势（NNP）的一种说法。

我不知道这种说法是否属实。但是，到目前为止，他们在开源自己的神经网络势，并且表示这是业务所需的东西，但这并非是帮助人们建立联系（Meta的目标）的核心部分，甚至可以说神经网络势与之完全不相干，所以他们很乐意将其开源。

我觉得也有一些初创企业乐意将其开源。他们一心想要成为一家模型构建和架构公司，如果这些人将自己的模型开源，我会非常惊讶，除非他们认为自己能够围绕着Databricks之类的东西建立某种很棒的开源业务。

我不知道，我觉得这会很困难。是的，所以我能想象到未来会是一种分裂的状态，但仍会有高质量的开源模型。

Abhi(主持人)

我觉得这些蛋白质基础模型公司很可能会出现赢者通吃的局面，也就是一种蛋白质模型真的足以对所有可能的蛋白质进行全面建模。

你觉得在模拟领域会出现这种情况吗？

Corin Wagen

你总是得在特异性和通用性之间的做些权衡。例如，我们之前谈到过推理速度的问题，你可以想象一下，是否愿意选择一个拥有5000亿个参数的模型，它能够覆盖所有元素、所有自旋状态和所有构象？还是更倾向于选择一个只有2000万个参数，但在氨基酸方面表现特别出色的模型？对于一些应用场景来说，一个小巧、快速的模型，在某些特定任务上可能会有明显的优势。

我觉得，当前很多研究论文其实都是针对单一蛋白质进行微调的。从这个角度看，能够快速调整系统而不必重新训练整个模型似乎是很有价值的。也就是说，你可能需要一些迁移能力，比如蛋白质领域的人用一个模型，OLED领域的人用另一个模型，这种想法对我来说并不显得荒谬。或许你还可以通过某种方式将大模型进行精简。我不确定具体方式，但AI领域的人总是有办法利用他们的一些巧妙技巧。

[01:51:23] 向科学家销售

Abhi(主持人)

先暂时不讨论科学方面的话题，我好像多次听到过一种说法：科学家往往是特别糟糕的顾客，因为他们的需求常常非常特殊，而且他们能拿出来满足这些需求的钱也是最少的。

如果你同意这一点，你是否经常需要说服科学家相信Rowan是值得的呢？还是你更倾向于先针对高层管理人员？或者你根本不同意这个观点？

Corin Wagen

我认为这其中确实有一定的道理。科学是一个很难的领域，很多细节需要做到位。

不像一些横向的SaaS产品，我觉得那些相对更简单，市场容量也更大，等等。我们真的很喜欢我们做的事情，我也很喜欢科学家，喜欢和他们合作。每天早上能起床，去参加用户会议，思考如何让事情做得更好，这让我很有动力。

而且我确实觉得，科学家没有钱花这个说法有点过于自我安慰，因为大量资金确实已经投入到科学研究中了。举个例子，每年在药物设计上的花费大约是2000亿到2500亿美元。所以说“我无法在这个领域赚钱”并不完全成立。我并不是说做一个科学软件公司很容易，但并不是没有人关心这个领域。

也不是没有资金流向这里。如果你做的是对人们有意义的好工作，就应该有办法在这里建立一个伟大的商业模式。我认为每个行业都会有某些挑战，做生意总会有困难，但肯定有成功的机会。

Ari Wagen

是的，我认为在大公司里卖产品，你确实需要争取很多人的支持才能完成一个大交易。而且我觉得我们还没有以我梦寐以求的方式做到这一点，但我认为，你需要让用户喜欢你的产品，愿意使用它。

同时，你还需要让这些高层的战略决策者明白这个工具的重要性，并且支持他们为此投入的资金。我认为在任何公司里，都会有很多沟通挑战，而这些挑战往往是技术人员低估的。如果你是工程师，你可能会认为我只需要把产品做得更好，生意就会成功。

但实际上，你的产品只有在使用它的人那里才能体现价值，而且很可能，能为这些人购买工具的人，才是决定是否能成功的关键。

Abhi(主持人)

你们有没有看到那个关于 Spring Discovery 的推文？Spring Discovery 是一个用于高通量筛选的平台，可以分析明场图像，这家公司在运营了大约十年后就关闭了。

Corin Wagen

是的，我确实看到过。

Abhi(主持人)

是的，我觉得他发的那个推文非常有意思。他提到科学家们非常喜欢这个软件，它已经在20家大型制药公司中的5家部署，还被一些顶尖的学术机构使用，比如 Broad Institute、UCSF 和多伦多大学。

但尽管如此，他们还是没能赚到足够的钱来维持运营。我认为开发科学软件最难的一部分就是如何真正捕捉到你为科学家带来的价值。

你觉得很多科学软件公司，尤其是在模拟领域的公司，是不是在这方面容易陷入某种典型的失败模式？有没有一些方法可以缓解或解决这个问题？

Corin Wagen

是的，我觉得我们至少在 Rowan 上想过很多，这里有两个常见的失败模式。第一个是“默默无闻地努力，最终湮没无闻”。你可能在公司的平台内完成了世界上最出色的工作，但如果你无法让别人对你的成果感到兴奋，无法向外界清楚地传达你做了什么，那么就很难成功。而且这种沟通不能等到你开始挨家挨户敲门要资金支持时才进行，那时已经太晚了。你需要让别人觉得你的工作是令人兴奋且值得信赖的，这样他们才会想要与你合作。

另一个问题是，如何将你的工作与实际成果联系起来。因为最终，能让人赚钱、创造股东价值的，特别是在药物发现领域，离你的工作可能有很多层间接关联。例如，在早期的研发中，我们可能会让科学家更快地筛选化合物或进行明场成像，这提升了他们的能力，从而可能提高临床试验成功的几率，这又可能带来更好的收益。这一整套流程里，如何量化这些间接的影响，真的很困难。

Abhi(主持人)

你离赚钱还差得很远。

Corin Wagen

你说得很对。这是更好的表达方式。是的，你必须在实际工作中表现得非常出色，这才是打开局面的关键，对吧？这是你获得机会的方式。但我认为，你也必须诚实地面对自己，找到一种方式来证明你所创造的价值，并能够在谈判桌上清晰地表达出来。

我觉得很多人在这方面失败了，而真正难的是深入反思，弄清楚到底是谁的问题。如果我认为我为你提供了一百万美元的价值，而你却只给我每年5万美元，那到底是你对我的价值评估错了，还是我对自己的价值评估有误，因为显然这里有什么不对的地方。我认为这完全是个案情况。对于科学家来说，某些工具或软件的好用是必要的，但这并不足以建立一个成功的商业模式。

Abhi(主持人)

你如何说服人们你所打造的东西是有用的？我认为Rowan是一款非常美观的软件，但你如何将这一点与所说的“这将为你带来实际价值，足以匹配我们所收取的费用”联系起来呢？

Ari Wagen

我认为你必须将模拟或其他工具与用户目前面临的问题或至少关心的问题联系起来。也许这并不是他们当前面临的问题，但我们在这方面取得了很大成功的一个例子是，有人试图调整他们分子的氧化还原电位。

他们说：“我非常在乎我分子的这个属性。我该如何设计分子让这个属性有所不同？”如果我们说，“看，你可以绘制分子，按下这个按钮，它将告诉你这个属性，准确度还不错。”那么这就非常有用了。人们会说：“哦，那我会开始在我的工作流程中使用这个。”

如果步骤太多，比如你需要运行这个工作流程，然后进行一些统计，接着去另一个工具做其他事情。那么，价值就无法完全与最终用户真正关心的事情联系起来，他们也无法判断软件中的价值、统计结果，或者你要求他们做的其他步骤的价值。

因此，我认为这是一件更难以沟通的事情。我们需要思考的是：“好吧，人们面临哪些问题？我们应该如何努力让模拟真正解决这些问题。”

Corin Wagen

其他公司很少做这种事。我想努力做得更好，就像在生活中，当你有一个可以用模拟来回答的问题时，我们希望Rowan里有类似“回答空白问题”的功能。你一点击按钮，它就能给你答案，这就像是很体谅用户。我想这可能是因为我不是科班出身的计算主义者。不过，我觉得向科学家销售产品总体来说有好有坏，但总体是不错的。

他们非常以数据为导向。所以我们进行预测，至少就我们成功销售的情况来说，就是这样：你想预测这个东西吗？那我们就试试预测它。预测结果不错，他们就会说，哦，预测结果不错。好吧，这样的话就没什么可隐瞒的了。

Abhi(主持人)

我猜我最初的想法是，他们会查看结果，然后想：哦，如果在其他方面出错了怎么办？他们非常依赖数据，以至于对任何不符合他们所认为的“优秀软件”标准的东西都不愿意接受。

Ari Wagen

我认为很多人在测试某个新工具时，会诉诸于他们训练时常用的标准测试用例。所以如果这是一个新的语言模型，也许人们会问其中一个测试用例是“草莓”这个词中有多少个“R”。

这就形成了一个非正式的基准，每当有新模型推出时，人们首先问的就是这个问题。如果模型回答是两个，他们就会觉得这是个糟糕的模型。如果回答是三个，他们又会问另一个问题。我觉得人们第一次使用我们的软件时，也会做类似的事情。

Abhi(主持人)

他们为自己非正式地创建了一系列的合理性检查。

Ari Wagen

没错。所以，如果他们在计算氧化还原电位的时候，可能会记得教科书中的内容，比如他们记住了苯的氧化还原电位。他们会画出苯分子的结构，然后对照这个数值，也许他们并没有完全记住。

但我认为他们会有一些内置的测试用例。如果你的软件在这些测试用例上失败，他们会立即对你的软件产生怀疑，所以你必须先通过这些基本的测试用例。

一旦成功通过了这些测试，就会建立一基准信任，之后你就可以继续进行实际的数据集评估，从这里开始进一步探索。

Corin Wagen

我认为这对任何事物都是如此。有一些统计数据表明，比如Uber，你的前一两次乘车经历会决定你对这个应用的看法，以及你是否会快速流失。如果你第一次打开应用，发现20分钟内没有车，你就会觉得：“这真是个垃圾应用，我不会再用了。”

我认为Facebook也是这样，用户在第一周内的好友数量很大程度上决定了他们是否会继续使用这个平台。这完全是人性使然，我不想在一些显然糟糕的东西上浪费时间，而这其实是非常理性的选择。

[02:01:41] 你会把2亿花在什么地方

Abhi(主持人)

我想我最后一个问题是，你认为目前使得神经网络势能模型更好的瓶颈是什么？是数据集的质量、模型的规模、数据集的多样性，还是完全其他的因素？

在回答这个问题时，请假设你获得了一位匿名捐赠者提供的2亿美元，用于尽可能推动这一领域的前沿技术，那么你认为你能取得什么成果？

Ari Wagen

我认为我们还有一些架构方面的问题需要进行实验。这些问题包括消息传递，你需要进行多少消息传递？是否需要严格执行SO3等变性？是在模型的开始和结束时进行 enforcement，还是每一层都执行，或者可以完全不考虑这些？在尝试扩展模型时，你需要问这些问题，以便弄清楚如果我开始用越来越多的数据进行训练，哪种模型能够真正扩展，而更多的数据意味着更少的错误和更好的模型。

我觉得在数据集生成方面还有很多工作要做。我个人认为，我们应该为我们关心的所有系统生成带有范围分离的混合物的元动力学数据，并对此进行训练。

每个人对此都有自己的看法。我认为如果我们能找到一种方法进行多保真度学习，利用较低质量的数据集，那将是非常有价值的。此外，当我们尝试扩大到越来越大系统时，就会遇到粗粒化的问题。比如，我可以粗粒化掉氢原子、氨基酸残基和溶剂吗？这些可能是相对简单的粗粒化问题。

然后，当考虑将这些神经网络势能用于分子动力学时，就会面临取样相关的问题。如果我现在尝试在一个系统上运行整个模拟，我是在进行常规分子动力学吗？还是要跑元动力学？我们能否进行某种蒙特卡洛步骤生成和接受标准，以重现我的势能面？我认为在接下来的十年里，会有许多优秀的研究团队专注于回答这些问题。

如果有人给我一大笔钱，我就会立即开始，努力为每一个问题找到明确的答案。

Abhi(主持人)

在这个背景下，我想问问你的看法。你认为目前的资源，比如ATLAS和MD Repo，是朝着良好的方向发展，还是你认为存在一些根本性的失败点？

Corin Wagen

ATLAS和MD Repo，它们都是基于MD上，对吧？就像常规的Amber之类的。我认为，对于一个庞大的MD数据集，其质量的问题确实有些争议。如果我们对力场的质量持怀疑态度，那情况就像很多早期的量子力学数据集，它们在相对较低的理论水平上生成了大量数据。

作为一个机器学习的练习，看看你能否对数据进行拟合是很不错的。但这对于提升最终质量帮助不大，因为你可以在不准确的数据上学习，但这仍然无法很好地匹配实验结果。所以我认为这确实有价值，但我更愿意是正确地进行MD模拟。

我觉得这是一种自我安慰而且说起来很容易的回答，以至于不必真正去做。但我的感觉就是这样。

Abhi(主持人)

目前还没有任何数据集可以达到你所期望的质量和数量的水平，对吗？

Corin Wagen

是的，我认为这说得对。为了强调一下Ari简要提到的内容，我希望我们的机器学习联合创始人在这里，因为他能更好地阐述这一点，但目前还没有适用于分子或其他3D图形问题的GPT级架构。我们不能仅仅投入大量数据，然后期望H100显卡能“嗖嗖”地自动改善。虽然我认为这是可能的，但仍然存在一些规模架构的问题，这些问题尚未完全解决。

我认为，唯一的办法就是尝试扩展并找出有效的方法。我认为这些方法很可能会正常运作，但……

Abhi(主持人)

还没有进行测试。

Corin Wagen

是的，我们不能就这样轻易花费两亿美金购买CPU时间，生成大量的TB级数据，然后仅仅按一下播放键。

Abhi(主持人)

他们像是一些试图快速发展并生成大量数据的联盟。你认为他们最终得到的数据集可能不实用吗？

Corin Wagen

这是我对材料科学中的NNP领域的一大担忧，比如材料项目（Materials Project）。

这个项目非常酷，它是一种联盟类型的组织。他们有一套标准的理论，并努力整合出一个大数据库，拥有庞大的数据集。但也有一些论文表明，他们选择的设置其实有些过于简化。

因此，你会遇到一些隐蔽的错误，比如一些问题。某些预测结果很好，而有些则不尽如人意。这样一来，你可能会发现错误之间高度相关。无论好坏，在分子领域中，每个人都是自顾自的。有些人做得很好，有些人则做得很糟，但却没有那种单点故障的问题。

所以我并不知道未来应该是什么样的。我们在内部生成自己的数据集，以便能够对数据进行严格控制。我知道有些公司采用这种做法，而有些则不这样做。我认为……

Abhi(主持人)

最终的结果将决定谁是真正的赢家。

Corin Wagen

是的，最终，我们这样做并不是因为觉得这很新奇，也不是为了浪费投资者的钱。

我们想在实际问题上产生影响，每个人都有不同的策略来实现目标，但我们都是在朝着同一个方向努力。在接下来的一两年中，看看事情将如何发展会很有趣。

Abhi(主持人)

对于你来说，Corin，这两亿的投资，你也会专注于生成高质量的数据，还是认为还有其他更重要的地方？

Corin Wagen

是的，我认为我同意Ari所说的一切，换一种视角来看：现在MD的速度与神经网络势能的速度之间存在着巨大的差距，而它们需要达到的速度要能够完成MD可以做的一切。

所以我们今天做的很多事情像是量子力学，比如密度泛函理论（DFT），但要快得多。这非常酷。不过，我们想做的很多很棒的事情是类似MD，但要更精准。可以说，我们的速度可能落后大约四个数量级。我想这可能是对的。

我们可以想象有八种不同的方法来实现一个数量级的速度提升。因此存在一个问题，我们需要让其中的一半成功。这并不是所谓的蓝天研究，也不是去解决癌症的治疗方法。

这更像是一个应用研究、机器学习工程、算法优化的问题，要结合如何通过更多数据提升准确性，如何扩展到非常大的图，然后就是要让它更快。我认为，这就是，嗯，我不知道，成立一些小团队就行了，像2018年的OpenAI那样。

Abhi(主持人)

是的，这就是梦想。

Corin Wagen

这就是我们大家努力的目标。

Abhi(主持人)

是的，非常感谢你们参加节目，聊了三个小时。真的非常感谢。

Corin Wagen

感谢你们的邀请！

Reference:

1.rown在线平台：https://rowansci.com/

2.spotify：https://open.spotify.com/episode/0pWdz7GMRMAViSCY5vMXFb

3.播客视频：https://www.youtube.com/watch?v=kDlPowHcxwY

学术之友

\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括：分享科研资讯，总结学术干货，发布科研招聘等。让我们携起手来共同学习，一起进步！