TED演讲图文|源自DeepMind的AI药企CEO贾德伯格:AI是如何为人类节省十亿年的研究时间

文摘   2024-12-12 06:48   浙江  

👇关注公众号后设🌟标,掌握第一手AI新动态


本文内容整理自Isomorphic CEO Max JaderbergTED的演讲,公开发表于2024年12月06日。原始内容参考:https://www.youtube.com/watch?v=uq-deRtvedI

内容提要:麦克斯·贾德伯格在TED的演讲
  1. AI 彻底改变科学研究:  以 AlphaFold 预测蛋白质结构为例,AI 模型显著缩短了科研时间,将原本需要数年甚至数十年才能完成的研究压缩至几秒钟,极大地提高了科研效率。
  2. AI 驱动科学突破的三个原因:  访谈者认为 AI 将持续推动科学进步,基于以下三个原因:
    • 强大的神经网络架构:  能够处理各种类型数据。
    • 强大的计算能力:  能够扩展模型规模,利用巨大的计算能力。
    • 不断增长的数据集:  持续的创新带来更大的数据集,用于训练更强大的模型。
  3. AI 模拟推动科学发现的新范式:  AI 模拟并非仅仅模拟现实,而是创造了一个可进行大规模实验的虚拟世界,从而产生新的知识。这种范式将改变科学研究的方式。
  4. AI 在药物设计中的应用:  访谈者以其公司 Isomorphic Labs 为例,详细阐述了 AI 如何应用于药物设计。利用 AlphaFold3 等模型,可以模拟生物分子结构,并通过扩散模型在虚拟世界中设计药物分子,大大缩短药物研发周期。
  5. AI 代理加速药物研发:  将 AI 模拟作为游戏环境,训练 AI 代理进行药物分子设计,可以实现并行化设计,极大地加快药物研发速度,尤其对于罕见病和个性化医疗具有重要意义。
  6. 生物学与信息科学的同构性:  访谈者认为生物世界与信息科学之间存在同构性,AI 和机器学习可以成为生物世界的完美抽象,利用数据学习生物学规律。
  7. 克服药物研发成本上升的挑战:  通过 AI 模拟,有可能扭转药物研发成本上升的趋势,提高研发效率,最终惠及患者。

麦克斯·贾德伯格简介

马克斯·贾德伯格(Max Jaderberg)是一位在机器学习领域具有重要影响力的研究科学家。他曾在Google DeepMind工作,负责多项创新项目,包括AlphaStar和Spatial Transformer Networks。他还领导了开发AlphaZero的团队。Vision Factory是他与其他人共同创立的公司,后来该公司被DeepMind收购。目前,贾德伯格担任Isomorphic Labs的首席执行官,致力于在药物发现领域推动机器学习的发展。他的工作涵盖了深度学习、图像识别和强化学习等多个领域。他在这些领域取得的成就包括在《Nature》和《Science》等顶级学术期刊上发表了多篇论文。他的研究成果对计算机视觉、生物医学图像分析和药物设计都有重要影响。通过结合AI和计算生物学,贾德伯格的工作正在推动这些领域的革新和进步。

演讲全文

麦克斯·贾德伯格:  几年前,我读完了博士学位,当时我以为做研究会很容易。结果发现,它非常困难。我的博士研究主要是在编写神经网络层和 CUDA 内核,非常偏向计算机科学。

当时,我有个朋友在实验室做真正的“脏活累活”科学研究。他试图通过实验来确定蛋白质的结构。这是一件非常困难的事情。仅仅是确定一个新的蛋白质体系的结构,就可能需要一个博士生的全部研究工作。

十年后,我所处的机器学习领域彻底改变了他的蛋白质结构研究领域。DeepMind 创建了一个名为 AlphaFold 的神经网络,它可以非常准确地预测蛋白质的结构,解决了困扰研究人员 50 年的蛋白质折叠难题。仅仅两周前,这项成果获得了诺贝尔化学奖。据估计,自从该模型发布以来,我们已经节省了超过十亿年的研究时间。

一个博士生的全部工作现在只需要几秒钟的神经网络计算时间就能完成。对我的朋友来说,这听起来可能有点令人沮丧,对此我表示抱歉,但对我来说,这真是太不可思议了。由于能够替代现实世界实验性实验室工作的 AI 模型,我们现在可以获得关于蛋白质世界的海量新知识,这解放了我们宝贵的人力时间,让我们可以开始探索科学的下一个前沿。

现在,有些人认为这只是一次性的事件,我们不能指望在科学领域看到更多类似的 AI 突破。我不同意这种观点。我们将继续利用 AI 来加深对我们这个复杂世界的理解,并取得突破。

为什么?因为我们现在拥有能够处理任何类型数据的神经网络架构。我们已经尝试并验证了将世界上任何可能的信号整合到这些学习算法中的方法。

此外,我们拥有能够将这些模型扩展到任何所需规模的工程和基础设施,以利用我们可以创造的巨大计算能力。

最后,我们总是在不断创造新的方法来记录和测量我们这个复杂世界的每一个细节。这种持续的创新带来了更大的数据集,这有助于我们训练更复杂、更强大的模型。

因此,我们面前出现了一种新的范式,即创建我们复杂现实世界的 AI 模拟。这种新的 AI 范式采用我们真实、复杂、自然的现实世界,并学习利用神经网络来重现其要素。这些 AI 模拟之所以如此强大,是因为它不仅仅是出于理解的目的去理解、逼近或模拟世界,它实际上为我们提供了一个可以进行大规模实验的虚拟世界,最终创造出新的知识。

我们可以想象,这种针对 AI 模拟的实验也可以在计算机中进行,与其他参与者一起进行计算机模拟的开放式发现循环。最终目标是创造新的知识,并将这些知识应用到现实世界,改变我们周围的世界。

这并非科幻小说。现在,数千张显卡正在运行,训练我们自身微生物世界的基础模型。这些模型正在探测这些 AI 模拟,以设计可能成为新型药物的新分子。

我想向你们展示这个过程是如何运作的,因为我相信它可以作为蓝图,引领未来 AI 驱动科学和技术进步的新浪潮。

现在,药物设计是一个非常重要的关注领域,因为设计新药正变得越来越困难。这是一个图表,显示了随着时间的推移,每十亿美元研发支出创造的新药数量。我们可以看到,新药的数量呈指数下降。创造新药的成本越来越高

在同一时期,AI 的能力有了巨大的进步,这得益于一系列算法的突破。但 AI 进步的秘密来源之一也是摩尔定律,它指出计算能力一直在呈指数增长。

如今,我们或许不应该关注摩尔定律,而应该关注詹森(黄仁勋)定律,他是英伟达的首席执行官,他指出了现在为我们的神经网络提供动力的 GPU 浮点运算能力的指数增长。

所以,真正的问题是如何将 AI 和机器学习的世界应用到药物设计中?我们可以考虑使用我们的 AI 模拟来扭转伊鲁姆定律的魔咒,并利用为我们的神经网络提供动力的 GPU 浮点运算能力的指数增长浪潮吗?将这两个世界真正融合在一起并推动这一变革是我每天的责任。那么,我们该如何对生物学进行建模呢?

例如,如果我们在物理学领域,对宇宙进行建模,那么我们实际上可以用数学写下许多理论,并非常准确地预测宇宙的演变,甚至可以预测数百万光年之外的情况。

但是我们不能对细胞内极其复杂的动态过程这样做。我们不能仅仅为我们的细胞写下一些方程式。我们或许可以写下原子如何相互作用的理论,那是物理学。但是,在细胞内数万亿个原子的尺度上模拟这些相互作用是完全不可行的。而且我们还没有找到如何用更粗略、更简单的术语来描述这些复杂的动态过程,从而可以用数学公式表达出来。

想到我们可以对如此遥远的宇宙进行建模,却无法对触手可及的细胞进行建模,这真是不可思议。但是 AI 和机器学习可以成为生物世界的完美抽象。利用我们可以从细胞中记录到的数据片段,我们可以隐含地在神经网络的激活中学习方程、理论和抽象。

事实上,我们的公司名叫 Isomorphic Labs。之所以叫 Isomorphic(同构),是因为我们相信在生物世界与信息科学、机器学习和 AI 的世界之间存在着同构性,一种基本的对称性

为了了解我们今天如何使用这些 AI 模拟,我想深入到人体内部,观察细胞,思考蛋白质。现在,蛋白质是生命的基本组成部分之一,这些蛋白质在体内执行不同的功能。

如果我们能够调节蛋白质的功能,那么我们就离创造新药不远了。蛋白质是由氨基酸序列组成的,大约有 20 种不同的氨基酸,这里每种氨基酸都用不同的字母表示。

氨基酸是原子集合,是一个分子,这些分子连接在一起形成线性序列。

蛋白质的功能不仅取决于其氨基酸序列,还取决于其折叠成的三维结构。我们体内有数千种蛋白质,每种蛋白质都有其独特的序列和独特的3D结构。记住,通过实验确定这种3D结构可能需要数月甚至数年的实验室工作。

但随着2020年AlphaFold和AlphaFold2的突破,我们现在拥有了一个模型,它可以将氨基酸序列作为输入,然后非常准确地预测蛋白质的3D结构作为输出。

这使我们能够填补已知蛋白质宇宙的空白。这是我们蛋白质的AI模拟。因此,蛋白质具有其功能。但是,这些蛋白质并非孤立地发挥作用,它们是更大的分子机器的一部分。

这些蛋白质与其他蛋白质以及其他生物分子(如DNA、RNA和小分子)相互作用。例如,让我们放大并观察这种蛋白质。这是一种修复DNA的蛋白质,它与DNA相互作用,紧紧抓住DNA,帮助促进修复,然后修复后的DNA被释放回细胞。

现在,在药物设计中,我们想要做的要么是使分子机器更好地工作,要么是阻止它们工作。在这种情况下,对于癌症,我们实际上想要阻止这种特殊的DNA修复蛋白工作,因为在癌细胞中,没有备份的DNA修复机制。因此,如果我们阻止它工作,癌细胞就会死亡,只留下健康的细胞

那么这种蛋白质的药物究竟是什么样的呢?药物是一种进入并调节分子机器的物质。这可能是一种进入人体、进入细胞,然后粘附到此处蛋白质上的药物分子。这种药物分子实际上将DNA修复蛋白的夹子粘合关闭,因此它无法进行有效的DNA修复,导致癌细胞死亡,只留下健康的细胞。

现在,为了完全理性地设计这样一个神奇的药物分子,我们必须了解所有这些生物分子元素是如何结合在一起的。我们需要所有和任何生物分子系统的AI模拟。

今年早些时候,我们取得了突破。我们开发了AlphaFold的新版本,称为AlphaFold3,它可以以前所未有的精度模拟几乎所有生物分子结合在一起的结构。该模型将蛋白质序列、DNA序列和分子原子作为输入。

这些输入被馈送到一个基于transformer的大型处理主干的神经网络中。现在,与在大一维序列上运行的大型语言模型不同,我们的模型使用所谓的pairformer并在输入序列的二维交互网格上运行。

这允许我们的模型明确地推断出在这个生物分子系统中可能发生的每对相互作用。因此,我们可以使用这个处理主干的特性来调节扩散模型。现在,您可能知道扩散模型是这些令人惊叹的图像生成模型。

现在,就像扩散图像中的像素一样,我们的扩散模型反而扩散了我们生物分子系统的3D原子坐标。所以现在,这给了我们一个完全可塑的、虚拟的生物分子世界。这是我们可以探测的AI模拟,就好像它是现实世界一样。我们可以更改输入,更改分子设计,并查看这如何改变输出结构。那么让我们使用这个模型来设计我们DNA修复蛋白的新药。

我们可以采用一个已被记录为粘附到这种蛋白质上的小分子,并对其设计进行更改。我们想要改变分子设计,以便该分子与蛋白质产生更多相互作用,这将使其更牢固地粘附到这种蛋白质上。正如您可以想象的那样,这为人类药物设计师提供了一个完美的“游戏”:如何改变这种分子的设计以创造更多相互作用?

现在,通常情况下,药物设计师必须等待数月才能从每个设计步骤的真实实验室获得结果。但对我们来说,使用这种AI模拟,只需几秒钟。这就是我们伦敦的药物设计师目前正在做的事情的现实情况。

因此,我们有一个由药物设计师参与的美妙“游戏”,他们正在使用这种生物分子系统的AI模拟来理性地设计潜在的新型药物分子。但是您可以想象,我们不必将这个“游戏”仅限于人类药物设计师。

在我职业生涯的早期,我致力于训练代理来击败星际争霸游戏中顶级人类专业人士,我们为围棋和夺旗游戏创建了游戏代理。那么,为什么我们不能创建代理来代替人类药物设计师进行的游戏呢?

因此,现在我们的AI模拟成为游戏环境,我们可以针对该环境训练代理。我们已经拥有一些非常强大的代理,它们今天已经这样做了。

现在,在这种设置中,所有药物设计都在计算机上进行。如果我们能够访问许多计算机,会发生什么?好吧,与其让一位人类药物设计师研究一些新的分子设计,不如让数千个代理并行进行分子设计。

想象一下,这将对患有罕见癌症的患者产生什么影响。我们可以获得潜在的新分子来解决这种医疗需求的速度。或者能够同时应对许多疾病的能力。

癌症通常是由蛋白质突变引起的。即使在同一种类型的癌症中,每个患者也可能具有不同的突变。这意味着一种药物分子不会对所有患者都有效。但是,如果我们可以进入并测量每个患者的蛋白质突变,然后让整个分子设计代理团队研究该个体的蛋白质突变,该怎么办?然后我们可以为每个患者创建量身定制的分子

我在这里展示的只是蛋白质随机突变,每个红色突变都会微妙地改变这种蛋白质的3D形状。我们能够生成应该粘附到这种蛋白质上的分子以响应这些变化。现在,这距离患者还有很长的路要走,药物设计中还有大量的复杂性有待解决。但这确实让我们对即将到来的未来有了一瞥。

因此,我们已经看到这种新的AI范式如何推动我们在药物设计方面的进步,您也可以看到这种范式在材料科学、创造新的能源形式和化学中的应用。能够将我们真实混乱的世界转化为我们自己的AI模拟,使我们能够在计算机上进行开放式的科学发现。

这个过程使我们能够产生新的知识,我们可以应用这些知识来改变我们周围的世界。这是一个极其强大的范式,它将带来新一波的科学和技术进步。

我们需要尽可能多的人参与,尤其是在机器学习、人工智能和技术领域工作的专业人士,来推动这波新的发展浪潮。谢谢。

关注公众号后设🌟标,掌握第一手AI新动态

往期精选

  1. 黄仁勋专访:OpenAI在大模型混战中达到“逃逸速度”
  2. 李飞飞与Justin深度解读空间智能:数字世界需要三维表征,才能与现实世界融合
  3. PayPal创始人彼得·蒂尔:人类科技停滞源于原子方面的进展远慢于比特
  4. 谷歌联合创始人布林:巨头们打造的“上帝模型”几乎可以理解一切
  5. 马斯克:AI将使商品和服务的成本趋近于零
  6. Karpathy最新专访:人形机器人、特斯拉、数据墙与合成数据

瓜哥AI新知
紧追AI业界一手观点、访谈、动态,点滴构建AI底层认知
 最新文章