AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

科技 2024-11-29 00:02 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。
转载自 | 新智元
编辑 | 编辑部 Hhj

过去两年，AI主打用户增长，成功实现了大众化普及。毕竟，拉新才是商业王道。

然而，如今AI日常的应用已经快卷到天花板了。对于世界上绝大多数人的普通查询，许多LLM都能给出相当不错的回答。

速度、流畅性已经足够满足绝大多数用户的需求。即便再优化，提升空间也有限——毕竟这类问题的技术难度不高。

或许，未来真正值得关注的是科学和工程领域。

OpenAI科学家Jason Wei最近发帖预测：在接下来的一年内，AI的关注重点可能会从日常使用转向科学领域。

他认为，未来五年，AI关注的重点将转向硬核领域——用AI加速科学和工程。因为这才是真正推动技术进步的引擎。

普通用户的简单问题，改进空间已经不大了。

但每个科学前沿领域都有巨大的改进空间，而AI正好可以发力，去致力于解决那些能推动科技飞跃的「1%的顶尖问题」。

AI不仅有回答这些问题的潜力，还能激发人们去思考更大的挑战。

而且，AI的进展还能加速AI本身的研究，帮助自己变得更强。AI的进步是复利的，可谓是正反馈之王。

说白了，未来五年就是「AI科学家」、「AI工程师」的时代。

DeepMind最近发的一篇论文也暗示了这一趋势：全球各地的实验室里，科学家们对AI的使用正以指数级增长。

报告地址：https://storage.googleapis.com/deepmind-media/DeepMind.com/Assets/Docs/a-new-golden-age-of-discovery_nov-2024.pdf

AI加速科学创新发现的黄金时代

如今，每三位博士后研究员中就有一位使用大语言模型来协助完成文献综述、编程和文章撰写等工作。

今年的诺贝尔化学奖也出乎了所有人的意料，颁发给了AlphaFold 2的发明人Demis Hassabis和John Jumper。同时，这也启发了大量科学家将AI应用到自己的科学领域中，以求得更多的创新性发现。

过去半世纪，科学家人数猛增，仅美国就翻了七倍多，但科技带来的社会进步却放缓了。

原因之一是，现代科学家面临的规模和复杂性挑战越来越棘手。

不过，深度学习擅长搞定这种复杂局面，还能大幅压缩科学发现的时间成本。

比如，传统X射线晶体学花几年、烧10万美元搞定一个蛋白质结构，而AlphaFold直接免费给你2亿种预测，秒杀传统方法。

五大机遇

对于在不同科学研究阶段难以突破研究瓶颈的科学家们来讲，把握住使用AI的关键机遇，或许就能促进诞生强有力的新发现。

五个能够利用AI来促进科研的机遇

1. 知识——改变科学家获取和传递知识的方式

科学家要想推动新发现，必须掌握一套日益专业化且指数增长的知识体系。

这种「知识负担」让颠覆性发现越来越倚重年长科学家和顶尖大学的跨学科团队，同时也导致小团队独立撰写论文的比例持续下滑。

而且，大多数科学成果仍以晦涩难懂、英语为主的论文形式分享，限制了政策制定者、企业和公众的关注与兴趣。

如今，科学家和公众都能借助LLM破局。

例如，有团队用谷歌Gemini一天内从20万篇论文中提炼出相关见解；普通人也可用LLM轻松摘要和问答，获取专业学术知识，瞬间拉近与前沿科学的距离。

2. 数据——生成、提取和标注大型科学数据集

尽管我们处于数据爆炸时代，许多自然和社会领域中，科学数据却严重匮乏，如土壤、深海、大气层和非正式经济。

AI正助力改变这一现状。它能减少在DNA测序、检测样本中具体细胞类型或捕捉动物声音时可能发生的噪声和错误。

科学家们还可以利用LLM越来越强的多模态能力，从科学出版物、档案文件以及视频图像等资源中提取非结构化的科学数据，并将其转化为结构化数据集，以做后续研究。

AI还可以帮助为科学数据添加科学家所需的辅助信息。例如，至少三分之一的微生物蛋白质在执行功能中的细节未能被可靠地注释。

经过可靠性评估验证的AI模型也可以作为新的合成科学数据的来源。例如，AlphaProteo蛋白质设计模型是在AlphaFold 2中超过1亿个AI生成的蛋白质结构以及蛋白质数据库中的实验结构上进行训练的。

3. 实验——模拟、加速并指导复杂实验

科学实验常因成本高昂、复杂且耗时难以执行。还有一些实验因为研究人员无法获得所需的设施、人力或实验材料而无法进行。

核聚变就是一个典型例子。它有望提供一种几乎无限、无排放的能源来源，并可能支持诸如海水淡化等高能耗的创新性大规模应用。但控制等离子体所需的托卡马克反应堆复杂昂贵。ITER原型从2013年建造，预计2030年代中期才开始实验。

AI可通过模拟加速实验进程。

一种方法是利用强化学习智能体来对物理系统进行模拟。例如，研究者与洛桑联邦理工合作，用强化学习控制托卡马克等离子体形状，这一方法还可用于粒子加速器、望远镜等设施。

在不同学科中，利用AI模拟实验的方式可能各不相同，但一个共同点是，这些模拟通常用于指导和优化现实实验，而非完全替代它们。

以基因研究为例，普通人平均有9000多个错义变异，大多无害，但少数会致病。现实中，仅能逐个测试蛋白质的影响。而AlphaMissense能快速分类7100万潜在变异中的89%，帮助科学家聚焦高风险变异，加速疾病研究。

AlphaMissense对所有可能的7100万个错义变体的致病性的预测

4. 模型——建模复杂系统及其组件之间的相互作用

1960年，诺贝尔奖得主物理学家Eugene Wigner感叹数学方程在模拟自然现象（如行星运动）中「出乎意料的有效性」。

但面对生物学、经济学、天气等复杂系统，传统方程模型渐显乏力，因为这些系统充满动态性、随机性，还常伴涌现和混沌，难以预测和控制。这些方程能提供非常有用但并不完美的近似，且运行这些方法也需要高昂的计算成本。

AI却能从复杂数据中挖掘规律。例如，谷歌的深度学习系统能快速预测未来10天天气，速度与准确性双杀传统数值模型。

同时，AI还能帮减缓气候问题，如用AI预测潮湿区域的出现时间和位置，帮助飞行员避开会加剧全球变暖的凝结尾迹。

即便AI十分强大，它更多是丰富而非取代传统的复杂系统建模。

例如，基于智能体的建模通过模拟个体行为者（如企业和消费者）之间的交互，来理解这些交互如何影响更大、更复杂的系统（如社会经济）。

在传统方法中，科学家需要事先规定这些智能体的行为方式。

如今，科学家可以利用大语言模型创建更灵活的生成式智能体，这些智能体能够进行沟通和行动，例如搜索信息或购买，同时还能对这些行动进行推理和记忆。

科学家还可以利用强化学习研究这些智能体如何在更动态的模拟中学习和调整其行为，例如对于新的能源价格或疫情响应政策的反应。

5. 解决方案——为大规模搜索空间问题提出解决方案

很多重要的科学问题都伴随着许多几乎无法理解的潜在解决方案。

比如，生物学家和化学家需要确定分子（如蛋白质）的结构、特性和功能，才能设计出用作抗体药物、降解塑料的酶或新型材料的一些新分子。

然而，要设计一种小分子药物，科学家需要面对超过10^60种潜在选择；要设计一种由400种标准氨基酸组成的蛋白质，则需要面对20^400种选择。

这种大规模搜索空间不仅限于分子，还广泛存在于许多科学问题中，比如寻找数学问题的最佳证明、计算机芯片的最佳设计架构等。

传统上，科学家依赖直觉、试错法、迭代或暴力计算的某种组合来寻找最佳分子、证明或算法。然而，这些方法难以充分遍历庞大的搜索空间，从而无法发现更优的解决方案。

如今，AI能够更好地探索这些庞大的搜索空间，同时更快地聚焦于最有可能可行且有效的解决方案。

今年7月，AlphaProof和AlphaGeometry2成功解决了国际数学奥林匹克竞赛中六道题目中的四道。它们利用Gemini大语言模型架构，为给定的数学问题生成大量潜在解决方案，并结合基于数学逻辑的系统，迭代地实现接近最可能正确的候选解决方案。

AI科学家还是AI赋能的科学家？

即便AI系统的能力在不断提升，其最大的边际效益依旧会源于将其应用在能够突显其相对优势的场景之中。

比如快速从海量数据集中快速提取信息的能力，以及帮助解决科学进步中的真正瓶颈问题；而非企图让人类科学家已擅长的任务实现自动化。

随着AI推动科学变得更经济高效，社会对于科学和科学家的需求也会随之增加。

和其他行业不同，科学的需求几乎是无限的，而科技也并不会降低对科学家的需求。新的进展总会在科学的版图上开拓出全新的、难以预测的领域，AI亦是如此。

正如司马贺所设想的那样，AI系统自身也是科学研究的对象，科学家会在评估和阐释其科学能力以及开发新型人类-AI 科学系统方面起到主导作用。

关键要素

这一部分，文章深入探讨了实现「AI for Science」的几个关键因素，并将其归纳为一个「AI for Science生产函数」的模型。

模型展示了如何利用AI推动科学研究和创新的不同阶段以及需要关注的核心内容。

从科学研究的问题选择（Problem selection）、模型评估（Evaluations）开始，通过计算资源（Compute）和数据（Data）这些基础设施的支持，在开展研究过程中注重组织模式设计（Organizational design）和跨学科（Interdisciplinarity），形成成果，并最终通过采纳（Adoption）将研究成果转化为实际影响。底部的合作（Partnerships）、安全与责任（Safety & responsibility）贯穿始终，确保整个流程高效且符合道德规范。

虽然很多要素看起来直观，但DeepMind的论文揭示了一些在实践中重要的经验教训。

1. 问题选择

科学进步的关键是找到真正值得解决的问题。

在DeepMind，科学团队通常会先评估一个研究问题是否足够重要，是否值得投入大量时间和资源。

DeepMind的CEO Demis Hassabis提出过一个思维模型：将整个科学视为一棵知识之树。

那么，最重要的是找到树的根——像蛋白质结构预测、量子化学这些基础性的「根源问题」，它们一旦得到解决，就能开枝散叶，解锁全新的研究和应用。

而在这些问题当中，要判断AI是否能带来增益，我们需要寻找具备特定特征的问题，例如巨大的组合搜索空间、大量数据，以及可用于衡量性能的明确目标函数。

许多最近的突破，就来自于重要科学问题和成熟AI方法的碰撞。

例如，DeepMind在核聚变研究的进展就得益于新发布的强化学习算法——最大后验策略优化（maximum a posteriori policy optimization）。

选对问题很重要，但问题的难度也得刚好。一个适合AI的问题，通常是能够产生中间结果的问题。

如果问题太难，就没法产生足够的反馈推动进展。要做到这一点，需要靠需要直觉与实验的结合。

2. 模型评估

科学AI研究中，模型的评估方法也很重要。

科学家常常通过基准测试、指标和竞赛等评估方法来评估AI模型的科学能力。

如果设计得当，这些评估方法不仅可以用来跟踪进展，还能激发方法创新，激活研究人员对科学问题的兴趣。

不同的情况需要不同的评估方法。

比如，DeepMind的天气预测团队最初用基于几个关键变量（如地表温度）的「进展指标」来提升模型表现。

当模型达到一定性能水平时，他们采用了一个更全面的评估方法，其中包括1300多个指标。这些指标的设计受欧洲中期天气预报中心（ECMWF）评价评分卡启发。

团队也发现AI模型有时会在某些指标上「作弊」，比如「双重惩罚」问题——「模糊」预测（如预测降雨在较大地理区域内发生）比「精准」预测（如预测暴风雨的位置略微偏离实际位置）受到的惩罚更少。

为进一步验证，团队还评估了模型在下游任务中的实用性，例如预测气旋路径的能力，以及表征可能导致洪水的「大气河流」（集中湿气的狭窄带）的强度。

最具影响力的科学AI评估方法通常是社区主导的，比如蛋白质结构预测竞赛（CASP）。

该竞赛自1994年由John Moult教授和Krzysztof Fidelis教授发起，每两年举行一次。CASP的目标是通过测试各参赛团队的蛋白质结构预测方法的准确性，推动相关领域的技术创新，并加深对蛋白质折叠和结构的理解。

不过，这也带来了基准可能「泄露」到AI模型训练数据中的风险，让模型「作弊」，从而降低基准用于跟踪模型进展的效用。

「作弊」问题暂时没有完美的解决方案，但至少需要定期更新基准，鼓励更开放的第三方评估和竞赛。

3. 计算资源

计算资源是AI和科学发展的核心引擎，但也是节能减排的焦点之一。

AI实验室和政策制定者需要从长远视角平衡模型需求与效率提升。

比如，蛋白质设计模型小巧高效，而大语言模型训练时计算密集，但微调和推理时所需计算量则比较少；通过优化数据或将大模型「蒸馏」成小模型，也可以进一步降低计算成本。

同时，也需要对比AI与其他科学方法的资源消耗。

例如，AI驱动的天气预测模型尽管训练耗费资源，但整体效率可能优于传统方法。实证数据的持续跟踪可以帮助明确这些趋势，并为未来计算需求的规划提供依据。

此外，计算战略不应仅关注芯片供应的充足性，更需优先建设关键基础设施和提升工程技能，以保障资源访问和系统可靠性。然而，学术界和公共研究机构在这些方面往往资源不足，需要更多支持。

4. 数据

像计算资源一样，数据是科学AI发展的基础设施，需要持续开发、维护和更新。

人们常着眼于政策制定者推动的新数据集创建。

例如，2012年奥巴马政府启动的材料项目绘制了无机晶体图谱，为DeepMind最近的GNoME项目预测220万种新材料提供了数据支持。

但许多科学AI突破往往来自更有机的数据涌现，这些数据得益于有远见的个人或小团队的努力。

像当时Broad研究所的Daniel MacArthur领导开发的gnomAD遗传变异数据集，为DeepMind的AlphaMissense项目提供了基础。

还有，数学工具Lean最初由Leonardo de Moura开发，如今已成AI数学模型（如AlphaProof）的重要训练资源。

这些案例说明，除了自上而下的战略规划，还需要激励研究者在数据收集、整理和共享中扮演更积极的角色。

当前，许多湿实验室的实验数据因缺乏资金支持而被丢弃；而蛋白质数据银行（PDB）的高质量数据则受益于期刊要求和专业数据整理员制定的统一标准。相比之下，基因组数据的整理因标准不一，则常需额外整合和清洗。

此外，还有许多高质量数据集完全未被利用，比如因许可限制无法公开的生物多样性数据，或几十年核聚变实验的历史数据。这些瓶颈无论是由于缺乏资源、时间，还是由于数据禁运期，都会阻碍AI在科学领域的潜力释放。

5. 组织模式设计

学术界偏自下而上，工业界偏自上而下，但顶尖实验室往往能找到二者间的平衡。

像贝尔实验室和施乐帕洛阿尔托研究中心的黄金年代，就以自由探索的研究模式著称。这也为DeepMind的创立提供了灵感。

最近，一批新兴科学机构试图从这些例子中汲取经验，复刻这种研究模式。它们希望推动更多高风险、高回报的研究，削减官僚主义，为科学家提供更好的激励。

这些机构致力于解决一些科学中规模过大、学术界无法承担，但在工业界又不够盈利的问题，例如扩展Lean证明助手，这一工具对AI数学研究至关重要。

这些机构的核心目标在于，将自上而下的协调与对科学家自下而上的赋能相结合。既不能完全依赖科学家自由发挥（可能导致效率低下或研究方向分散），也不能强行控制每一步（会扼杀创造力）。

理想状态下，机构为科学家提供清晰的目标、资源和支持，但具体的研究方法和过程由科学家自己主导。

找到这种平衡不仅能吸引顶尖研究领导者，也是成功的关键。Demis Hassabis称之为协调尖端研究的核心秘诀。

这种平衡同样适用于具体项目。比如在DeepMind，研究常在「探索」状态（团队寻找新想法）和「利用」状态（团队专注于工程和性能扩展）两种模式间切换。

掌握模式切换时机和调整团队节奏，是一门艺术。

6. 跨学科

跨学科合作是破解科学难题的钥匙，却常被学科壁垒卡住。

科学AI的研究往往需要多学科起步，但真正的突破来自跨学科的深度融合。这不仅是把人凑在一起，而是让团队共同开发共享的方法和思想。

比如，DeepMind的Ithaca项目用AI修复受损的古希腊铭文。为了成功，AI研究负责人要钻研铭文学，而铭文学家也需要理解AI模型，因为直觉对这一工作至关重要。

培养这种团队动态需要正确的激励机制。团队能做到这一点，靠的是专注于解决问题，而不是抢论文署名——这也是AlphaFold 2成功的关键。

这种专注在工业实验室更易实现，也凸显了长期公共研究资金的重要性——它需要摆脱对发表压力的过度依赖。

为了实现真正的跨学科合作，组织还需要为能够帮助融合学科的人创造角色和职业路径。

在DeepMind，研究工程师推动研究与工程的良性循环，项目经理加强团队协作并连接不同项目。DeepMind还优先招募擅长发现学科交叉的人，并鼓励科学家和工程师定期更换项目。

关键是打造一种文化——好奇心驱动、尊重差异、敢于争论。经济历史学家Joel Mokyr称这种文化为「争议性」（contestability）：不同背景的研究者能公开探讨，彼此批评又共同进步。

这种文化的实践可以通过定期举办跨学科研讨会、开放讨论平台以及鼓励团队内外互动来实现。

这段修复的铭文（IG I3 4B）记录了一项与雅典卫城相关的法令，时间可追溯至公元前485年至484年

7. 采用

科学AI工具如AlphaFold既专业化又通用：它们专注少量任务，却服务广泛科学界，从研究疾病到改进渔业。

然而，科学进展转化为实际应用并不简单。例如，疾病的病原理论（germ-theory）从提出到被广泛接受经历了漫长的时间，而科学突破所催生的下游产品（如新型抗生素）也常常由于缺乏合适的市场激励而未能得到充分开发。

为了促进模型的落地应用，我们在科学家采用与商业目标、安全风险等因素之间寻找平衡，并设立了一个专门的影响力加速器（Impact Accelerator），以推动研究的落地应用，并鼓励社会公益方向的合作。

要让科学家更容易用上新工具，集成流程必须简单。

在AlphaFold 2开发中，我们不仅开源代码，还联合EMBL-EBI创建数据库，供计算资源有限的科学家轻松查询2亿种蛋白质结构。

AlphaFold 3进一步扩展了功能，但预测需求激增。为此，我们推出AlphaFold Server，科学家可按需生成结构。

同时，科学界还自发开发工具如ColabFold，显示对多样化需求的重视及培养科学界计算能力的重要性。

迄今为止，来自全球190多个国家的超过200万用户已访问AlphaFold蛋白质结构数据库，浏览了700多万个结构

科学家信任AI模型，才会用它。推广关键在于明确模型的用途和局限。

比如，在AlphaFold开发中，我们设计了不确定性指标，通过直观可视化展示模型对预测的信心，并与EMBL-EBI合作推出培训模块，指导如何解读置信度并用实际案例强化信任。

类似地，Med-Gemini系统在健康问答上表现优异。它通过生成多条推理链评估答案分歧计算不确定性。当不确定性高时，自动调用网络搜索整合最新信息。

这种方法既提升了可靠性，也让科学家对决策过程一目了然，信任倍增。

Med-Gemini-3D能够为CT扫描生成报告，这比标准X光成像复杂得多。在此示例中，Med-Gemini-3D的报告正确地包含了原始放射科医生报告中遗漏的一处病变（用绿色标出）

8. 合作

科学AI离不开多领域协作，公共和私营部门的合作尤为关键。

从数据集创建到成果共享，这种合作贯穿项目全程。

比如，AI模型设计的新材料是否可行，需要资深材料科学家的评估；DeepMind设计的抗SARS-CoV-2蛋白质，能否如预期结合目标，也需与克里克研究所合作进行湿实验验证。甚至在数学领域，FunSearch解决Cap Set问题，也得益于数学家Jordan Ellenberg的专业指导。

鉴于工业实验室在推动AI发展中的核心作用，以及对丰富领域知识的需求，公共与私营部门的合作在推动科学AI前沿发展方面的重要性将日益凸显。为此，必须加大对公私合作的支持，比如为大学和研究机构与企业的联合团队提供更多资金。

但合作不简单。各方需尽早就目标和关键问题达成一致：研究成果归属、是否发表论文、数据和模型是否开源、适用的许可协议等，都可能引发争议。这些分歧通常反映了双方不同的激励，但成功合作往往建立在清晰的价值互换之上。

比如，AlphaFold蛋白质数据库能覆盖200万用户，正是因为结合了我们的AI模型与EMBL-EBI的生物数据管理专长。这种优势互补式合作，不仅高效，还能让AI潜力最大化。

参考资料：

https://deepmind.google/public-policy/ai-for-science/

https://x.com/_jasonwei/status/1861496796314493376

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

http://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247567356&idx=1&sn=2d1022024de7cff68faf1bd475e4ed71

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步