新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

学术 2024-09-27 11:52 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

人工智能（AI）的一个关键挑战是：如何创建能够通过「探索新领域」、「识别复杂模式」和「揭示海量科学数据中隐藏的联系」来自主推进科学理解的系统。

在最近的工作中，麻省理工学院（Massachusetts Institute of Technology）原子与分子力学实验室（LAMM）的研究人员提出了 SciAgents，一种可以整合利用三个核心概念的方法：

（1）使用大规模本体知识图谱来组织和互连不同的科学概念；

（2）一套大型语言模型（LLM）和数据检索工具；

（3）具有现场学习能力的多智能体（agent）系统。

SciAgents 应用于生物启发材料，揭示了许多看似不相关的隐藏的跨学科关系，实现了超越传统人类驱动研究方法的规模、精确度和探索能力。

「SciAgents 可用作自主或协作工具来协助人类研究人员。该系统提供了一种更强大的方法来处理大量数据，为探索自然启发的设计或意想不到的材料特性提供了创新途径。」论文通讯作者、麻省理工学院工程学教授 Markus J. Buehler 发推文表示，「例如，在材料科学领域，SciAgents 已经展示了如何将生物学、音乐和艺术原理融合在一起来创造出新的仿生材料。」

「通过同构映射，人们在贝多芬的《第九交响曲》和生物结构之间找到了相似之处，指出人工智能驱动的洞察力在各个学科领域具有更广泛的适用性。这个项目使我们能够提高研究人员的能力，使他们能够探索更大的数据集并提出基于庞大、互联的知识网络的假设。」他补充道。

该研究以「SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning」为题，于 2024 年 9 月 9 日发布在 arXiv 预印平台。

传统科学研究依赖于人类研究者的创造力和背景知识，但面临着庞大数据量和跨学科整合的挑战。AI 技术，尤其是 LLMs，能够分析和综合大量数据，揭示人类难以发现的模式，从而加速科学发现。

然而，LLMs 在专业知识和准确性方面仍然存在不足，需要通过合适的提示策略来提高它们的表现。

麻省理工学院的研究人员引入了一个多智能体 AI 框架，旨在通过利用 LLM 和全面的本体知识图谱自主生成和完善科学研究假设。

图示：多智能体图系统系统概述。（来源：论文）

两种策略

该研究使用了两种生成新科学假设的策略，均利用团队智能，系统性地探索未开发的研究领域。

第一种策略为预编程交互，智能体之间按照预定任务顺序进行互动，从而确保假设生成的一致性和可靠性。

第二种策略采用完全自动化的智能体交互，没有预设的交互顺序，使其能够灵活适应研究过程中的变化，并允许人类专家在不同阶段进行干预，以优化假设的质量和相关性。

应用于仿生材料

研究人员将该模型应用于仿生材料领域。结果表明，将 AI 智能体与专业角色相结合，可以解决科学发现的复杂性和跨学科性，具有巨大的研究潜力。自动化系统有效地驾驭了知识图谱中错综复杂的关系网，生成了与尚未满足的研究需求相一致的多样化和新颖的假设。

所提出的方法利用类似于生物系统的模块化、分层组织的智能群，通过多次迭代来模拟在思考和反思问题的过程中协商解决方案的过程，提供了一种比人工智能系统生成的传统零样本答案更细致入微的推理方法，如下图所示。

图示：Sciagents提出了生成材料信息学的框架，展示了由输入数据，问题和上下文驱动的迭代过程和推理的迭代过程。（来源：论文）

数据的本体知识图谱表示在该方法中起着至关重要的作用，因为它是指导研究想法生成的基础结构，确保人工智能智能体提出的假设既来源于庞大的相互关联的科学概念网络，又植根于其中。

通过系统性地浏览本体知识图谱，该多智能体系统可以识别并利用以前未被发现的联系，从而创造出既可行又具有突破性的创新想法。

评估策略的纳入是一个重要的战略方面，它反映了传统研究策略中常见的对抗关系，例如基于团队的努力或同行评审。

一个显著的特点是，自主多智能体系统可以自行开发复杂的问题解决策略，如下图。随着更强大的基础模型的出现，尤其是具有更好的长期规划和推理能力，这类结果有望得到改善。

图示：多智能体自主协调问题交互流程。（来源：论文）

事实证明，多智能体方法在将科学发现过程分解为可管理的子任务方面特别有效，从而能够更系统地探索知识领域。

通过为每个智能体分配不同的角色（从路径生成和深入分析到假设制定和批判性审查），该团队实现了研究思路的全面而严格的自发展。

实验表明，该系统可以持续产生具有高度新颖性和可行性的假设，并得到丰富的上下文数据和反映传统科学方法的迭代反馈机制的支持。

例如，加入特定的优先建模和模拟任务，提供了直接途径来加入额外的机制来征求新的基于物理的数据（例如，通过运行密度泛函理论模型、分子动力学、有限元/差分求解器等）。

因此，该方法不仅在研究问题方面具有巨大潜力，而且在扩展第一性原理数据集方面也具有巨大潜力。如果大规模部署，这可以帮助研究人员生成大型材料数据集，从而战略性地扩展目前已知的范围。

根据执行效率，可以在几天内生成数万个单独的结果，如果通过一组标准（例如新颖性、可行性或满足目标的程度）进行筛选，则可以为生成材料信息学生成高效的创新框架。

视频：SciAgents 介绍。（来源：X）

这项研究的主要贡献之一是展示了人工智能驱动的智能体如何自主生成、批判和改进科学假设，为传统研究方法提供了一种可扩展且有效的替代方案。

通过整合工具来评估与现有文献的新颖性，进一步增强了所生成假设的有效性，确保系统不仅能产生创新的想法，而且还能消除先前研究的冗余。

论文链接：https://arxiv.org/abs/2409.05556

相关内容：https://x.com/ProfBuehlerMIT/status/1837470474344767793

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247502996&idx=1&sn=674281010675beacb9f8aa032c0db5fe

ScienceAI

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

上交大、复旦中山团队开发糖尿病专用大语言模型，助力个性化糖尿病管理

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

借助谷歌AI工具，科学家揭示「生物蛋白如何应对恶劣条件」

全球首个真实场景城市内涝监测大模型

首个多模态地理科学大模型「坤元」

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉