麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

文摘 2024-09-11 08:02 美国

在当今快速发展的科学研究领域，如何高效地探索新领域、识别复杂模式并揭示庞大科学数据中的隐藏联系，成为了人工智能面临的重大挑战。传统的科学研究方法虽然取得了许多突破，但受限于研究人员的创造力和背景知识，可能无法充分挖掘现有数据中的潜在知识。为了解决这一问题，麻省理工学院（MIT）的研究团队提出SciAgents通过多智能体智能图推理，自动化科学发现过程，推动科学研究进入新的高度。

科学发现的过程通常包括背景知识的审查、假设的提出、假设的测试和验证，以及基于发现的假设优化。这一过程不仅耗时耗力，而且依赖于研究人员的个人能力和经验，可能会限制发现的广度和深度。特别是在跨学科领域，如仿生材料设计，传统方法难以充分利用自然界的设计原理，进行工程应用。此外，面对海量的科学数据，传统方法在挖掘和利用这些数据以生成全新研究思路方面显得力不从心。

随着人工智能技术的进步，特别是大型语言模型（LLMs）和多智能体系统的发展，科学家们看到了利用AI技术自动化科学发现过程的潜力。SciAgents正是在这一背景下提出的。它结合了大规模本体知识图谱、LLMs和多智能体系统，通过智能图推理，自动生成和优化研究假设，揭示跨学科的隐藏关系，超越传统人类驱动的研究方法。

SciAgents的主要目标是通过自动化的方式，推动科学理解的进步。具体而言，SciAgents旨在利用大规模本体知识图谱组织和互联多种科学概念。结合LLMs和数据检索工具，生成和优化研究假设。通过多智能体系统的现场学习能力，揭示跨学科的隐藏关系。实现研究假设的自主生成和优化，阐明底层机制、设计原理和意外的材料特性。通过这些目标，SciAgents不仅能够提高科学发现的效率和精度，还能在材料发现和先进材料开发方面取得突破性进展。

研究团队是来自麻省理工学院（MIT）的Alireza Ghafarollahi 和Markus J. Buehler，这两位研究人员都隶属于麻省理工学院的原子和分子力学实验室（LAMM），并且他们的研究涉及计算科学与工程领域。Markus J. Buehler还在施瓦茨曼计算学院担任职务，进一步强调了他们在计算科学和多学科研究中的深厚背景。

核心概念

在SciAgents系统中，大规模本体知识图谱是其核心组件之一。该图谱由约1,000篇科学论文生成，包含33,159个节点和48,753条边，代表了科学领域中的多种概念及其相互关系。通过这种结构化的数据表示，SciAgents能够系统地组织和互联多种科学概念，形成一个庞大的知识网络。这种图谱不仅提供了概念之间的直接关系，还揭示了隐藏在数据中的复杂模式和潜在联系，为科学发现提供了坚实的基础。

SciAgents利用大型语言模型（LLMs）和数据检索工具来生成和优化研究假设。LLMs，如OpenAI的GPT系列，具有强大的自然语言处理能力，能够理解和生成复杂的文本内容。在SciAgents中，LLMs被用来解析和扩展知识图谱中的概念和关系，生成详细的科学假设和研究计划。数据检索工具则用于从现有文献中提取相关信息，确保生成的假设基于最新的科学研究。这种结合使得SciAgents能够在广泛的科学数据中找到新的研究方向和创新点。

多智能体系统是SciAgents的另一个关键组成部分。每个智能体在系统中扮演特定角色，如路径生成、深度分析、假设制定和批判性审查等。通过这种分工协作，SciAgents能够有效地管理科学研究的复杂性。更重要的是，这些智能体具备现场学习能力，能够根据实时数据和反馈不断优化其行为和决策。这种动态适应性使得SciAgents不仅能够生成高质量的研究假设，还能在研究过程中不断改进和完善这些假设，推动科学发现的进程。

通过大规模本体知识图谱、大型语言模型和多智能体系统的结合，SciAgents实现了科学发现过程的自动化和智能化。这种创新方法不仅提高了研究效率和精度，还为跨学科研究提供了新的可能性，展示了AI在科学发现中的巨大潜力。

方法论

本体知识图谱的构建

SciAgents的本体知识图谱是从约1,000篇科学论文中提取的，这些论文涵盖了生物材料和力学等领域。通过使用先进的文本挖掘和自然语言处理技术，研究团队从这些论文中提取了关键概念和关系。每篇论文的内容被解析成结构化的数据，形成节点和边的基础。这些数据经过清洗和标准化处理，以确保其一致性和准确性。最终，生成了一个包含33,159个节点和48,753条边的庞大知识图谱，代表了科学领域中的多种概念及其相互关系。

在知识图谱中，每个节点代表一个科学概念或实体，如“丝绸”、“传热性能”等。边则表示这些节点之间的关系，如“丝绸具有生物相容性”或“传热性能影响材料的机械强度”。这些节点和边不仅包括直接的关系，还揭示了隐藏在数据中的复杂模式和潜在联系。通过这种结构化的数据表示，SciAgents能够系统地组织和互联多种科学概念，形成一个庞大的知识网络，为科学发现提供坚实的基础。

含随机路径点的启发式路径算法

SciAgents使用了一种结合启发式路径查找、节点嵌入和随机路径点的算法，旨在发现图中的多样路径。该算法的主要目标是通过估算节点嵌入的距离，在源节点和目标节点之间找到路径。节点嵌入是通过预训练模型生成的，这些嵌入对于启发式函数至关重要，它估算了当前节点与目标节点之间的距离。通过依赖这些嵌入，算法能够适应图的拓扑结构，有效地遍历复杂的网络。

为了增加路径查找过程的多样性，算法引入了随机路径点。这些路径点从初始路径之外的邻近节点中选择，使算法能够探索替代路径。随机化因子控制了启发式搜索和随机探索之间的平衡，使其在不同的使用场景中具有灵活性。找到路径后，生成包含路径节点及其二跳邻居的子图，为图推理提供更广泛的上下文。这种方法不仅提高了路径查找的效率，还增加了生成假设的多样性和新颖性。

图推理过程

图1：这里开发的多代理图推理系统概述。图a，图构造概述，可视化显示了从作为数据源的科学论文到图形构建的进展，右侧的图像显示了图形的放大视图。小组b和c：提出了两种不同的方法：在b中，一种基于代理之间预编程交互序列的多代理系统，确保一致性和可靠性，在c中，一个全自动、灵活的多代理框架，动态适应不断发展的研究环境。这两个系统都利用全局知识图中的采样路径作为上下文来指导研究思路的生成过程。每个主体都扮演着特殊的角色：本体论者定义关键概念和关系，科学家1制定详细的研究提案，科学家2扩展和完善提案，评论家主体进行彻底审查并提出改进建议。第二种方法中的规划师制定详细的计划，并指示助理检查生成的研究假设的新颖性。这种合作框架能够产生超越传统人类驱动方法的创新和全面的科学假设。

图推理过程的第一步是基于知识图谱生成科学假设。算法首先识别两个关键节点，可以明确指定或随机选择。如果设置了最短路径标志，则计算最短路径；否则，采用启发式路径查找方法，结合随机路径点探索更多样的路径。一旦建立了路径，函数从路径及其关系中构建知识图谱，包含遍历的节点和关系。图谱结构用于生成模型输入，扩展节点和关系，提供定义和解释。

在初步构思之后，下一阶段是系统地扩展假设的具体方面。为研究的每个方面构建详细的提示，批判性地评估和改进科学内容。模型生成扩展内容，并在标题下添加到扩展字段中。这一过程确保了每个主要研究方面都得到了充分的评估和改进。

扩展内容后，系统将结果编译成结构化文档，包括原始知识图谱和假设、扩展的研究方面，形成连贯的研究叙述。接下来，模型对整个文档进行批判性审查，评估优缺点并提出改进建议。这一步骤对于确保扩展内容的科学严谨性和逻辑性至关重要。

最后，模型识别与分子建模和合成生物学相关的最具影响力的科学问题，并概述关键步骤。模型通过单独的提示识别每个领域的关键研究问题，并提供详细的实验和模拟计划。这些计划包括具体的工具和技术，确保研究假设不仅具有创新性，还具有可操作性。

图2：从最初的关键字选择到最终文档的整个过程概述，遵循分层扩展策略，依次细化和改进答案，用检索到的数据丰富答案，通过识别或关键建模、模拟和实验任务进行评论和修改。

通过这些方法，SciAgents实现了科学发现过程的自动化和智能化。这种创新方法不仅提高了研究效率和精度，还为跨学科研究提供了新的可能性，展示了AI在科学发现中的巨大潜力。

实验与结果

实验设计

在SciAgents的实验设计中，首先需要从知识图谱中随机选择节点，并生成连接这些节点的路径。这一步骤的目的是通过探索不同的概念组合，发现潜在的创新研究方向。具体来说，系统会从知识图谱中随机选择两个节点，作为研究的起点和终点。然后，使用启发式路径算法生成连接这两个节点的路径。该算法结合了节点嵌入和随机路径点，确保路径的多样性和探索性。通过这种方法，系统能够生成包含丰富概念和关系的子图，为后续的研究假设生成提供基础。

图3：我们的多智能体模型的结果，以连接关键字“丝绸”和“能源密集型”的知识图为例，说明了一种新的研究假设。

图4：使用（a）随机路径和（b）概念之间的最短路径从全局图中提取的连接关键字“丝绸”和“能源密集型”的知识图。

在生成路径后，系统会基于路径中的节点和关系生成初步的研究假设。这个过程涉及使用大型语言模型（LLMs）解析和扩展路径中的概念和关系，生成详细的科学假设和研究计划。初步假设生成后，系统会进一步扩展和优化这些假设。具体来说，系统会针对每个研究方面构建详细的提示，批判性地评估和改进科学内容。通过这种迭代过程，系统能够生成高质量的研究假设，并确保其科学严谨性和逻辑性。

图5：在第一个提出的用于自动化科学发现的多代理方法中实现的Scientist_1 LLM代理的配置文件。AI代理利用本体论者提供的知识图中的概念定义及其之间的关系来生成新的研究假设。

结果分析

在一个具体的研究案例中，系统选择了“传热性能”和“喙角”作为起始节点和终点节点。生成的路径包含了“层状结构”、“生物材料”、“微流控芯片”、“角蛋白鳞片”和“仿生材料”等概念。基于这些概念，系统提出了一个研究假设：利用软光刻技术将仿生材料的层状结构（受角蛋白鳞片启发）工程化到微流控芯片中，以提高其机械性能和循环加载条件下的传热效率。

图6：评论家对将丝绸与蒲公英基颜料结合以创造具有增强光学和机械性能的生物材料的研究假设提出的最有影响力的问题。

预期结果：

传热效率提高20-30%
机械稳定性增强，失效率降低15%
优越的生物相容性，适合长期生物医学应用

除了传热性能与喙角的研究案例，系统还生成了其他多个研究创意。例如，开发具有分层、互连3D多孔结构的新型胶原蛋白材料，以增强抗撞性、刚度记忆和动态适应性；通过可调工艺性和纳米复合材料集成适应性来增强胶原蛋白支架的机械性能；研究石墨烯与淀粉样纤维的相互作用，以创建具有增强电性能的新型生物电子设备。这些研究创意展示了系统在生成创新性和多样性研究假设方面的强大能力。

新颖性和可行性评估

为了评估生成研究假设的新颖性和可行性，系统使用了Semantic Scholar API。具体来说，系统会调用API三次，使用不同的关键词组合搜索相关文献。每次调用返回十篇最相关的文献，包括其标题和摘要。然后，系统会分析这些摘要，评估研究假设的新颖性，并提供详细的评审报告。

通过使用Semantic Scholar API，系统能够有效地评估研究假设的新颖性和可行性。结果显示，生成的研究假设在新颖性和可行性方面具有较高的评分。例如，传热性能与喙角的研究假设被评为具有高度新颖性和合理的可行性。这些评估结果不仅验证了系统生成假设的创新性，还确保了其在实际应用中的可操作性。SciAgents展示了其在科学发现自动化中的巨大潜力。系统不仅能够生成高质量的研究假设，还能通过评估工具确保其新颖性和可行性。

讨论

多智能体系统在SciAgents中的应用展示了其在科学发现中的巨大潜力。通过将不同角色分配给各个智能体，如路径生成、深度分析、假设制定和批判性审查，系统能够有效地管理科学研究的复杂性。这种分工协作不仅提高了研究效率，还确保了每个研究步骤的专业性和准确性。此外多智能体系统具备现场学习能力，能够根据实时数据和反馈不断优化其行为和决策。这种动态适应性使得SciAgents不仅能够生成高质量的研究假设，还能在研究过程中不断改进和完善这些假设，推动科学发现的进程。

图7：流程图显示了多智能体团队成员在群聊管理器的协调下自主开发的动态交互，通过图推理生成研究假设。

SciAgents通过将科学发现过程分解为可管理的子任务，实现了系统化的知识探索。每个智能体在系统中扮演特定角色，负责处理特定的研究任务。例如，路径生成智能体负责在知识图谱中找到连接关键概念的路径，深度分析智能体则负责解析和扩展这些路径中的概念和关系。通过这种分工协作，系统能够高效地处理复杂的科学问题，生成具有创新性和可行性的研究假设。

在实验中，SciAgents展示了其生成高新颖性和可行性假设的能力。系统通过随机选择节点和生成路径，探索不同的概念组合，发现潜在的创新研究方向。然后，使用大型语言模型（LLMs）解析和扩展路径中的概念和关系，生成详细的科学假设和研究计划。通过这种方法，系统能够生成具有高度新颖性和合理可行性的研究假设。例如,在传热性能与喙角的研究案例中，系统提出了利用软光刻技术将仿生材料的层状结构工程化到微流控芯片中的假设，并预测了其在传热效率和机械稳定性方面的显著提升。

图8：从全局知识图中随机选择的概念的随机抽样得出的知识图。

研究贡献

SciAgents展示了AI在科学假设生成与优化中的巨大潜力。通过结合大规模本体知识图谱、大型语言模型和多智能体系统，SciAgents能够自动生成和优化研究假设，揭示跨学科的隐藏关系，超越传统人类驱动的研究方法。这种创新方法不仅提高了研究效率和精度，还为跨学科研究提供了新的可能性，展示了AI在科学发现中的重要作用。

图9：规划器代理根据用户的查询制定的计划，由自治系统开发，从随机关键字生成研究假设。

为了确保生成研究假设的新颖性和可行性，SciAgents集成了评估工具，如Semantic Scholar API。系统通过调用API搜索相关文献，分析摘要，评估研究假设的新颖性，并提供详细的评审报告。这种评估工具的整合不仅验证了系统生成假设的创新性，还确保了其在实际应用中的可操作性。

图10:SciAgents展示了生成材料信息学的框架，展示了由输入数据、问题和上下文驱动的构思和推理的迭代过程。

未来工作方向

未来的研究可以探索增加能够进行实验或从模拟研究中获取数据的智能体。这些智能体可以通过执行具体的实验和模拟任务，进一步验证和优化研究假设。例如，分子动力学（MD）模拟智能体可以模拟分子层面的相互作用，合成生物学智能体可以设计和执行基因编辑实验。这种扩展将使SciAgents能够生成更为全面和详细的研究计划，进一步提高其科学发现的能力。

SciAgents采用的模块化方法提供了极大的灵活性，使其能够适应不同的研究需求和场景。未来的研究可以探索更多的模块化扩展，例如增加新的智能体角色或集成新的数据源。这种灵活性使得SciAgents能够不断进化和优化，适应不断变化的科学研究环境，推动科学发现的进程。

SciAgents展示了其在科学发现自动化中的巨大潜力。系统不仅能够生成高质量的研究假设，还能通过评估工具确保其新颖性和可行性。这种创新方法为科学研究提供了新的可能性，展示了AI在推动科学进步中的重要作用。未来的研究可以进一步扩展和优化SciAgents，使其在科学发现中发挥更大的作用。（END）

参考资料：https://arxiv.org/pdf/2409.05556

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486468&idx=1&sn=3b144f9f6180b4faf972f448fe603065

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉