​Nat. Mach. Intell. | 用化学工具扩充大型语言模型

文摘   2024-11-02 00:03   北京  

背景:

大型语言模型(LLMs)在多个领域的任务中表现出色,但在处理与化学相关的问题时却面临挑战。作者们指出,尽管LLMs在自然语言处理方面取得了显著进展,但它们在化学领域的应用仍然存在局限性。因此,研究团队提出了一种名为ChemCrow的代理,旨在通过整合多种化学工具来增强LLMs的能力,以便更好地解决化学合成、药物发现和材料设计等复杂任务。

                                            图1.ChemCrow系统的概述和工具集

结果:

(1)自主化学合成

     图2.   a.用户启动ChemCrow脚本示例。b.硫脲类有机催化剂的研究与合成。

           c.实验执行的合成平台。d.实验验证的化合物。

(2)Human-AI协作

                                     图3.人类-模型的相互作用导致新发色团的发现

ChemCrow通过结合18个专家设计的工具和使用GPT-4作为基础LLM,增强了在化学领域的性能。该代理能够自主规划和执行化学合成,包括昆虫驱避剂和有机催化剂的合成,以及指导新型发色团的发现。ChemCrow的工作流程包括使用工具进行推理、选择适当的工具、使用工具以及分析结果,直到达到最终答案。

(3)评估


                                                               图4.评估结果
研究通过LLM和专家评估对ChemCrow和GPT-4进行了性能比较。
  • 化学家专家的评估表明,ChemCrow在化学事实性、推理和反应完整性方面优于GPT-4,特别是在更复杂的任务中。虽然GPT-4可能在涉及记忆的任务中表现更好,比如合成扑热息痛和阿司匹林等众所周知的分子,但ChemCrow在新任务或不太为人所知的任务中表现出色,这些任务更有用,更有挑战性。
  • 相反,llm支持的评估倾向于GPT-4,主要是因为它的反应更流畅、更完整。值得注意的是,在评估化学推理模型的真正有效性时,llm驱动的评估可能不如人类评估可靠。这种差异凸显了进一步完善评估方法的必要性,以更好地捕捉像ChemCrow这样的系统在解决复杂的现实化学问题方面的独特能力。


研究者认为ChemCrow有潜力成为化学实验室中的宝贵助手,并在化学任务解决方面发挥重要作用。

CAAI认知系统与信息处理专委会
CAAI认知系统与信息处理专委会成立于2014年,胡德文教授担任专委会主任,孙富春教授担任荣誉主任,方斌教授担任秘书长。专委会不断吸纳业界人才,会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。
 最新文章