DRUGAI
今天为大家介绍的是来自广州国家实验室廖矿标课题组的一篇论文。自然语言处理(NLP)领域随着大语言模型(LLMs)的出现经历了一场变革性的转变,在各种语言任务和应用中掀起了一场革命。将LLMs整合到特定领域可增强其在特定领域的应用能力。值得注意的是,NLP在有机化学领域取得了重大进展,尤其是在预测合成任务方面,为专门针对有机化学领域开发LLMs铺平了道路。本研究介绍了SynAsk,这是一个由AIChemEco公司开发的综合性有机化学特定领域LLM平台。通过使用特定领域数据对LLM进行微调,并将其与思维链方法相结合,SynAsk可以无缝访问我们的知识库和高级化学工具,以问答格式实现功能。这种新颖的方法将微调技术与外部资源整合相结合,形成了一个专门针对有机化学的模型,有助于推动该领域的研究和发现。SynAsk可在https://synask.aichemeco.com上访问,代表了在利用自然语言处理进行合成应用方面的重大进步。
近年来,随着大语言模型的出现,自然语言处理领域发生了革命性的变革。LLMs使用海量数据集进行训练,能够在各种语言任务和应用中理解和生成类人文本。LLMs的核心是生成式预训练Transformer(GPT)技术。由OpenAI开发的GPT系列模型(如ChatGPT)因能够生成连贯、语境相关的文本而备受关注。ChatGPT是对话式AI的里程碑,实现了超越脚本回复的人性化交互。除了GPT模型外,Qwen和LLaMA等开源模型也对该领域做出了重要贡献。Qwen主要使用中文语料训练,以其在问答任务中的稳健性著称;LLaMA则专注于语言理解和推理任务。
LLMs在垂直领域也有着广泛的应用。通过在特定领域内提炼专业知识,这些模型能够深入理解主题细节,成为该领域专业人士的宝贵工具。例如,法律专业的DISC-LawLLM可以提供精确的法律咨询,医疗专业的MultiMedQA可以帮助医生诊断罕见病症。NLP与有机化学的结合也带来了研究和发现的革命。分子和反应现在可以用SMILES表示。NLP技术被用于利用SMILES字符串处理有机合成任务,将合成问题视为序列生成任务。这些模型从大量标注反应数据中学习,可以生成可行的合成路径。
图 1
尽管如此,如果没有进一步使用有机化学领域数据进行调优,LLMs在有机化学相关任务中仍面临挑战。为弥补这一差距,已开发了几种有机化学特定领域的LLMs。我们长期致力于化学研究中的AI,开发了一系列机器学习和基于计算的工具来解决有机化学的基本任务。如图1所示,我们介绍了由AIChemEco开发的有机化学综合特定领域大语言模型SynAsk。该模型使用有限的特定领域化学数据进行了优化,并与思维链方法相结合以理解用户提示,利用LangChain与我们现有的工具套件无缝连接。这一框架具有适应性,有潜力扩展到其他化学领域。
基础模型选择与微调
为了构建高效的化学领域语言模型,研究团队确定了至少需要140亿参数的基础大型语言模型,并通过多个评估指标(如MMLU、C-Eval、GSM8K、BBH和CMMLU)对模型的能力进行了全面测试。这些指标涵盖了语言理解、数学推理、多模态集成和思维链(CoT)应用等关键能力。实验表明,Qwen系列模型在与SynAsk框架结合时表现优异,虽然GPT系列(如GPT-4)在许多方面表现更强,但由于其尚未开源且需付费使用,团队选择了开源模型并开发了允许灵活切换基础LLM的架构。同时,通过优化提示模板,模型能够生成更加精准的化学领域响应,有效执行复杂任务。这些优化策略提升了模型的专业性,使其在化学领域既能担任专家角色,也能熟练使用工具。
为进一步提升模型在有机合成领域的专业表现,研究团队实施了两阶段的微调策略。第一阶段是监督微调,聚焦于强化模型的专业认知能力,使其更好地解决化学问题;第二阶段是基于指令的微调,专注于提升模型的推理能力和工具调用效率。通过分阶段训练,团队确保了任务的独立性和训练的稳定性,同时加速了整体训练进程。微调后的模型不仅能够展示出强大的思维链能力,还通过结合专门设计的提示策略和工具格式,显著增强了任务处理的准确性和效率。这一过程中,模型的输出被作为中间提示重新输入框架,利用工具生成最终答案。这样的设计体现了模型对复杂任务的高度适应性,确保了在化学领域的实际应用能力。
SynAsk架构
图 2
SynAsk的结构框架如图2所示。首先,它可以接受语音和文本输入作为查询,然后通过 LLM 将其分割成多个任务并与知识库匹配。在这个阶段,用户还可以上传本地文件作为补充知识,或直接与上传的文件对话。
在获得匹配文本后,大模型将内容与对问题的理解相结合,推导出结论,从而生成结果。随后,模型评估结果是否符合预期标准。如果结果令人满意,则直接输出为最终答案。相反,如果结果不符合预期,将进入定制的Agent Q&A模式并调用工具来回答。最后,工具输出与LLM的自身知识相结合,生成最终答案。
SynAsk工具集
化学信息学工具通过LangChain与SynAsk无缝连接,提供全面的有机合成答案。这包括由内部和外部团队开发的各种机器学习驱动的工具,都致力于解决有机合成任务。目前已有12个内部工具和10个外部工具集成到SynAsk中。这些工具分为分子工具、反应工具和其他类别。
分子信息检索工具:
用于查询各种分子标识符和属性。
功能包括检索CAS编号、SMILES字符串、分子量、评估分子相似性、识别官能团类型以及检查分子的监管状态。
反应性能和逆合成预测工具:有助于查询化学反应条件、规划化学反应路径、预测化学反应产率、进行逆合成分析以及预测反应衍生物。
化学文献和知识获取工具:用于获取化学文献和提取化学知识。
其他工具:涵盖了包括绘制化学分子结构和平衡化学方程式等在内的各种功能。
图 3
除此之外,YieldPredict是一个与作者自主开发的反应产率预测工具相链接的API工具。通过输入至少两个底物,该工具可以通过查询反应模板库来识别分子的可能反应类型。如图3所示,当询问triethoxy(naphthalen-1-yl)silane和5-bromobenzothiazole的反应产率时,该工具首先将这两种分子解析为反应模板中的底物。根据已知反应类型,分子作为底物传递到反应模型中,模型建议产物以及最合适的反应试剂和条件。在逆合成任务中,作者开发了一个逆合成模型,通过输入所需目标产物,该工具生成从可购买前体开始的分子反应路径。对于所需产物,将其解析到反应模板库中以找到可能的底物,并找到适合断键的反应位点。该过程递归进行,直到最后底物是可购买的。
SynAsk的整体能力
图 4
图4显示了SynAsk模型在各项评估指标上的优异表现,尤其是在化学领域的应用。例如,在大学化学方面,SynAsk获得了70.83%的高分,远超过其前身基础模型Qwen-14B-Chat和Qwen1.5-14B-Chat的50%。这一结果凸显了SynAsk模型在利用现有数据源解决复杂化学问题方面的显著改进。
此外,SynAsk在MMLU、GSM8K和CMMLU等其他关键基准测试中的高分也反映了模型的整体提升。在CMMLU中,SynAsk得分为75.03%,表明其在整合文本和视觉信息方面的熟练程度,这对多模态应用至关重要。
SynAsk在合成化学中的优势
图 5
作者讨论了SynAsk在合成化学方面的表现,并通过几个案例研究和基准测试进行评估。图5展示了SynAsk内置的亲核芳香取代(SNAr)反应模型在测试集和外部文献反应数据上的预测结果。在测试集上进行五重交叉验证,平均绝对误差(MAE)为11.7%。对于外部文献反应数据,随机收集了60个近三年(2022-2024年)发表的SNAr反应,模型预测产率与文献报道产率的MAE为14.1%。图5a显示了SNAr反应的化学空间,图5b比较了模型预测产率与文献报道产率,图5c展示了一个具体的反应实例。
图 6
图6展示了SynAsk在11549个ChEMBL数据库中的小分子药物的逆合成路线规划任务上的表现。SynAsk成功预测了6358个分子的逆合成路线,占查询分子的55%,显著优于现有的先进逆合成规划工具AIZynthFinder的27%。以Gilmelisib的逆合成为例,SynAsk提出了一条7步合成路线(图6a),与有经验的合成化学家提出的路线(图6b)在长度和前体数量上一致,并采用了价格低廉的前体和常见的反应。
SynAsk平台输出相对于其他LLMs的示例
图 7
作者比较了三个大语言模型SynAsk、ChatGPT-4.0和ChemCrow在回答合成化学问题方面的表现。图7展示了三个模型在回答一个专业合成化学问题时的不同表现。问题为“tell me what reaction can occur between Nc1ccc2nccnc2c1.O=C(O)Cc1cc(F)cc(F)c1 and what the product is”,其中“Nc1ccc2nccnc2c1.O=C(O)Cc1cc(F)cc(F)c1”是两个底物quinoxalin-6-amine和3, 5-Difluorophenylacetic acid的SMILES表示。
SynAsk利用其在有机化学领域的专业知识,提供了一系列可能的反应及其产物,包括N-酰化、Buchwald-Hartwig氨化和Minisci反应等。ChemCrow只给出了一个N-酰化反应及其产物的简洁答案。ChatGPT-4虽然理解了问题,但在识别化合物时出现了错误,将Nc1ccc2nccnc2c1误认为烟酸衍生物,而没有识别出它是quinoxalin-6-amine。
结论与未来工作
作者开发了SynAsk,一个专门用于合成化学的大语言模型平台。它是首个公开的特定化学领域大语言模型,使用精选的化学数据进行微调,并与内部和外部化学信息学工具相连。通过与基础语言模型的比较分析,SynAsk在合成化学方面展现出了专业性和专业化。在反应产率预测和逆合成方面的结果进一步验证了SynAsk为合成化学家提供宝贵化学见解的能力。未来,作者将致力于增强SynAsk的功能,并探索其在驱动自动化反应实验室方面的关键作用。
编译|于洲
审稿|王梓旭
参考资料
Zhang C, Lin Q, Zhu B, et al. SynAsk: Unleashing the Power of Large Language Models in Organic Synthesis[J]. arXiv preprint arXiv:2406.04593, 2024.