中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

学术 2024-10-01 11:00 山东

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑｜ ScienceAI

近日，认知智能全国重点实验室、中国科学技术大学陈恩红教授团队，科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models》，介绍了新研发的一个面向化学领域大模型能力的多层次多维度评估框架 ChemEval。

论文链接: https://arxiv.org/pdf/2409.13989

项目链接: https://github.com/USTC-StarTeam/ChemEval

研究动机

在自然语言处理（NLP）的领域中，大语言模型（LLMs）已经成为推动语言理解与生成能力不断进步的强大引擎。随着这些模型在多样化垂直领域应用的兴起，探索如何将它们应用于科学研究，已成为研究的热点。

对于化学领域，化学是一门深奥的学科，涉及复杂的分子结构、物质性质、反应机制等，这些特点使得 LLMs 在化学领域的应用充满挑战和机遇。

尽管 LLMs 在处理文本数据方面取得了令人瞩目的成就，但它们在化学领域的应用却面临着一系列独特的挑战。

化学领域的专业术语众多，分子间相互作用复杂，且需要对高等化学领域知识有深刻理解。这些挑战凸显了对 LLMs 进行系统评估的必要性，以便准确衡量它们在化学领域的实际能力，并识别出潜在的应用领域。

目前尽管已经存在一些基准测试，如 MMLU 涵盖了包括化学在内的多个领域共 57 项测评任务，但这些测试大部分仅仅面向基础概念的问答，缺乏对化学领域更深层次能力的评估。

此外，尽管如 ChemLLMbench 等基准在化学任务上相比 MMLU 更为专业，但是该基准仍然缺少对大模型高阶能力的评估，如分子理解、化学知识推演等。

针对这一现状，这篇文章构建了 ChemEval ——一个专门为化学领域设计的多维度能力评估体系。

ChemEval 的开发基于一个核心理念：需要一个能够全面评估 LLMs 在化学领域能力的基准测试，它不仅能考察大模型对化学基础知识的掌握，还能评估在高级化学概念方面的理解和应用。

ChemEval 通过一系列精心构建的多级任务，旨在全面评估 LLMs 在化学领域的能力。这些任务设计覆盖了从化学研究领域的基础问题到高级挑战，如分子结构理解、化学反应预测和科学知识推断等。

ChemEval 不仅能够为化学领域中的 LLMs 应用提供宝贵的评估和见解，还能为未来模型的优化和应用开辟新的道路。

图 1：Overview of ChemEval。

基准的介绍和构建

在这项研究中建立了一个名为 ChemEval 的基准，专门用于评估化学领域内的大语言模型能力，以填补当前化学领域缺乏多层级、多维度任务体系测评基准的空白。

该基准框架包括化学领域能力的四个级别，每个级别涉及多个化学测评维度，确保对 LLM 的全面评估。ChemEval 通过一系列精心设计的任务来衡量大模型理解和推断化学知识的能力。

高等知识问答

「高等知识问答」维度旨在评估模型对核心化学概念和原理的理解能力。包括客观问答和主观问答两个维度，共 5 个不同的任务，评估模型在化学术语、定量分析等领域的洞察力。

其中，客观问答通过多项选择、填空题等任务评估模型的基本知识掌握程度。此外，主观问答要求模型提供详细的解决方案或理由，反映其对化学原理的理解和应用能力。

文献理解

「文献理解」维度用于评估模型从科学文献中提取关键信息和归纳总结的能力，包括信息抽取和归纳生成两个维度，共 15 项任务。

信息提取任务涉及识别化学实体、反应底物和催化类型等，确保模型能够定位和抽取文本中的化学信息。归纳生成任务要求模型根据现有数据和知识生成总结性的内容，如文献摘要和反应类型识别归纳等。

分子理解

「分子理解」维度考察模型在分子水平上的理解和生成能力。包括分子名称生成、分子名称翻译、分子性质预测和分子描述四个维度，共 9 项任务。

分子名称生成任务评估模型生成有效化学结构表示的能力。分子名称翻译任务通过模型在不同格式之间转换分子名称，评估模型理解各种格式的分子名称以及互译的能力。分子特性预测任务关注分子的物理、化学等属性的知识掌握能力。分子描述任务则评估模型从分子结构中预测物理化学性质的能力。

科学知识推演

「科学知识推演」维度重点评估模型在化学研究中的推理和创新能力，包括逆合成分析、反应条件推荐、反应结果预测和反应机制分析四个关键维度，共13项任务。逆合成分析任务评估模型合成路径的分析规划能力。

反应条件推荐任务用于评估特定化学反应条件推荐的准确性。反应结果预测任务旨在评估模型预测化学反应结果的能力。反应机制分析任务考察模型从反应物转化为产物的步骤分析能力。

综上所述，ChemEval 通过精心设计的任务和数据集，覆盖了化学研究的多个层面。如图 1 所示，ChemEval 包含化学领域的 4 个关键层级，评估了 12 个维度的 LLMs 能力，涵盖了 42 个独特的化学任务。

这些任务由开源数据和化学专家精心设计的数据构成，确保了任务的实用价值，并能有效评估 LLMs 的能力。

图 2：任务层级及任务类型。

数据集构建过程

这项研究对大模型进行了全面的评估工作，其中数据来源主要包括开源数据和领域专家数据。开源数据通过关键词检索并下载相关的开源数据集，从中筛选化学评估方向的下游任务，并下载这些任务的官方数据集。

同时，领域专家从科学文献、专业教材以及化学实验数据中手动构建了部分任务类型对应的问答对。

在数据处理阶段，需要对化学领域原始数据进行了仔细筛选和过滤，以适应多样的任务需求。

对于高级知识问答，主要从本科和研究生教材及教辅材料中编制了广泛的问答对，涵盖有机化学、无机化学、材料化学等七个类别，确保化学概念和原理的多样性。

对于文献理解，从科学文献中提取相关片段和问题，结合任务特定答案创建测试集。分子理解和科学知识推演则结合开放数据集与实验室专有数据，设计测试集以满足下游任务的评估需求。

实验结果

在 ChemEval 的基准测试中，一共评估了 12 个主流的 LLMs，包括 8 个通用模型和 4 个化学领域模型。

实验结果表明，尽管像 GPT-4 和 Claude-3.5 这样的通用 LLMs 在文献理解和指令遵循方面表现出色，但它们在需要高级化学知识的任务上表现不佳。

相反，化学的领域 LLMs 表现出更强的化学能力，但它们的文献理解能力有所下降。

图 3：主要实验结果。

此外，还有以下相关结论：

化学领域模型在需要深层化学知识的任务上优于通用模型。
大语言模型也难以在没有严格格式化约束的情况下一致地生成准确的化学公式。
化学领域模型在遵循指令方面的能力明显低于通用模型。

更多详细的任务的设计、评估指标以及各个子任务的实验结果，欢迎查看 ChemEval 原文。这项工作不仅为化学研究中 LLMs 的应用提供了宝贵的见解，还为未来 LLMs 在化学领域的优化和应用提供了指导。

团队介绍

认知智能全国重点实验室（主页：https://cogskl.iflytek.com/）是由科大讯飞股份有限公司和中国科学技术大学联合共建的国家级科研平台，2022 年 5 月，成为科技部遴选的首批 20 家全国重点实验室之一。开展包括大模型在内的认知智能共性基础问题研究和前沿技术攻关。

科大讯飞研究院，成立于 2005 年，是科大讯飞旗下专注于人工智能核心技术研究的机构。研究院在智能语音、计算机视觉、自然语言处理等领域积累了丰富的研究成果，并在业界保持领先地位。

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503071&idx=1&sn=30118a6a68622f7ad339cd84b4ebdddc

ScienceAI

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

上交大、复旦中山团队开发糖尿病专用大语言模型，助力个性化糖尿病管理

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

借助谷歌AI工具，科学家揭示「生物蛋白如何应对恶劣条件」

全球首个真实场景城市内涝监测大模型

首个多模态地理科学大模型「坤元」

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉