AI驱动的化学研究新范式 | 中国化学2035发展战略

教育 2024-11-19 23:44 北京

化学是一门研究物质的组成、结构、性质与功能及其演化的基础学科，在支撑环境、能源、材料、生命科学等诸多领域发展中起到举足轻重的作用。

当前化学学科的主流研究范式（实验、理论和模拟），均采用变量分离和降维简化真实体系复杂度的手段，以“试错”的方式寻找答案。这些研究范式在处理化学研究（如天然产物合成、仿生催化剂设计、新材料分子结构设计）体系时，其局限性和低效性日趋明显。以具备抗癌功效的天然产物紫杉醇为例，经过化学家几十年的努力探索，其人工全合成步骤依然十分烦琐，产率极低。催化剂的设计亦存在“盲人摸象”的问题。一个世纪前，哈伯—博施法的问世解决了工业合成氨问题，之后人类致力于发展在能耗上优于哈伯—博施法的合成氨催化剂，至今未有可规模化的应用方案。在针对特定性能的新材料分子设计中，该领域更是依赖于大量实验试错及科研人员的个人经验。在理论研究方面，量子化学计算为化学的定量化和可预测性提供了可靠的工具，然而在处理复杂化学体系的电子结构时经常受到计算资源的局限。正如狄拉克指出的：“对物理化学问题作数学求解的基本规则已完全清楚，困难在于应用基本规则的过程过于复杂而无法实现求解。”

随着大数据和AI 技术的快速发展，数据驱动的研究范式为解决这些化学难题带来了曙光。2016 年，美国哈弗福德学院亚历山大·J. 诺奎斯特（Alexander J. Norquist）教授等利用机器学习技术训练失败的实验数据，建立了准确率很高的金属有机骨架材料合成的预测模型。2018 年，上海大学马克·P. 沃勒（Mark P. Waller）团队提出了基于深度神经网络和符号AI 规划化学合成的模型，该模型规划的化学合成路线准确率可媲美合成化学专家，且效率更高。同年，普林斯顿大学Doyle 教授等证明了机器学习可以用来预测多维化学空间中合成反应的可能性。2019 年，犹他大学马修·S. 西格曼（Matthew S. Sigman）教授等发展了基于机器学习技术和化学反应数据库的新反应预测模型，大幅度缩小了开发新反应的搜索空间。2020 年，韩国蔚山国立科学技术研究所的巴托什·A. 格日比沃斯基（Bartosz A. Grzybowski）教授等发布了逆合成路线设计程序Chematica，借助机器学习和大数据技术实现了媲美合成化学专家水平的天然产物逆合成路线预测。在催化剂理性设计方面，2019 年伊利诺伊大学厄巴纳—香槟分校斯科特·E. 丹马克（Scott E. Denmark）教授等发布了一套基于分子描述符和实验数据驱动的高选择性手性催化剂预测工作流程，指导合成了高选择性的手性催化剂。AI 技术也推动着计算模拟方法发生变革，2021 年深度思考（Deepmind）公司的詹姆斯·柯克帕特里克（James Kirkpatrick）和马普固体物理与材料研究所的阿伦·J. 科恩（Aron J. Cohen）博士等基于深度学习，提出了Deepmind21（DM21）模型，该模型描述了电子密度和基态能量之间的关系，并且可以通过提高数据数量和质量来提升预测性能，这为化学计算与模拟提供了全新的手段。

我国学者也敏锐地抓住了AI 驱动化学发展的机遇。如清华大学与南开大学联合建立了国际上首个涵盖全面、数据权威的网络版键能数据库（Internet Bond-energy Databank，iBonD），可为AI 驱动的有机合成设计提供坚实的数据支撑。中国科学技术大学发展的蛋白质红外光谱机器学习方法为快速识别和预测蛋白质结构提供了新途径。北京深势科技公司开发的DeePMD-kit 为高精度定制计算模拟中的相互作用势函数提供了强大工具。近年来，我国学者在材料基因组计划中也取得了系列丰硕成果。

数据驱动的研究范式能在化学领域的研究中取得上述惊人进展，得益于以下因素：①化学研究产生了大量历史数据可供机器学习挖掘；②机器学习擅长高效地分析高维度、高复杂度的结构化数据，可以从数据中挖掘出变量之间的潜在关联，发现“隐匿”的科学规律。借助于机器学习，科学家可以突破思维局限，建立更有效的规律模型，进而更好地指导实践。数据驱动的研究范式具有突出的交叉前沿特质，需要多学科、多领域科研人员深度合作协同攻关。

▲ AI 驱动的化学研究新范式

AI 驱动化学发现的基础是质量可靠的数据。然而，数据来源难以统一、数据收集往往耗费大量人力、数据质量良莠不齐、格式混杂和碎片化的问题严重，给数据的可靠性和可用性带来了挑战。针对数据收集，需要进一步开发自然语言处理工具，以取代高昂的人力和时间代价；将这些原始数据（包括“成功的”和“失败的”数据）经过清洗、贴标签、转换、注释、和提取等结构化和标准化处理后，构造可用的数据资源。因此，对多学科多领域的数据进行汇总，构建数据之间的关联，建立扩展性好、质量高的数据库，将为构建适用于化学学科的机器学习模型奠定基础。

发展数据鉴别模型，是数据清洗的前提条件。光谱是微观物质响应性质的反映。光谱数据可关联各种物性数据（化学特性、物理特性、几何结构、电子结构等），因而可用来提升数据模型的维度、精度和数据关联性。以光谱数据为核心，实现数据高效清洗，获得高质量化学数据，便可构造化学知识图谱。

描述符蕴涵物理规则，是构建定量构效关系的基础。基于知识图谱融合变量，发展自动提取描述符的算法，进而对描述符做解耦合，获得变量之间的数学关系式，就可以建立面向复杂化学对象的大数据预测模型，推动材料理性设计、全自动合成逆向预测等颠覆性技术的发展。

化学机器人的出现，标志着化学合成步入自动化、集成化时代。目前虽有其成功应用的例子，但化学机器人尚未具备智慧的“大脑”。因此，在AI 驱动的化学发现中，科研人员根据自身化学知识合理地收集数据及建立模型是最为关键的步骤，利用化学机器人对模型的实验进行验证可以加深科研人员对关键科学问题的认识，从而进一步优化模型，形成“模型向人学习、人向模型学习”的闭环，培养化学机器人并使其最终成为有“科研智慧”的机器化学家，协助科研人员进行创造性思考，指导能源、材料和生命科学等交叉领域的应用实践。

本文摘编自《中国化学2035发展战略》（“中国学科及前沿领域发展战略研究（2021—2035）”项目组编．北京 : 科学出版社，2024. 9）一书“第七章　化学研究新范式”，标题为编者所加。本章参考文献略。

（中国学科及前沿领域2035发展战略丛书）

ISBN 978-7-03-079079-8

责任编辑：朱萍萍姚培培

作为一门中心的基础学科和非常实用的学科，化学在认识自然、保障人类的生存和不断提高人类生活质量、推动现代文明方面发挥着其他学科不可替代的作用。进入21 世纪以来，全球形势发生巨变，可持续发展已经成为人类共同面临的严峻挑战之一。《中国化学2035 发展战略》面向未来梳理了可持续发展中的重要科学问题与面临的挑战，指出了当前化学研究呈现的值得关注的新动态和未来发展的新趋势，针对我国推动经济社会发展绿色转型、建设人与自然和谐的现代化建设目标，结合我国实际情况，讨论可持续发展化学在资源转化与高效利用、能源化学与材料、化学材料与器件、生命与健康、绿色合成化学与技术和化学研究新范式等方面应关注的优先发展领域和政策建议。

本书是相关领域战略与管理专家、科技工作者和高校师生的指南性读本，也是各级政府部门决策、社会公众了解化学在可持续发展中的地位和作用的参考读本。

（本文编辑：刘四旦）

更多教学服务

关注微信公众号“科学EDU”

近期文章：
1、开启轻松备课之旅——免费教材样书与课件申请攻略
2、不容错过的小而精读本：《应用随机过程》
3、产教融合：《发酵工艺学实验（第二版）》
4、庆祝中山大学建校100周年 · 经典再添新篇 |《从相对论到引力波》教育初心薪火相传！

传播科学，欢迎您点亮★星标，点赞、在看▼

http://mp.weixin.qq.com/s?__biz=MzIzOTM0MDI2NA==&mid=2247705150&idx=2&sn=f07ac578f76e06c8b80a42ab2999a7aa

科学EDU

科学出版社教学服务平台，为高校师生提供一站式教学支持，如教材课件资源下载、教材样书申请、教材选题出版、教学会议培训、教育资讯、新书信息、特色活动、数字化资源等。原名“科学出版社EDU”。

AI+教育=？一起来看这些高校的答案

《人工智能基础》：引领新一轮科技革命和产业变革的核心技术

2023版《理工科类大学物理课程教学基本要求》内容细化修订解读

科学新书速递丨2024年11月第三期新书推荐

李东｜全国高校青年教师教学竞赛参赛经验分享

【2025版】食品科学与工程类专业书目 | 科学出版社

教育部高等学校食品科学与工程类专业教学指导委员会2024年第二次会议通知（第一轮）

全国科学技术名词审定委员会发布2024年度科技名词审定成果、学科研究前沿热点词

科学新书榜 | 自然科学类（2024年10月）

『人工智能』热门书单推荐丨图书馆都入藏了哪些书？（上）

『人工智能』热门书单推荐丨图书馆都入藏了哪些书？（下）

“科学家的出版社”遇上中国科学家博物馆

贾瑜｜《理工科大学物理课程教学基本要求》内容修订解读

来自三个国家的顶尖学者组织国际团队共同撰写的《施普林格国际统计教育研究手册》，看目录即爱了

李国红：扎实推进新时代医学教育出版高质量发展 | 科学出版社成立70周年系列纪念文章

上海高校市级重点课程配套《概率论与数理统计——基于Python》正式出版

推动职业教育改革发展，来看中国方案→

汤涛院士：本丛书致力于一手的数学文化传播

学科交叉融合已成为科学突破的重要途径 | 科学出版社成立70周年系列纪念文章

【科学出版社】2025年春精品教材“云书展”

教育部高等教育司公布第二批“人工智能+高等教育”应用场景典型案例

重磅！2024“全球高被引科学家”名单出炉

国规教材升级 |《新编基础物理学（第四版）》：新形态，全彩印刷，数字资源丰富

新形态教材《发酵工程（第三版）》| 生物产业高等教育系列教材

科学新书速递丨2024年11月第二期新书推荐

《空间光学理论与应用》——科教融合，培养创新型人才的尝试

AI驱动的化学研究新范式 | 中国化学2035发展战略

人工智能大众指南：洞察AI的机遇与挑战

南京航空航天大学江驹教授等：《线性系统理论与设计（双语版）》正式出版

『碳中和』热门书单推荐丨图书馆入藏了哪些书？

产教融合：《发酵工艺学实验（第二版）》

主题书单丨弘扬科学家精神为科技强国凝心铸魂

工业技术篇丨社庆70年90部精品典藏丛书推荐

《教学大纲》如何有效融入课程思政

教育部部长怀进鹏：加快推动人工智能赋能创新教育

科学新书速递丨2024年11月第一期新书推荐

庆祝中山大学建校100周年 · 经典再添新篇 |《从相对论到引力波》教育初心薪火相传！

重磅！2024软科世界一流学科排名发布

不容错过的小而精读本：《应用随机过程》

社庆70周年专题书单 | 公共管理专业精品教材

建议收藏 | 优秀教案编写指南

郭传杰：“两弹一星”精神及其当代价值

地球科学与资源环境类丨26本高质量新书，值得收藏！

医药卫生篇丨社庆70年90部精品典藏丛书推荐

干货分享||课题申请书模板、写作方法

人社部部长：持续深化高校教师评价和薪酬激励等改革措施

国家出版基金项目 | 唐本忠院士总主编，“聚集诱导发光丛书”全部出齐！

生物科学篇丨社庆70年90部精品典藏丛书推荐

哈尔滨工程大学：船舶与海洋工程领域专业核心教材出版

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉