AI驱动的化学研究新范式 | 中国化学2035发展战略

学术 2024-11-15 06:02 北京

化学是一门研究物质的组成、结构、性质与功能及其演化的基础学科，在支撑环境、能源、材料、生命科学等诸多领域发展中起到举足轻重的作用。

当前化学学科的主流研究范式（实验、理论和模拟），均采用变量分离和降维简化真实体系复杂度的手段，以“试错”的方式寻找答案。这些研究范式在处理化学研究（如天然产物合成、仿生催化剂设计、新材料分子结构设计）体系时，其局限性和低效性日趋明显。以具备抗癌功效的天然产物紫杉醇为例，经过化学家几十年的努力探索，其人工全合成步骤依然十分烦琐，产率极低。催化剂的设计亦存在“盲人摸象”的问题。一个世纪前，哈伯—博施法的问世解决了工业合成氨问题，之后人类致力于发展在能耗上优于哈伯—博施法的合成氨催化剂，至今未有可规模化的应用方案。在针对特定性能的新材料分子设计中，该领域更是依赖于大量实验试错及科研人员的个人经验。在理论研究方面，量子化学计算为化学的定量化和可预测性提供了可靠的工具，然而在处理复杂化学体系的电子结构时经常受到计算资源的局限。正如狄拉克指出的：“对物理化学问题作数学求解的基本规则已完全清楚，困难在于应用基本规则的过程过于复杂而无法实现求解。”

随着大数据和AI 技术的快速发展，数据驱动的研究范式为解决这些化学难题带来了曙光。2016 年，美国哈弗福德学院亚历山大·J. 诺奎斯特（Alexander J. Norquist）教授等利用机器学习技术训练失败的实验数据，建立了准确率很高的金属有机骨架材料合成的预测模型。2018 年，上海大学马克·P. 沃勒（Mark P. Waller）团队提出了基于深度神经网络和符号AI 规划化学合成的模型，该模型规划的化学合成路线准确率可媲美合成化学专家，且效率更高。同年，普林斯顿大学Doyle 教授等证明了机器学习可以用来预测多维化学空间中合成反应的可能性。2019 年，犹他大学马修·S. 西格曼（Matthew S. Sigman）教授等发展了基于机器学习技术和化学反应数据库的新反应预测模型，大幅度缩小了开发新反应的搜索空间。2020 年，韩国蔚山国立科学技术研究所的巴托什·A. 格日比沃斯基（Bartosz A. Grzybowski）教授等发布了逆合成路线设计程序Chematica，借助机器学习和大数据技术实现了媲美合成化学专家水平的天然产物逆合成路线预测。在催化剂理性设计方面，2019 年伊利诺伊大学厄巴纳—香槟分校斯科特·E. 丹马克（Scott E. Denmark）教授等发布了一套基于分子描述符和实验数据驱动的高选择性手性催化剂预测工作流程，指导合成了高选择性的手性催化剂。AI 技术也推动着计算模拟方法发生变革，2021 年深度思考（Deepmind）公司的詹姆斯·柯克帕特里克（James Kirkpatrick）和马普固体物理与材料研究所的阿伦·J. 科恩（Aron J. Cohen）博士等基于深度学习，提出了Deepmind21（DM21）模型，该模型描述了电子密度和基态能量之间的关系，并且可以通过提高数据数量和质量来提升预测性能，这为化学计算与模拟提供了全新的手段。

我国学者也敏锐地抓住了AI 驱动化学发展的机遇。如清华大学与南开大学联合建立了国际上首个涵盖全面、数据权威的网络版键能数据库（Internet Bond-energy Databank，iBonD），可为AI 驱动的有机合成设计提供坚实的数据支撑。中国科学技术大学发展的蛋白质红外光谱机器学习方法为快速识别和预测蛋白质结构提供了新途径。北京深势科技公司开发的DeePMD-kit 为高精度定制计算模拟中的相互作用势函数提供了强大工具。近年来，我国学者在材料基因组计划中也取得了系列丰硕成果。

数据驱动的研究范式能在化学领域的研究中取得上述惊人进展，得益于以下因素：①化学研究产生了大量历史数据可供机器学习挖掘；②机器学习擅长高效地分析高维度、高复杂度的结构化数据，可以从数据中挖掘出变量之间的潜在关联，发现“隐匿”的科学规律。借助于机器学习，科学家可以突破思维局限，建立更有效的规律模型，进而更好地指导实践。数据驱动的研究范式具有突出的交叉前沿特质，需要多学科、多领域科研人员深度合作协同攻关。

▲ AI 驱动的化学研究新范式

AI 驱动化学发现的基础是质量可靠的数据。然而，数据来源难以统一、数据收集往往耗费大量人力、数据质量良莠不齐、格式混杂和碎片化的问题严重，给数据的可靠性和可用性带来了挑战。针对数据收集，需要进一步开发自然语言处理工具，以取代高昂的人力和时间代价；将这些原始数据（包括“成功的”和“失败的”数据）经过清洗、贴标签、转换、注释、和提取等结构化和标准化处理后，构造可用的数据资源。因此，对多学科多领域的数据进行汇总，构建数据之间的关联，建立扩展性好、质量高的数据库，将为构建适用于化学学科的机器学习模型奠定基础。

发展数据鉴别模型，是数据清洗的前提条件。光谱是微观物质响应性质的反映。光谱数据可关联各种物性数据（化学特性、物理特性、几何结构、电子结构等），因而可用来提升数据模型的维度、精度和数据关联性。以光谱数据为核心，实现数据高效清洗，获得高质量化学数据，便可构造化学知识图谱。

描述符蕴涵物理规则，是构建定量构效关系的基础。基于知识图谱融合变量，发展自动提取描述符的算法，进而对描述符做解耦合，获得变量之间的数学关系式，就可以建立面向复杂化学对象的大数据预测模型，推动材料理性设计、全自动合成逆向预测等颠覆性技术的发展。

化学机器人的出现，标志着化学合成步入自动化、集成化时代。目前虽有其成功应用的例子，但化学机器人尚未具备智慧的“大脑”。因此，在AI 驱动的化学发现中，科研人员根据自身化学知识合理地收集数据及建立模型是最为关键的步骤，利用化学机器人对模型的实验进行验证可以加深科研人员对关键科学问题的认识，从而进一步优化模型，形成“模型向人学习、人向模型学习”的闭环，培养化学机器人并使其最终成为有“科研智慧”的机器化学家，协助科研人员进行创造性思考，指导能源、材料和生命科学等交叉领域的应用实践。

本文摘编自《中国化学2035发展战略》（“中国学科及前沿领域发展战略研究（2021—2035）”项目组编．北京 : 科学出版社，2024. 9）一书“第七章　化学研究新范式”，标题为编者所加。本章参考文献略。

（中国学科及前沿领域2035发展战略丛书）

ISBN 978-7-03-079079-8

责任编辑：朱萍萍姚培培

作为一门中心的基础学科和非常实用的学科，化学在认识自然、保障人类的生存和不断提高人类生活质量、推动现代文明方面发挥着其他学科不可替代的作用。进入21 世纪以来，全球形势发生巨变，可持续发展已经成为人类共同面临的严峻挑战之一。《中国化学2035 发展战略》面向未来梳理了可持续发展中的重要科学问题与面临的挑战，指出了当前化学研究呈现的值得关注的新动态和未来发展的新趋势，针对我国推动经济社会发展绿色转型、建设人与自然和谐的现代化建设目标，结合我国实际情况，讨论可持续发展化学在资源转化与高效利用、能源化学与材料、化学材料与器件、生命与健康、绿色合成化学与技术和化学研究新范式等方面应关注的优先发展领域和政策建议。

本书是相关领域战略与管理专家、科技工作者和高校师生的指南性读本，也是各级政府部门决策、社会公众了解化学在可持续发展中的地位和作用的参考读本。

（本文编辑：刘四旦）

一起阅读科学!

科学出版社│微信ID：sciencepress-cspm

专业品质学术价值

原创好读科学品位

科学出版社 视频号

硬核有料视听科学

传播科学，欢迎您点亮★星标，点赞、在看▼

http://mp.weixin.qq.com/s?__biz=MjM5MTIxNDMwOQ==&mid=2656287358&idx=1&sn=459a8371dfef59267b23f27e11a27b96

科学出版社

传播科学，创造未来。

最新文章

AI驱动的化学研究新范式 | 中国化学2035发展战略

人工智能大众指南：洞察AI的机遇与挑战

“四主线、四平台”构建多能融合技术体系 | 碳中和多能融合发展丛书

《天文学名词》（第三版）在中国天文学会年会上发布

唐本忠院士总主编，我国原创研究成果“聚集诱导发光丛书”全部出版

《糖尿病个体化诊治策略》第2版——以崭新的视角再次突出个体化治疗 | 中国研究型医院学会糖尿病学专委会推荐用书

刘俊来：推荐这部独一无二的、有独特价值的精品力作

汤涛院士：本丛书致力于一手的数学文化传播

中国及科技强国在新兴热点研究领域的科研表现 | 科学结构图谱2022

郭传杰：“两弹一星”精神及其当代价值

胡文瑞：超级工程是人类改造自然伟大创造的巅峰之作 | 我与科学出版社

环科院牵头多家单位30余专家的集体成果：自然生态系统典型外来入侵物种防控技术

国家重点研发计划项目“肥料氮素迁移转化过程与损失阻控机制” 重要进展与结论

江南大学刘天西/樊玮教授团队：高分子气凝胶复合材料

冯登国院士主编“密码理论与技术丛书”再添新著，喜迎密码学盛会

温汉捷等著作《稀散金属超常富集理论与探测技术示范》出版

烟台海岸带所侯西勇研究员团队：20 世纪40 年代以来中国大陆海岸线演变特征

李德仁：书要读好，科学书更要读好 | 我与科学出版社

一本里程碑式的经典之作：《现代材料热力学——平衡与稳定性》，激发你的“尤里卡”！

余丁：如何打造科技经典 | 庆祝科学出版社成立70周年系列纪念文章

科技自立自强之路：中国科学院人的75个首创故事

科学的哲思：“斯诺命题”与“科玄论战”

人工智能如何帮助科学家？| 热点

重磅推荐丨大咖推荐、顶尖企业+权威高校大佬联手编写，AI系统全书正式出版

杨国梁等：科技规划实施与过程管理的方法与实践

全国教育实证研究论坛今日13:00报告 | 朱丽娜：出版项目申报与出版规范分享——以科学出版社教育学出版工作为例

西南大学王进军教授领衔的昆虫学团队与国内昆虫系统学各领域专家团队合作推出《缙云山昆虫志》

海岛植被调查专业研究成果的总结：《黄渤海典型无居民海岛植物图集》

中国计量科学研究院王晶研究员：生物计量未来可期

十年踪迹十年心：《北京市地下文物保护管理办法》实施十周年，打开新局面！

工程类博士获取专业学位新规出台，我社作者马永红教授央媒详解

国家地震烈度速报与预警工程总设计师金星：地震预警与烈度速报——风险与控制

柴洪洲研究团队：水下无人航行器协同定位技术

《空间光学理论与应用》——科教融合，培养创新型人才的尝试

国防科大戴宏毅教授多年教学科研结晶：《量子光学导论》

汪品先：经典的启示 | 纪念伽莫夫诞辰120周年

杨卫：从读者到作者，科学出版促进学术传承 | 我与科学出版社

业内翘首以盼的《临淄齐国故城出土钱范研究》出版

科学新书榜 | 人文社科类（2024年9月）

李建生：辨章学术，考镜源流，为中医肺系疾病的临床诊疗和学术传承创新提供理论依据

科学新书榜 | 医药卫生类（2024年9月）

中国海洋大学李三忠教授：微板块构造理论——构建超越板块构造理论的新地学知识体系

吴季：太空带给人类的启示——我写《月球旅店》的初衷和一点心得

中国生物技术发展中心《2024中国生命科学与生物技术发展报告》发布

中国农大范志红教授主编《食品营养学》：探索食物奥秘，解锁营养密码 | 新形态教材

梁会丽：白城城四家子辽金城址的属性及其功能考察

玉神：石家河玉文化特展 | 神玉赏珍

与祖国同行，与科学共进——《科技强国建设之路》献礼国庆、院庆75周年

重要升级！《啊哈！原来如此（中译本修订版）》出版

科学新书榜 | 工业技术类（2024年9月）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉