Nat. Chem. Eng. | 超越化学工程建模的第四范式：未来的无限可能

学术 2025-01-29 00:01 韩国

DRUGAI

可微分编程奠定了机器学习的基础，并为解决化学工程问题提供了新的方法。本文评论了在教育领域以及如何为劳动力做好利用这些工具的准备中所面临的机遇和挑战。将这些技能与领域知识相结合，可以对化学工程的未来产生重大影响。

模型从化学工程领域创立之初就扮演了核心角色。模型的发展已经经历了四个范式的变革（图1）。最早的模型以相关性形式存在，包括表格和图形化形式，例如久负盛名的蒸汽表。在这一范式中，使用这些模型无需了解背后的物理和化学原理，只需正确、有效地使用这些表格即可。接下来的阶段利用机械工具手动将数学模型与数据拟合。例如，使用坐标纸或对数坐标纸可以手动完成线性回归，以估算斜率和截距，从而进一步估算扩散系数或活化能等量化指标。第三次革命是计算技术的引入，这使多变量和非线性回归成为可能，并能够分析更大规模的数据集。这一阶段与实验技术的进步结合，为科学和工程的发展带来了巨大的飞跃。硬件、软件和数值算法的持续进步，推动了机器学习（ML）的发展，这是建模的第四范式。ML模型是高度灵活的、以数据驱动的模型，它们不需要物理理解即可运作（与第一范式的相关性模型类似）。如今，开发ML模型在普通计算机上已经成为可能。

这些工具如今已经影响了化学工程的几乎每一个角落。在本文中，研究人员提出，这种影响才刚刚开始，而支撑第四范式的基础为整个领域提供了许多新的机会。然而，要抓住这些机会，需要将领域知识、机器学习（ML）和数据科学的技能交叉融合。第一项，即领域知识，是研究人员已经具备并能够继续深化的优势。而后两项相对较新，要求我们学习新的技能，并开发将这些技能融入教育、研究和工业实践的新方法。

可微分编程

可微分编程（Differentiable programming）由自动微分（Automatic Differentiation, AD）驱动，是我们认为支撑机器学习（ML）成功的关键技术创新，也是未来影响的核心所在。可微分编程的基本理念是，计算机程序、软件包、工具甚至完整的编程语言都被设计为在代码执行的任何位置都可以直接获取导数，这些功能本身就内置于软件之中。这得益于自动微分的实现，它利用链式法则以与解析导数几乎等价的方式评估程序的导数，而无需推导和实现，也无需依赖有限差分或符号计算。

自动微分的概念已有数十年历史，但其在Python和Julia等流行的开源编程语言中的普及，以及其与机器学习框架的结合则是近些年的发展。简而言之，现代机器学习依赖优化工具来最小化目标函数，而这些工具需要使用导数。对于许多机器学习模型来说，通过数值方法（例如有限差分）或符号方法来计算这些导数既不实际又在计算上不可行。现代自动微分推动了新型机器学习架构、模型和方法的快速创新。这种快速原型化能力促进了从多层感知机神经网络到循环神经网络、长短期记忆网络（LSTM），再到近年来支持大型语言模型的Transformer架构的演变。

然而，自动微分的应用远不限于此。导数在科学与工程中无处不在：除了优化，它们还应用于热力学、驱动力、传输现象、灵敏度和不确定性量化、控制理论以及机器人学等领域。将可微分编程与自动微分应用于科学与工程程序中，可以在超越模拟的计算分析中实现快速创新。例如，我们曾利用自动微分快速准确地计算了复杂反应网络中基于导数的速率控制程度，这一过程通过有限差分方法难以实现。此外，我们还开发了一种基于自动微分的新型逆问题求解方法，用于将两个状态空间映射在一起，该方法比传统的非线性规划方法更高效。在分子模拟的机器学习势函数中，原子上的力通过自动微分计算能量函数的导数而得。同样，自动微分与可微分编程的概念已用于具有强数学保证的计算模型和算法的分析中。

自动微分不仅限于标量的一阶导数；它还可以从程序中计算雅可比矩阵、海森矩阵、向量乘积及高阶矩阵导数。这为科学家和工程师在优化、新模型的正则化等方面带来了许多新的方法。当与深厚的领域知识结合时，机器学习可被用于开发复杂系统的先进模型，例如参数估计或结合神经网络与机理知识的混合建模方法，用于动态系统的建模。在过程控制中，还存在利用导数信息来改善系统辨识与控制性能的应用，尽管受制于适当导数工具的选择等限制。

一个潜在的挑战是对现有大规模代码库进行重构，因为它们可能不支持可微分编程，例如，由于使用不兼容的编程语言。在这种情况下，需要谨慎权衡重写代码的成本与长期收益。一些成功的实例包括JAX生态系统，它提供了NumPy和部分SciPy的可微分版本，从而释放了自动微分在科学编程中的潜力。Julia编程语言在科学机器学习应用中的努力也采取了类似方法。计算机科学界早在多年前就已完成了这一工作，而我们认为现在是时候将其引入化学工程领域，以便我们也能从这些创新工具中受益。

超越“黑箱”机器学习

自动微分的普及以及scikit-learn、TensorFlow、JAX和PyTorch等机器学习框架的发展，使得将机器学习当作“黑箱”处理变得容易。这类似于过去的范式，例如快速线性代数推动了线性回归的标准化应用，先进的优化算法推动了非线性回归和早期神经网络拟合的实现。然而，如果结合对数学结构的理解以及可微分编程的能力，我们可以让这些模型做得更多。

例如，一个用于回归的标准神经网络可以被视为一种非线性降维转换，将输入向量空间转化为线性输出的新的潜在空间。对于单层网络，该潜在空间也可以看作是激活函数的基函数展开。因此，对于给定的数据集，一些激活函数的拟合效果优于其他函数，激活函数决定了训练后神经网络的数学性质。然而，虽然双曲正切等选择提供了灵活的连续函数，但它是非凸的，因此难以全局优化。相比之下，ReLU（修正线性单元）等效于分段线性函数，可以使用OMLT等工具方便且有保证地找到全局最优解。类似能力也正在其他形式的机器学习模型中实现，例如线性决策树。

机器学习模型的不确定性量化仍然是一个尚未解决的挑战。尽管一些方法具备不确定性量化功能，例如贝叶斯模型和高斯过程模型，但这些方法需要较高的技能，并且训练计算成本昂贵，尤其是在使用有限差分时。传统依赖海森矩阵的不确定性量化方法通常不适用于机器学习模型。大型神经网络通常有10⁶–10⁷个参数，计算海森矩阵甚至将其求逆都不可行。对于较小的模型，尽管可以计算海森矩阵，但其通常是奇异的，使用时需要特别注意。这仍然是该领域的开放性问题，而利用机器学习与可微分编程的概念可能为研究这些挑战提供新的途径。

科学与工程中的自动微分与机器学习

机器学习显然不会消失。事实上，我们预测它将在未来的科学与工程中扮演更加核心的角色，我们也将看到领域知识与机器学习和数据密集型科学更深度的融合。这里的“数据密集型科学”涵盖了通过实验与模拟生成数据的过程。机器学习对数据的需求不言而喻，关键在于数据的质量，而非仅仅数量。当前，自动化实验的研究正在不断增加，包括与大型语言模型的整合。一名研究人员通常难以掌握所有必要技能，因此高效协作的团队对于未来的成功至关重要。

要充分利用自动微分与机器学习，整个社区需要在领域知识、数据密集型科学和机器学习方面取得进步。尽管可微分编程可以编写包含导数的程序，但仍需要领域知识来决定编程模型，解释结果，尤其是理解数据与模型之间的差异。这些数据还必须具有输入变量和输出结果之间的功能关系意义。由于实验往往以模型的分析为基础进行设计，因此实验与模型开发不能彼此独立完成。尽管我们在文本和分子模拟等大规模数据集领域拥有高度有效的人工智能和机器学习模型，但许多实验领域难以达到这种数据规模。在较小数据集上工作的机器学习模型的开发需要付出大量努力，可能采用迁移学习、多模态学习或基础模型的方法。

这对我们的领域来说是一个开放性挑战。自动微分与机器学习的普及尚属新生事物，大部分学术与工业劳动力在教育阶段未曾接触过这些内容。与之相关的自动化技能和数据科学尚未成为大多数教育计划中的标准部分。然而，从现在开始，并持续到未来，越来越多的人需要在这些领域获得技能。即使学术界增加了新课程、辅修和学位项目，各公司也在这些领域开设了自己的内部培训项目。我们相信，化学工程领域在其培训与教育计划中创新的潜力巨大，可以为现有劳动力提供技能提升的路径，并为新生代学生进入这一领域做好准备，从而为未来的成功作出贡献。这需要大量努力与创造力；任何课程变动都意味着机会成本。我们必须找到既适合四年制学位项目，又适合终身学习的方法。然而，如果能够成功，未来的进步将令人期待。

整理 | WJM

参考资料

Kitchin, J.R., Alves, V. & Laird, C.D. Beyond the fourth paradigm of modeling in chemical engineering. Nat Chem Eng (2025).

https://doi.org/10.1038/s44286-024-00170-x

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

最新文章

Nat. Commun. | Meta-EA：结合进化行动的基因特异性预测框架

Nat. Commun. | 首次大规模解密！47000人骨髓脂肪基因图谱提供全新见解

Nat. Mach. Intell. | 对比学习赋能质谱搜索！DeepSearch能零样本分析翻译后修饰

Nat. Med. | AI医生来了！新一代医疗语言模型Med-PaLM2展现专家级诊疗能力

Nat. Chem. Eng. | 超越化学工程建模的第四范式：未来的无限可能

Nat. Commun. | 澳门大学联手复旦大学！人工智能加速筛选脂质纳米颗粒用于mRNA递送

Nat. Commun. | 利用合成预测原理，基于统计原理的蛋白质搜索方法在酶分类上取得最优性能

Nat. Commun. | 推理速度提升89倍！肽段测序π-PrimeNovo适用于宏蛋白质组学大规模应用

Nat. Commun. | 中南大学研究团队提出基于电子构型的堆叠模型，推动新材料稳定性可靠预测

Nat. Biotechnol. | 利用量子-经典混合模型，设计新型KRAS抑制剂

15位行业知名专家讲授！蛋白质的AI设计在线学习课程上新！

澳门理工大学刘焕香教授课题组招收人工智能药物发现专业博士生（2025年9月入学）

Nat. Mach. Intell. | 蛋白质表征学习新方法！利用祖先序列重建生成功能性蛋白供PLM训练

Nat. Biomed. Eng. | 癌症数据深度降维，DeepProfile捕捉关键基因与特异性通路

聚焦2025 JPM，解锁医药研发新机会（附200+报告PPT下载）

Science | ESM3: 借助语言模型再现蛋白质5亿年的进化奇迹

Nature | 诺奖得主Baker团队利用AI设计蛋白质，中和致命眼镜蛇毒素

Nature | 微软MatterGen：生成式人工智能引领材料设计新范式

Nature | 将分子打碎，快速地进行高通量筛选

来鲁华组发展了基于多模态深度学习框架预测功能性磷酸化位点及其调控类型的方法MMFuncPhos

上海交通大学医学院人工智能蛋白质设计课题组诚聘助理研究员、博士后、客座学生！

罗氏｜LAB IN A LOOP：利用数据和人工智能改变药物发现和开发

通知丨2025人工智能与生物医药生态大会将于6月在上海召开

多组分反应的计算机辅助设计与发现

Nat. Comput. Sci. | Bruno Correia团队提出等变扩散模型DiffSBDD

李祥春团队Patterns：Reformer深度学习工具推动RNA结合蛋白研究新突破 | CellPress对话科学家

J. Med. Chem. | 人工智能/机器学习在药物发现中的实际应用与实践经验

Sci. Data | 非肽类大环化合物渗透性数据库

Nat. Mach. Intell. | 基准数据集的泛化评估不真实？哈佛医学院提出SPECTRA

Nat. Commun. | 快速生成晶体结构，雷丁大学采用GPT架构生成CIF文件

J. Med. Chem. | CarsiDock-Flex: 几何深度学习引导的“两步式”柔性对接方法

英矽智能与美纳里尼二次合作，5.5亿美元对外授权AI辅助发现的临床前抗肿瘤管线

Nat. Biotechnol. | 深度学习赋能脂质纳米颗粒设计，实现高效肺部基因递送

mLife | 人工智能破解酶稳定性定向进化中的多个突变位点高效重组问题

浙大/华为团队: 3DSMILES-GPT:基于词元化语言模型的3D分子生成

AI药物专利解析平台PatSight获大湾区数据应用大赛专项大奖

Nat. Commun. | 整合增强癌症依赖图谱，MOSA揭示癌症耐药机制

Nat. Comput. Sci. | 可扩展！更快！更便宜！大规模基因组数据存储新结构

Nat. Commun. | 为多组学数据设计的生成模型，multiDGD表现卓越性能

Nat. Protoc. | 麻省理工-哈佛博德研究所开发针对小分子的可解释深度学习平台

Nat. Methods | 细胞成像领域，回望Cell Painting的前十年

北大陈语谦团队: 人工智能+中医药组合拳 🥊 打通链路 🤺 赋能转化

Nat. Mach. Intell. | 基于集成学习与prompt增强，DeepNano提升纳米抗体-抗原相互作用性能

Nat. Commun. | 理解RNA序列、结构与功能关系，IGI构建最新数据库进行分析

Chem. Sci. | SynAsk：首个可公开访问的特定化学领域大语言模型

PNAS | 李洪林/李英贤团队发现老药坦索罗辛具有抗骨质疏松新作用

Science | Baker团队使用Diffusion设计出高亲和力、高特异性的拮抗剂与激动剂

Nat. Methods | 用AI解读DNA，InstaDeep和英伟达联合推出DNA序列预训练模型

诺奖级成果实操培训班！《AlphaFold3：从原理到安装和使用》即将上线！

DrugChat：多模态大语言模型实现药物机制与属性的全方位预测

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉