编辑推荐︱机器学习辅助燃料分子设计

文摘 2024-12-31 19:54 中国香港

编辑推荐文章

Editor's Recommendation

速览

燃料的理论设计一直是推进技术领域的研究重点，可以有效避免复杂的实验和潜在的危险，指导燃料合成并与实验结果相互验证，对新一代燃料开发至关重要。然而，基团贡献法和量子化学方法等传统的计算方法存在准确性差和效率低的缺陷。机器学习的快速发展，为设计和开发潜在高能燃料开辟了新的途径，在性质预测和分子设计两个关键环节均展现了强大的能力。本综述首先介绍了几种用于机器学习的燃料分子描述方式，分别对用于燃料性质预测和分子设计的不同机器学习模型进行简要介绍。进一步对机器学习辅助燃料性质预测和新型燃料分子设计的研究现状进行了归纳总结。最后，探讨了机器学习在燃料应用领域所面临的挑战及后续发展方向。

【关键词】燃料;机器学习;分子描述;性质预测;分子设计;高通量筛选

【作者信息】第一作者：张香文；通讯作者：李国柱

1 引言

燃料是通过燃烧反应释放能量的物质，按存在形态可以分为固体、液体、气体燃料，按原料来源又可分为化石燃料和生物质燃料。各种燃料广泛应用于工业、民用、国防军工和航天等领域。下游应用领域的快速发展、环境的绿色友好需求以及能源革命和“双碳”战略的深入推进，对燃料的性能提出了新的、更高的要求，新型燃料的开发需求愈加迫切。然而，燃料化合物分子结构的繁多以及实验合成的复杂，极大程度上限制了下一代燃料的开发进程。因此，研发初期的燃料理论设计是十分必要的。燃料理论设计是新燃料研发的起点，对后续的燃料合成和评价起决定作用，包括分子结构设计、参数选择、性质计算等方面。燃料理论设计基于分子“结构-性能”的构效关系，对目标合成的燃料或中间产物分子在性质上有预先的评估，为实验合成满足特定需求的燃料提供了更多有效的候选分子结构，从“量”和“质”两方面提高燃料设计的效率，避免传统“试错法”的大量重复、冗余甚至危险的实验工作。因此，经验方程、基团贡献法、量化计算等基于定量结构-性质关系的计算方法应运而生。

机器学习（Machine Learning, ML）作为一种新兴的人工智能算法，在文字检测、图像识别、语言翻译和自动驾驶等各个领域发展迅速。近几年，在材料分子领域，机器学习被广泛应用在分子性质预测和设计中，从药物分子开始逐步应用到更多的材料领域，有效驱动了材料科学的发展，大幅降低了新材料开发的成本，提高了效益。相应地，机器学习也为解决燃料性质预测和理论设计的相关问题提供了新的思路。相比传统计算方法，机器学习在大数据处理、计算能力、逆向设计等方面展现了强大优势，可以更好地满足对新型燃料理论设计的需求。机器学习辅助燃料的理论设计的交叉研究越来越受到国内外研究者的重视，本课题组也开展了相应的研究工作。

机器学习辅助的燃料设计理论研究主要包括两个阶段：燃料性质预测和新型燃料分子设计。机器学习预测燃料性质的基本流程如图1a所示。首先收集、整理、建立包含化合物分子结构-燃料性质的数据库，获取数据的方式主要有实验合成测试和理论计算。这些数据可以通过文献公开报道、开源数据库、实验数据和软件调取等具体途径获得。进一步将数据集按不同比例分成训练集、验证集、测试集，随后将燃料分子结构转化为机器学习模型可识别的分子描述方式，输入到机器学习模型中进行训练;经过多次优化后得到预测误差较小的燃料性质预测模型。最后，向模型中输入新的分子结构，即可得到该分子的目标性质预测值。机器学习逆向设计新型燃料分子的基本流程如图1b所示，主要包含两种路径。一种是基于现有分子结构库的高通量筛选，将开源的大型分子结构库中的分子结构输入到已经训练优化好的性质预测模型，可以快速得到大型“分子结构-燃料性质”数据库;然后根据其中一个或多个性质的要求，设置筛选标准阈值，快速筛选出符合目标要求的分子结构。另一种是从头设计分子，首先将分子结构通过编码转换成机器学习可识别的分子描述方式，随后基于这些分子描述数据训练出可以根据燃料性质产生新分子的深度生成模型。最终，将模型产生的数据通过解码方法转换成燃料分子描述，即可得到所需的新型分子结构。由上述两种分子设计的路径可见，燃料性质的准确预测是设计新型燃料分子的基础。

图1 机器学习用于燃料性质预测（a）和分子设计（b）的流程。

虽然机器学习在燃料理论设计的研究中日渐丰富，但是聚焦于机器学习在燃料方面应用的系统性文章罕有发表，更多的是泛于机器学习在材料科学或分子科学应用的综述。本综述按照机器学习辅助燃料性质预测和分子设计的流程顺序，首先介绍几种常用的燃料分子描述方式，分类介绍了不同的机器学习模型。然后，归纳总结了机器学习预测燃料单一性质和多种性质的研究现状;进一步从高通量筛选和新型分子逆向设计两个维度，对机器学习设计新型燃料分子的研究进行概述。最后，根据现阶段的研究进展，展望了机器学习应用于燃料领域未来的发展前景。

2 燃料分子描述方式

将分子的结构等特征有效提取并转化为特定的数学描述方式，是目前数据驱动的材料与分子科学研究中的关键步骤。无论是机器学习辅助预测燃料性质还是生成新型燃料分子结构，都需要把离散的燃料分子结构转化为机器学习模型可识别的数学描述方式。目前，在已公开报道的相关研究中，燃料分子描述方式主要包括基于SMILES式的分子指纹、库仑矩阵、连续可操作的分子输入范式、分子图等。

2.1 基于SMILES式的分子指纹

分子的SMILES式，是用ASCII字符串简化描述分子空间结构信息的方式，其简单表示如图2a所示。对于正则化SMILES，每个SMILES式对应唯一的分子结构，同时每个分子结构对应的SMILES式也是唯一的。SMILES式是一维线性序列，可以相对容易地被转化为其他描述分子结构的分子指纹，包括扩展连接指纹、功能基团指纹等。扩展连接指纹先为每个重原子分配一个整数标识符;然后，以每个重原子为中心，将周围一圈的重原子合并进来，直至到达指定半径;最后，对子结构进行运算，生成特征序列。功能基团指纹则更为泛化，可以将同一类功能基团作为一种特征结构。RDKit 是一款开源的分子化学信息处理软件，采用Python编程语言实现基于SMILES式的多种分子指纹之间的相互转化。该软件可以用于生成多种燃料分子描述。

图2 表示燃料分子结构的不同分子描述方式：（a）分子SMILES式;（b）库仑矩阵;（c）连续可操作的分子输入范式;（d）分子图。

2.2 库仑矩阵

库仑矩阵（Coulomb Matrix, CM）是集中表示分子内原子的笛卡尔坐标和核电荷数的二维矩阵。库仑矩阵的计算公式如图2b中所示。其中，非对角线位置对应分子内不同原子i和j之间的库仑排斥，而对角位置对应分子内同一原子的原子化能。库仑矩阵又可进一步通过计算转化为库仑矩阵特征值，矩阵则由二维降至一维。库仑矩阵及其特征值的表示方式同时包含分子空间结构和原子电荷信息，更适合作为预测分子能量相关性质的输入方式。

2.3 连续可操作的分子输入范式

连续可操作的分子输入范式是用变分自编码器转换分子SMILES式生成的连续多维向量，可以有效表示分子的空间结构信息。参考Aspuru-Guzik等报道的深度学习方法，变分自编码器经训练优化后可以将分子的离散结构可逆地转化为多维连续向量，且互相具有唯一性，如图2c所示。连续可操作的分子输入范式的特点是可以将离散分子结构逆向转化为连续可微的多维向量，在分子生成模型中应用更为广泛。

2.4 分子图

分子图（Molecule Graph）是用图的形式表示分子结构。一般是将原子表示为节点、原子之间的化学键表示为边，过程中氢原子常被忽略，最后构造出一个完整表示分子结构的标记图，如图2d所示。分子图的表示形式主要用于图神经网络模型中。

除了上述以分子结构转化的分子描述方式，部分研究以分子的其他物理化学性质（非目标预测性质）、混合物组成中的百分含量或其他数值组合作为模型的输入，从而达到预测目标性质的效果。实质上，这种预测方式是探索建立不同性质之间的数学关联。

3 机器学习模型

根据在燃料领域应用目的的不同，机器学习模型具体分为两大类：一类是燃料性质预测模型，主要有线性回归、人工神经网络、支持向量机、决策树等，还有组合多种模型的集成学习;另一类是燃料分子生成模型，主要包括变分自编码器和生成对抗网络等。下面对不同机器学习模型进行简要分类介绍。

3.1 燃料性质预测模型

3.1.1 线性回归

线性回归是机器学习中一种简单的模型方法。最简单的线性回归就是建立一个目标性质y和一个影响因素x之间的一元线性关系，即y = wx+b，w和b是公式的参数。但是，往往影响目标性质的因素不止一个，这时需要多元线性回归（Multiple Linear Regression, MLR）建立目标性质与多个自变量之间的线性关系。线性回归具有明确参数的公式表示，通常用于处理数据量较小且较简单的性质预测问题。

3.1.2 人工神经网络

人工神经网络是经典的机器学习模型，从数据信息处理角度对人脑神经元网络进行抽象，按不同的连接方式组成不同的网络结构。人工神经网络按照不同的用途和算法又具有很多细分类。目前，辅助燃料性质预测的人工神经网络主要包括单层神经网络、深度神经网络、卷积神经网络和图神经网络等。

3.1.2.1 单层神经网络

单层神经网络是一种由可见层和隐藏层两部分组成的简单神经网络模型。可见层包含输入层和输出层，分别具有输入分子结构信息和输出目标性质的功能。隐藏层不直接与神经网络的外部产生联系，通过设置不同的参数权重完成内部计算过程。MATLAB软件中的Nntool工具箱提供了构建单层神经网络的模块化功能，包含了Levenberg-Marquardt在内的多种逻辑算法。

3.1.2.2 深度神经网络

深度神经网络和普通神经网络构成一样，同样是由输入层、隐藏层和输出层三部分构成，区别在于深度神经网络的隐藏层层数更多、参数更复杂。2006年，Hinton等利用预训练方法缓解了局部最优解问题，将神经网络的隐含层成功拓展至7层。至此，神经网络才真正意义上有了“深度”，其优势是数据计算和处理的能力更强。关于深度神经网络的“深度”没有明确定义，即隐藏层的层数没有明确数量规定。

3.1.2.3 卷积神经网络

卷积神经网络是一种包含卷积计算且具有深度结构的前馈神经网络。卷积神经网络典型的结构由卷积层、池化层、全连接层三部分组成。卷积层的作用是对输入数据进行特征提取，包含多个卷积核，也被称作感受野。池化层是一个特征降维（下采样）过程，以便减少参数数量和计算量。连接层的作用是对卷积层和池化层提取到的特征进行非线性组合以得到目标结果。

3.1.2.4 图神经网络

图神经网络是一种学习图结构数据、提取和发掘图结构数据中的特征和模式的神经网络模型。图神经网络对图上所有属性进行可优化的变换，可以保持图的对称信息，且这种变换不会改变其连接性。图神经网络也逐渐应用在燃料性质的预测上，以分子图作为输入预测一些燃料性质。

3.1.3 支持向量机

支持向量机是按监督学习方式对数据进行二元分类的广义线性分类器。支持向量机的决策边界是对学习样本求解的最大边距超平面，可以将问题化为一个求解凸二次规划的问题。此外，通过引入核函数也可以构造出非线性SVM，解决非线性分类问题。支持向量机同样也可以用于解决回归预测问题。不同之处在于，支持向量机在分类任务中是使距超平面最近的样本点之间的间隔最大;而在回归任务中，是使距超平面最远的样本点之间的间隔最大。

3.1.4 决策树

决策树一种基于树形结构的用于分类的机器学习模型。决策树由多个决策节点和叶子节点组成，每个决策节点通过不同的条件判断而进行分支选择，而叶子节点代表分类的最终结果。通过设计不同参数的节点划分，得到合适的数据分类效果。当然，决策树也可以通过不断的分类实现回归。因此，决策树也可以被用作燃料性质预测模型。

3.1.5 集成学习模型

集成学习模型是一种将一个或多个不同类型的机器学习模型合理排列组合的集合模型，包括上述提到的神经网络、决策树、支持向量机等，从而实现分类、预测等不同的目的。例如，随机森林就属于一种集成学习，是将许多棵决策树整合成森林并用来预测最终目标结果的模型。

在机器学习预测模型的效果评价过程中，通常采用决定系数（R2）、平均绝对误差（MAE）、均方误差（MSE）、均方根误差（RMSE）等指标评价预测精度。这些指标的计算公式见表1。

表1 机器学习模型预测精度评价指标。

3.2 燃料分子生成模型

受到来自计算机视觉和自然语言处理等领域的启发，研究者们从2017年开始，逐渐开发了包括变分自编码器、循环神经网路、强化学习、生成对抗网络等在内的多种分子生成模型。目前，在新型燃料分子逆向设计中应用较多的主要有变分自编码模型和生成对抗网络两种模型。

3.2.1 变分自编码器

变分自编码器是以自编码器为基础，通过构造变分下届和重采用增加生成新数据功能的深度生成模型。变分自编码器由编码器和解码器组成，如图3a所示。编码器将分子映射到从高斯分布中采用的低维潜在向量，解码器则将潜在向量映射到输入的分子。编码器和解码器可以采用多种神经网络架构，包括卷积神经网络、图神经网络等深度神经网络模型。

图3 （a）变分自编码器结构图和（b）生成对抗网络结构图。

3.2.2 生成对抗网络

生成对抗网络（Generative Adversarial Network, GAN）与变分自编码器不同，不再使用明确的概率密度函数，而是由生成器与判别器组成对抗训练框架。生成对抗网络模型结构见图3b。生成器生成判别模型无法区分真假的分子，达到“以假乱真”的目的。判别器则通过训练最大限度地区分真实数据和生成数据，达到“辨别真假”的目的。生成器和判别器通过不断训练进行零和博弈，最终两者达到纳什平衡，生成符合要求的新型分子结构。

4 燃料性质预测

4.1 单一燃料性质的预测

目前，机器学习已成功实现对燃料性质的准确预测，有效加速了评估燃料性能的过程。这些燃料性质主要包括密度、闪点、黏度、燃烧热值、十六烷值等。下面选择具有代表性的工作进行介绍。

4.1.1 密度

密度是单位体积物质的质量，是评估燃料比能量的关键指标。现有数据显示，碳氢燃料的密度和体积热值呈正相关。例如，四氢降冰片二烯二聚体（RJ-5）是截至目前公开报道的密度最高的液体碳氢燃料，其密度高达1.08 g·cm^-3，体积热值为44.9 MJ·L^-1。因此，准确预测燃料的密度至关重要。机器学习在燃料密度预测中逐渐发挥作用。Yang等测定了12种烃类通过不同配比组成的69种混合柴油的密度值，用多元线性回归和人工神经网络等模型有效关联了柴油的质量百分比和密度。最佳的广义回归神经网络模型在全数据集上预测密度的决定系数（R2）和平均绝对误差分别是0.98和0.003 g·cm^-3。Hall等提出了一种用于预测喷气燃料密度的高斯过程回归模型。密度数值测定的温度范围是-40~140℃。同时，为了评估合成燃料对预测能力的影响，在54种常规燃料的训练数据中增添12种合成燃料。结果表明，合成燃料数据的引入提高了预测密度的准确性。

4.1.2 闪点

闪点是燃料产生蒸气在空气中点燃的最低温度，是评估燃料易燃性的关键指标。高闪点的燃料易于燃料的储存和运输。2020年，Sun等收集了10 575个化合物分子的闪点数据集，评估了信息传递神经网络和图卷积神经网络两种图深度神经网络模型预测化合物闪点的效果。优化的消息传递神经网络模型在全数据集上的预测精度较高，MAE和R2分别为18.76 K和0.83，如图4所示。机器学习辅助预测混合燃料闪点的研究也相继展开，并针对混合物建立了一些特征描述的输入方式。Aljaman等将燃料分子结构拆解成11种不同类型的官能团，采用官能团和不同组分的质量分数作为机器学习模型的输入。进一步分别用Matlab 和Keras开发了两种神经网络模型，有效预测了788种含氧石油基（474种纯化合物和314种混合物）燃料的闪点。Matlab 和Keras建立的两种网络模型预测闪点的R2分别为0.981和0.979，MAE分别为3.12 K和3.55 K。Jiao 等以纯物质电性拓扑状态指数（ETSI）和摩尔分数的加权平均数作为二元混合物的描述算符，利用多元线性回归（MLR）、逐步回归（Stepwise Regression）、径向基函数人工神经网络（RBF-ANN）等方法建立了多种闪点预测模型，并验证了288个二元混合物的电性拓扑状态指数与其闪点存在定量关系。

图4 （a）信息传递神经网络和（b）图卷积神经网络预测闪点值与实验值对比。

4.1.3 黏度

黏度主要用于评价燃料的流动性，并有助于计算液体燃料在输送管道的压降。评价燃料黏度的指标主要有动态黏度和运动黏度。其中，运动黏度是动态黏度与密度之比。研究学者使用不同的机器学习方法对燃料黏度的预测展开了研究。Cengiz等构建了多层感知器、极限学习机、K临近法三种机器学习模型，以实验测得的燃料含水量、密度和闪点用作输入数据，预测了77种液体燃料的运动黏度。结果表明，极限学习机具有最低的MRE值（0.0140）和MSE值（0.0313），更适用于预测燃料的运动黏度。Yahya 等采用温度、生物柴油的运动黏度及其在混合物中的浓度作为输入，构建了自适应神经模糊系统和最小二乘支持向量机预测生物柴油混合物的运动黏度。不同模型预测运动黏度的结果见图5。比较结果得出，基于多项核函数的最小二乘支持向量机具有最高的预测精度，其预测636种生物柴油混合物运动黏度的MAE 和R2分别为0.03 mm²/s和0.9997。

图5 不同智能方法在（a）训练、（b）测试和（c）全部数据集上的预测性能。

4.1.4 热值

热值是评价燃料动力性能的重要指标，具有高热值的燃料可以为发动机提供足够能量。具体评价燃料热值的细分指标又有所不同，包括燃烧热值、体积热值、高热值等。Xing等以化合物分子中C、H、O、N、S五种不同元素的质量百分比为输入，通过构建线性回归、人工神经网络、支持向量机、随机森林和决策树等不同机器学习模型，有效预测了生物燃料的质量热值。在这些模型中，随机森林回归（RFR）和决策树回归（DTR）模型在全数据集上预测质量热值表现较好，R2分别为0.9814和0.9664。Hosseinpour 等提出了一种新的基于模糊偏最小二乘的迭代网络并结合主成分分析的预测模型，有效关联了350种生物质燃料的固定碳（FC）、挥发性物质（VM）和灰分含量与其高热值。结果显示，生物质燃料热值的预测值与真实值之间的R2为0.96。

4.1.5 十六烷值

十六烷值是评估燃料点火性能的关键指标。十六烷值越高，表明燃料的点火性能越好，燃烧均匀、发动机发动平稳。机器学习也逐渐被用作预测燃料十六烷值的有效模型。Guo等建立的人工神经网络（ANN）有效预测了349种烃类和含氧化合物的十六烷值，预测精度优于多元线性回归（MLR）。最优模型对于环状化合物和链状化合物预测的平均绝对误差分别为6.5 CN和4.0 CN。Kessler等报道了一种预测呋喃化合物十六烷值的神经网络模型。在模型优化过程中，通过在训练数据集中扩加目标呋喃类化合物，预测呋喃基分子的十六烷值的精度平均提高了49.21%（3.74 CN）。

除了上述重点介绍的密度、闪点、黏度、燃烧热值、十六烷值等燃料性质，机器学习在辅助预测辛烷值、成烟特性等其他种类燃料性质也有相应的应用。此外，除了聚焦于分子燃料性质预测的研究，机器学习预测其他类型化合物理化性质的相关研究，对燃料性质预测也有促进和指导意义。

4.2 多种燃料性质的预测

预测单一燃料性质的机器学习模型方法也被探索应用到其他燃料性质的预测，逐渐实现了对燃料的多种性质的预测，进而可以更综合地评估燃料的性能。

早在2007年，刘国柱等采用GC-MS分析了80多种燃料的化学组成，并将上述柴油燃料划分为单环烷烃、双环烷烃、正构烷烃、异构烷烃、萘及其取代物等八种烃类。进一步构建了简单的人工神经网络关联了燃料组成与其闪点、冰点、密度、净燃烧热值等多种性质之间的关系。2022年，刘国柱等构建不同的图深度神经网络预测了燃料的多种性质。比较了图卷积网络（GCN）、图注意力网络（GAT）、图同构网络（GIN）三种图神经网络对燃料化合物闪点的预测精度。其中，耦合了分子和原子特征的图同构网络具有最佳的预测精度，预测闪点的R2和MAE分别为0.991和3.952 K。该模型也可以有效扩展到冰点和密度性质的预测上，预测精度R2分别为0.997、0.991。三种燃料性质的预测结果如图6所示。

图6 （a）沸点、（b）密度和（c）闪点的预测值与实验值。黄色、红色、蓝色分别代表训练集、验证集、测试集的数据。

张霖宙等以分子结构基团和化学描述符作为输入，采用多种机器学习模型准确预测了柴油的冰点、生烟指数、十六烷值和燃烧热4个关键性质。以十六烷值为例，对比了人工神经网络、支持向量机和随机森林的预测结果。结果显示，人工神经网络在训练集和测试集中的误差较小。在准确预测性质的基础上，用上述4个关键性质分别评估柴油分子的低温流动性、清洁度、点火性能和动力性能，通过性质雷达图建立了评估柴油综合性能的体系，如图7所示。比较结果得出：己基环己烷和2,6,10-三甲基十一烷具有良好的低温流动性、清洁度、点火性能和动力性能。从而归纳出一般性规律，即异构烷烃和环烷烃是优质清洁柴油的理想组分。

图7 使用QSPR模型预测代表性分子的综合性能雷达图。

Saldana等使用多种机器学习模型对分子的密度、黏度、闪点、正十六烷值、冰点、净燃烧热6种燃料性质预测进行了详细研究。这些燃料性质最佳的预测值与真实值的比较结果见图8。除冰点外，预测其他5种燃料性质的R2均超过0.9，且预测净燃烧热的R2高达0.999。在上述研究中，主要采用两种分子描述方式，分别是基于分子SMILES式的官能团描述符和通过Materials Studio软件计算得到的分子拓扑描述符。同时，使用人工神经网络、支持向量机等不同机器学习模型与两种分子描述的不同组合来创建新的模型，并比较不同模型的预测效果。结果表明，对不同模型的预测数据进行平均组合的“共识模型”预测效果最佳，且预测不同燃料性质的“共识模型”的具体组合方式又有所差异。

图8 （a）密度、（b）黏度、（c）闪点、（d）正十六烷值，（e）冰点、（f）净燃烧热6种燃料性质预测值和真实值的比较。

本课题组设计并优化了342个碳氢化合物分子结构，通过DFT和基团贡献法计算了这些分子的密度、冰点、沸点、燃烧热值、比冲等多种关键燃料性质，从而构建了包含342个碳氢化合物分子结构-燃料性质的数据库。基于上述数据库，用Matlab建立并优化了单层神经网络，实现了对342个分子的多种燃料性质的准确预测，多种性质的R2在0.9以上。在前期建立的342个碳氢化合物分子结构-燃料性质数据库的基础上，进一步通过检索美国化学文摘中有关碳氢化合物的理化性质数据，将训练数据库扩充到739个碳氢化合物分子。然后，分别以连续可操作的分子输入范式（COMES）和库仑矩阵（CM）作为输入，构建了不同的单个学习器和集成学习的堆叠模型（Stacking Model），实现了对多种燃料性质的准确预测。无论以连续可操作的分子输入范式还是库仑矩阵作为输入，堆叠模型均表现出较低的预测误差。相较前期设计的单层神经网络（SLNN），在训练数据更多且来源不同的前提下，预测密度、质量热值、比冲等燃料性质的精度仍有所提升。前后两篇工作对碳氢化合物多种关键燃料性质的预测精度结果见表2。

表2 单层神经网络和堆叠集成模型预测多种燃料性质的误差比较。

Li等提出了一种集成机器学习与定量结构-性能关系（ML-QSPR）结合的方法，用于预测23种不同类型燃料的15种理化性质。他们采用10倍交叉验证和留一交叉验证用于训练回归模型和检验预测结果的准确性。与已发表的燃料性质预测模型相比，上述设计的模型主要有以下4点优势：（1）模型可用于多种燃料性质的预测，包括CN、RON、MON、Tm、Tb、ΔHvap, γ、LHV、ρ、YSI、IT、FP、VP、LFL、UFL 15种性质;（2）模型适用于多种不同类型的燃料，包括烷烃、环烷烃、烯烃、环状烯烃、炔烃、醇、醛等23种燃料;（3）模型实现了较高的预测精度，预测15种燃料性质的平均决定系数R2高达0.9816，15种燃料性质的预测精度见表3;（4）模型展示了测试新分子的合理插值和外推能力。模型的4点优势主要归因于两个关键因素：一是开发的功能基团类系统UOB 3.0系统考虑了燃料分子结构的贡献特征、官能团相互作用等，可以有效转化为分子输入;二是机器学习模型通过非参数拟合描述燃料分子结构与性质的关系，并通过自动超参数调整、特征选择、最佳模型识别等方法进行优化，从而准确地捕捉了分子结构信息对燃料性质的影响。

表3 10倍交叉验证和留一交叉验证训练的机器学习和定量结构-关系模型预测表现。

5 新型燃料分子设计

在目前报道的研究中，新型燃料分子设计主要有两种方式，分别是高通量筛选出符合特定性能要求的燃料分子结构和从头设计燃料分子。

5.1 高通量筛选燃料分子

基于小型数据集训练优化的机器学习模型，预测大型分子结构库中分子的燃料性质，可以快速得到大型分子结构-燃料性质数据库。目前，开源的大型分子结构库主要有GDB、QM9、ZINC、PubChem等。进一步通过设置特定性质的筛选标准，从大型分子结构-燃料性质数据库高通量筛选出符合要求的分子结构。这种虚拟筛选方法使用大量候选分子数据集高通量得到目标更集中、数量更小的分子数据集，能有效将候选分子的数量级从105降到101。

Li等在前期多种燃料性质预测研究的基础上，进一步提出了高通量筛选特定性质燃料的方法，设置了二级虚拟筛选流程，如图9 a所示。一级筛选是基于前期研究的机器学习与定量结构-性能关系（ML-QSPR）模型，预测燃料的熔点、沸点、十六烷值、气化焓等15种性质。根据SI发动机的性能要求，设置不同性质的阈值，具体筛选标准见图9 b。一级筛选从1742种化合物中成功筛选出166种符合要求的燃料化合物。二级筛选是基于动力学研究，用点火延迟时间、灵敏度和层流火焰速度进一步评估燃料的燃烧性能，最终得到8种候选燃料分子。这种 “漏斗式”的分级筛选方法，可以逐步筛选到更符合最终目标要求的新型燃料分子。

图9 （a）面向特定性质设计燃料的工作流程，阴影区域表示通过ML-QSPR和化学动力学进行的虚拟燃料筛选;（b）ML-QSPR模型对SI发动机进行一级燃料物理化学特性筛选。

本课题组基于342个碳氢化合物结构-多种燃料性质小型数据库训练的单层神经网络模型，成功预测了GDB-13C中319 893个碳氢化合物分子的多种燃料性质，构建了319 893个碳氢化合物分子-燃料性质的大型数据库，如图10a所示。通过设定筛选标准为冰点低于273.15 K、质量热值大于最大值的85%、且比冲大于最大值的80%，在已建立的大型数据库中高通量筛选出 28个具有高密度、高比冲、高质量热值和低冰点的新型碳氢燃料分子。筛选出的28个分子结构如图10b所示，并对这些分子的燃料性质做了概念性计算验证。

图10 本课题组有关高通量筛选碳氢燃料分子的工作：（a）单层神经网络预测319 895个分子的质量热值NHOC（x轴）、比冲Isp（y轴）、密度ρ（z轴）和熔点Tm;（b）筛选出的28个烃类分子的结构;（c）机器学习预测质量热值（黑色十字）与DFT和基团贡献法计算（红色圆圈）的比较;（d）筛选出的20个碳氢化合物分子的结构。

在前期研究的基础上，本课题组用训练优化的堆叠模型，预测了GDB-13C数据库中319 893个碳氢化合物分子的多种燃料性质，并进行了高通量筛选。本次筛选标准更为严格，增加了SA作为筛选条件。SA代表化合物分子合成的难易程度，SA数值越小，代表越容易合成。当筛选标准设定为ρ>1.1 g·cm^-3、NHOC>42 MJ·kg^-1、Isp>343 s、SA<5.0，从319 893个分子中筛选出了1026个符合要求的分子结构。为了验证筛选结果的有效性，随机选取78 个分子，比较了这些分子预测值与计算值之间的误差。其中，质量热值预测值与计算值的比较如图10c所示。与之前建立的单层神经网络相比，堆叠模型预测性质的MAE值平均大幅降低了87%，如NHOC的MAE从4.12 MJ·kg^-1降低到0.45 MJ·kg^-1。在高通量筛选出的1026个分子中，挑选出了20个具有结构特点的新型碳氢化合物分子（图10d），用于未来指导新型燃料分子的设计。与前期使用单层神经网络筛选出的28个碳氢化合物分子的燃料性能相比，上述用堆叠模型筛选出的20个性能突出的碳氢化合物分子，其冰点平均降低了21.8K、密度平均提高了0.06 g·cm^-3、质量热值平均提高了0.71 MJ·kg^-1、比冲平均提高了5.8 m·s^-1，更符合高密度碳氢液体燃料性能标准;且增加了SA的筛选维度，目标燃料的实验可合成性相应也得到提高。

5.2 新型燃料分子逆向设计

与在现有分子结构库中高通量筛选符合特定要求的燃料分子的方式不同，逆向设计燃料分子是从头设计全新的燃料分子结构。目前，分子逆向生成模型是机器学习在材料化学方面研究的热点之一，可以根据特定目标生成新的分子结构。但是，目前在燃料设计上的应用依然较少，本课题组在这方面做了一些探索性研究，主要是通过变分自编码器（VAE）和生成对抗网络（GAN）实现新型燃料分子的逆向设计。

本课题组开发了一种变分自编码器，可以实现可逆地转化表示燃料分子的连续多维数学向量，流程见图11a。图11b展示了VAE模型在经典碳氢燃料分子JP-10周围的采样结果，采样分子到原始分子的距离小于训练集中相邻旧分子的平均距离，证明模型具有较强的分子生成能力。同时，基于基团贡献法开发了一段python代码，实现了以分子SMILES式作为输入自动计算碳氢化合物的密度、冰点、沸点和闪点等燃料性质。使用连续多维数值向量（CMR）作为输入，基于9252个碳氢化合物分子及其热值的小型量子化学计算数据库，训练优化了与多层感知器MLP联合训练的VAE模型，训练后的模型可以精确预测燃烧热值。如图11 c所示，分子性质在潜在空间中的分布相对有序，证明联合训练可以帮助模型更好地捕获分子结构特征，并更有序地组织隐空间。进而，使用VAE模型生成了11 291 051个碳氢化合物分子，并用上述计算方法成功计算了这些分子的性质，得到包含11 291 051个碳氢化合物分子结构-燃料性质的大型数据CH-02。通过设置筛选阈值为密度大于1.05 g·cm^-3、冰点低于240 K、质量热值大于42 MJ·kg^-1、比冲大于340 s、分子环数小于5，在CH-02中高通量筛选得到了41 199个碳氢化合物分子结构。进一步从41 199个分子中选取了20个典型的新分子结构，如图11 d 所示。通过结构分析发现，以螺环形式连接的环丙烷或环丁烷的应变碳环是提高碳氢化合物分子综合燃料性能的有效结构单元。

图11 （a）燃料分子设计图示，包含编码器和解码器的VAE、性质预测模型;（b）经过训练的VAE的生成能力，经典燃料分子JP-10周围的采样结果;（c）通过与多层感知器MLP联合训练的VAE生成的潜在空间的二维主成分分析，用于预测密度（ρ，g·cm^-3）、凝固点（Tm，K）、比冲（Isp，s）和热值（NHOC，MJ·kg^-1），色条颜色显示性质的数值;（d）筛选出的20个突出的分子结构。

近期，在应用变分自编码器设计燃料分子的基础上，本课题组继续开发了具有堆叠域的潜在空间生成对抗网络模型。该模型由变分自编码器（VAE）、生成对抗网络（GAN）和堆叠模型三部分组成，模型的工作流程如图12所示。VAE模型在GDB-13C数据库中 319 893个碳氢化合物结构的基础上进行训练，用于将碳氢化合物结构转化为映射到潜在空间中的连续可操作的实值向量。训练后的模型具有很好的鲁棒性，编码和解码的正确率高达99%。堆叠模型用于预测分子的冰点、沸点、闪点、密度、质量热值、比冲6种关键燃料性质。在GAN模型中，255种已知的典型高密度碳氢燃料分子结构被用作训练集，判别器根据训练集中目标燃料的分子结构，不断改进训练参数判断给定的分子是否符合标准;而生成器则被训练生成合格的新分子，以使判别器将其与目标燃料混淆。当两者达到纳什平衡，生成器可以将随机输入的向量转换为满足目标燃料特性的新型碳氢化合物分子。最终，LIGANDS模型从头设计了3461个合格的新燃料分子，其性质分布与目标燃料相似，且能量特性更优。进一步从中选出了16个具有独特结构的新型碳氢燃料分子，性能与典型碳氢燃料JP-10和QC相当甚至更好。因此，LIGANDS模型具备高效、稳健的碳氢燃料深度生成能力。

图12 用于从头设计燃料的LIGANDS深度生成模型的工作流程，集成VAE的编码器和解码器、GAN的生成器和判别器以及堆叠预测模型。

5.3 不同设计方法的对比

对比上述介绍的两类机器学习辅助设计燃料分子的方法：高通量燃料分子方法属于虚拟筛选，即基于现有的大型分子结构数据库，可以使用不同的机器学习方法，预测数据库中不同分子结构的燃料性质，并从中高通量筛选出符合特定性能要求的燃料分子结构。该方法中，筛选出的分子性能及准确性主要取决于训练数据库的质量、机器学习模型预测燃料性质的准确性及筛选条件的严苛程度。新型燃料分子逆向设计属于从头设计，即瞄定燃料性质要求的目标，基于不同的深度生成模型逆向设计符合要求的燃料分子结构。该方法可以产生不同于现有分子结构数据库中的新型分子结构，其设计的燃料分子性能很大程度上取决于构造的深度生成模型的编码和解码分子结构的准确率，即能否准确学习高性能燃料分子的结构信息。

结论与展望

本文重点综述了机器学习辅助燃料性质预测与新型燃料分子设计两个关键领域的研究进展。机器学习可以准确预测分子的密度、闪点、黏度、燃烧热值、十六烷值等燃料性质，并能通过高通量筛选和逆向设计等方式高效、精准地设计新型燃料分子。机器学习有效助力发现了更多的潜在高能燃料分子，在设计下一代新型燃料方面展现了其高效性和先进性。根据现阶段的研究进展，未来机器学习在燃料领域的应用主要围绕以下四方面加强研究。

（1）燃料结构和性质基础数据的完善和标准化。在机器学习训练的过程中，数据驱动的关键难题就是数据的缺乏和标准不统一，尤其是实验数据的缺乏。在燃料理论研究中亦是如此。更多实验数据的获取以及数据标准化的发展，将驱动燃料理论设计的快速发展，从而更高效地指导实验合成及具体应用场景。

（2）燃料分子特征的有效提取。目前的研究已经设计了多种分子描述方式，并对它们的性质预测效果进行了比较。然而，这些分子描述提取分子特征的信息依然有限，并不能完全诠释分子结构与目标性质关联的分子特征。分子描述的最终目的就是有效提取分子特征，将更多的分子结构等信息集成于一种简单的分子指纹表示，并用尽可能少的特征就能达到目标性质预测的效果。因此，更“精准”的分子描述方式有待进一步被开发。此外，在实际的应用场景中，飞行器和发动机使用的燃料更多是以混合物的形式存在。在后续的研究中，将逐渐通过设计有效提取混合燃料的分子描述方式来解决更多实际应用问题。

（3）燃料性质预测模型的泛化能力和可解释性。目前的机器学习模型，基于现有训练和测试的数据集展现了较高的预测精度，但其扩展外延的预测能力并不理想，预测现有数据集以外的燃料分子性质与实际仍存在较大偏差。基于小型数据库训练即可得到泛化能力较强的机器学习模型是未来攻克的难题之一。同时，目前的燃料性质预测模型更多的像是“黑箱”，虽然已较好地达到了预测性质的目的，但是模型的可解释性还有待被进一步认知。目前，可解释深度学习模型是在计算机和大数据研究热点之一，后续也将在预测燃料性质上逐渐应用起来，这对进一步解释分子结构与燃料性质之间的构效关系是十分必要的。

（4）燃料分子按需逆向设计及合成路线的预测。目前，开发燃料分子逆向设计模型的研究依然较少。下一步，强化学习、循环神经网路等多种生成模型将逐渐应用到燃料分子的按需逆向设计，从头设计出更多潜在的新型高能燃料分子。此外，除了直接设计出燃料分子结构，针对目标分子合成路线的智能化预测和优化设计也至关重要。这对评价目标分子的实用性和深入指导实验合成都具有重要指导作用。

· 编辑推荐 · Editor's Recommendation

推文篇幅有限，欢迎阅读原文，共飨学术

点击文末「阅读原文」，直达文献。

Authors: Zhang Xiangwen, Hou Fang, Liu Ruichen, Wang Li, and Li Guozhu*

Title: Machine Learning Assisted Molecule Design of Fuel

Published in: Progress in Chemistry, 2024, 36(4): 471-485.

DOI: 10.7536/PC230911

感谢您的关注，欢迎引用本文！

MOFs帮助环境

推送MOFs基环境功能材料在环境污染控制领域的研究进展。