文献信息:Sutariya B, Sarkar P, Indurkar P D, et al. Machine
learning-assisted performance prediction from the synthesis conditions of
nanofiltration membranes [J]. Separation and Purification Technology, 2025,
354, 128960.(点击文末阅读全文可直达)
1.研究背景
纳滤膜分离技术在废水处理、食品加工、药物纯化等多个领域中有着广泛的应用。随着对膜过滤效率、选择性和可持续性要求的提高,开发高性能分离膜的需求也在不断增长。纳滤膜的性能优化是一个复杂的过程,涉及多个变量,如单体和催化剂浓度、反应时间等,传统的膜性能评估不仅实验周期长且资源需求量大。因此,该研究提出了利用机器学习(ML)模型来预测膜性能,以期减少实验需求,简化和改进膜制造过程。
2.创新点
该研究通过构建随机森林(RF)和多层感知器(MLP)等经典机器学习模型,考察了哌嗪(PIP)、均苯三甲酰氯(TMC)、十二烷基硫酸钠(SLS)浓度和反应时间等输入变量对纯水渗透率(PWP)、Na2SO4和NaCl截留率的影响。在精准预测并制备出高渗透率(16 ~ 20 LMH/ bar)和高选择性(NaCl和Na2SO4选择性超过4000)纳滤膜的同时,深入探讨了膜制造过程中的机理,进一步分析了相关参数对膜的微观结构和性能的影响。
3.实验设计
首先通过先前实验数据建立初始数据集,运用其对RF和MLP模型进行训练和测试并以传统的MLR模型作为对比(图1),随后使用均方差(MSE)和决定系数(R2)来评估模型性能,借助最佳模型对高性能纳滤膜制备参数进行准确预测;最后,使用RF和MLP模型分析输入变量对输出性能的影响,进行特征重要性分析,并通过实验加以验证模型预测的准确性。
图1 RF(左)和MLP(右)结构的示意图
4. 实验结果
该研究首先分析了输入变量之间的相关性(图2),确定了模型不会因输入变量之间的多重共线性而受到影响,以避免模型过拟合。
图2 输入和输出变量的Pearson相关热图
4.1 多元线性回归(MLR)
图3所示,许多数据点明显偏离输出参数的理想预测线,MLR模型在预测PWP、Na2SO4和NaCl截留率表现不佳,这表明传统的线性模型可能无法准确预测这些数据的变化趋势。
图3 多元线性回归拟合(a) PWP, (b) Na2SO4截留率,(c) NaCl截留率
4.2 随机森林(RF)
RF模型在训练集上表现出色,对于PWP、Na2SO4和NaCl截留率,训练集R2分别达到了0.9806、0.9812和0.9969,测试集R2分别为0.9669、0.9082和0.9923,表明RF模型能够很好地拟合训练数据并保持了较高的预测准确性,同时测试集MSE分别为0.0014、0.0059和0.0011,说明该模型具有很好的泛化能力(图4)。对于RF模型的特征重要性分析结果显示,PIP浓度对PWP的影响最大,反应时间、SLS浓度和TMC浓度对所有输出参数的影响相对较小。而在膜的Na2SO4和NaCl的截留性能中,SLS浓度起着非常关键的作用,说明界面张力对聚酰胺交联结构形成十分重要,从而影响膜的分离选择性。同时,PIP浓度对Na2SO4的截留非常重要,同时也是影响NaCl截留率最关键的参数。相比之下,TMC浓度对膜截留性能的影响相对较小。相比之下,反应时间对通量和盐截留率的影响都最小。
图4 RF模型预测性能图
4.3 多层感知器(MLP)
表1展示了对网络中不同神经元配置的MLP回归模型性能的分析。训练集和测试集的MSE值表示预测值和实际值之间的均方差,从而提供预测准确性的见解。MSE值越小,表明模型的预测能力越好,反之亦然。
表1不同神经元数量的MLP模型的拟合质量
通过对不同数量的神经元配置MLP模型性能测试分析揭示了模型在神经元计数方面的行为趋势:最初,神经元较少(例如,1或2),在三种模型测试情况下,训练集和测试集的R2较低,MSE值较高。随着神经元数量的增加,模型的性能在所有情况下都有显著提高,R2更高,MSE值更低。对于12个神经元的模型PWP性能达到峰值,训练集和测试集的R2分别为0.9619和0.9529,训练集和测试集的MSE分别为0.0017和0.0021,均为最优配置。对于Na2SO4和NaCl的截留率最佳点分别为17个和14个神经元。在Na2SO4截留最佳点,训练集和测试集的R2值分别为0.9823和0.9503,而相应的MSE值分别为0.0012和0.0036。同样,对于NaCl截留最佳点,训练集和测试集的R2为0.9972和0.9844,MSE分别为0.0003和0.0015。超过这个最优点,神经元数量的进一步增加会导致收益递减甚至性能大幅衰减。此外,通过测试1 ~ 20个范围内的神经元数量,发现增加神经元数量并不一定会增强模型的预测效率。因此,MLP模型的最佳配置(神经元数量)对于不同的输出参数是不同的,这表明需要针对每个特定的性能参数调整网络结构。
图5显示了模型在训练和测试阶段对预测数据和实验数据的稳健拟合,证明了其在预测未知输出参数方面的准确性。误差与计数图进一步证实了这一点,其中误差为零的点最为集中。这些证据凸显了MLP模型在预测任务中的可靠性和高效性。优化后的节点结构为PWP(4-12-1)、NaCl(4-17-1)和Na2SO4(4-14-1),且实验值与预测值的一致性进一步证实了MLP模型的卓越拟合质量。
图5 MLP模型预测性能图
4.4 回归拟合
对各种回归模型进行的分析显示,它们在不同数据集上的表现存在明显差异,MLR始终在所有情况下产生不满意的拟合。相比之下,RF回归模型特别有效,显示出对PWP和NaCl截留率等参数的良好拟合。其中,RF回归对PWP的训练集R2为0.9806,测试集R2为0.9669,对NaCl截留的训练集R2为0.9969,测试集R2为0.9923。另一方面,MLP回归在拟合Na2SO4截留率方面优于其他回归方法,训练集R2为0.9823,测试集R2为0.9503。因此,RF模型用于评估PWP和NaCl截留的特征重要性,而MLP模型用于Na2SO4截留的特征重要性分析(图6)。
图6 (a) PWP的RF模型,(b) Na2SO4的MLP模型,(c) NaCl的RF模型得出的特征重要性和SHAP图。
4.5 输入变量的特征重要性分析
在膜制造中引入SLS的目的是降低界面的表面张力。这一假设是基于这样一种观点:降低表面张力会促进PIP单体在有机相中的扩散,并抑制其在释放出HCl时发生质子化,从而提高聚合交联度,减小分离膜的截留分子量。此外,调整PIP单体浓度可以达到界面聚合反应的化学平衡,在保持适当聚合交联度的同时减小分离层厚度。这种有利的动力学条件能防止纳滤膜中的孔隙聚集,从而形成具有高荷负电性的窄分布网孔。因此,在保持一价离子和二价离子之间高选择性的同时,实现了高渗透性。
Pearson相关热图(图2)显示,PIP浓度与PWP和Na2SO4截留率呈负相关,而与NaCl截留率呈正相关。PIP浓度决定了有机相中单体的交联,并与TMC反应形成分离层。在水相中,最佳的PIP浓度会使得足够数量的PIP扩散到有机相中,从而加速界面聚合,形成无缺陷的分离层。在有机相中,超过化学平衡的过量PIP会导致形成更厚的分离层从而影响盐离子截留并降低PWP,所以水相中的PIP浓度是决定膜性能的关键。此外,影响PIP扩散的界面张力受表面活性剂用量的影响。因此,PIP和表面活性剂的浓度是决定分离层特性和交联结构的主要因素。
由于分离层的交联程度是由扩散在有机相中的PIP单体和存在于同一相中的TMC分子的相对浓度决定的。所以,TMC浓度对膜性能(PWP和截留率)的影响相对较小,仅仅提高TMC浓度而不提高PIP单体在有机相中的扩散率并不能显著提高膜的性能。但对于高渗透性及高选择性膜而言,在实验所选范围内(图6),TMC浓度对膜的渗透性以及选择性会产生一定影响,即TMC浓度越低,PWP越高,NaCl截留率越低,而对Na2SO4截留率的影响相对较小(小编注:那可以提高分盐效率)。
4.6 表征和验证
该模型预测,在较低浓度的PIP (0.05-0.1 wt%),中等浓度的TMC (0.1 wt%),较低浓度的SLS (1 mM)和较短的反应时间(5-30 s)时,所制备分离膜的纯水透过系数在16 ~ 20 LMH/ bar之间,NaCl和Na2SO4之间的选择性超过4000(小编注:好像原文也没给出数据图,结果这么好,不给数据图总觉得有点不靠谱)。并通过AFM、SEM和XPS对在模型预测条件下分离膜的结构进行表征,发现所制备的分离膜交联高、表面光滑、表面和负电更高、分离层厚度更小(图7、8),这是由优化的反应动力学和单体的扩散以及界面的化学平衡所驱动的。
图7 转移到硅片上的独立聚酰胺纳米膜的原子力显微镜高度图像(a)和相应的高度轮廓(b);转移到氧化铝基板上的独立聚酰胺纳米膜的截面(c)和相应的表面形貌的扫描电镜图像(d)。
图8 转移到镀金硅片上的独立聚酰胺纳米膜的x射线光电子能谱(a)和相应的元素组成(b)。
5.总结与启发
本研究通过构建经典机器学习模型(如随机森林和多层感知器)与传统多元线性回归模型的对比,精准预测了纳滤膜制备的最佳条件。通过实验验证,成功制备出具有优异渗透率和选择性的纳滤膜。研究不仅展示了机器学习在膜技术优化中的潜力,还为高性能膜材料的开发提供了新的策略。
然而,从数据结果来看,虽然机器学习模型的优化结果易于理解,但深入构建复杂模型的过程仍充满挑战。此外,数据获取方面,尽管本文采用了“先前实验数据”集,但其数据量有限,可能成为限制模型泛化能力的关键因素。未来的研究可进一步探索如何扩大数据规模和提高数据质量,以突破模型泛化的瓶颈。
导师点评:利用机器学习确实获得了不错的结果,但是不仅没有给出系统的膜性能数据也没和文献结果对比,是否比通过实验优化获得的结果好呢?是否通过机器学习优化发现了新机制呢?如果没有突破人类思考的边界,那机器学习的意义就没有那么大了。
以上内容为个人阅读文献总结和学术见解,不代表本公众号和原文作者观点,如有错误,欢迎在留言区指出。