北京化工大学刘军/崔丽鸿教授团队-基于生成对抗网络和自动机器学习预测聚合物的玻璃化转变温度

学术   2025-01-08 15:47   上海  

扫描二维码查看期刊主页和文章原文


文章引用:

Liu Z, Huo Y, Chen Q, et al.Predicting the glass transition temperature of polymer based on generative adversarial networks and automated machine learning. MGE Advances.2024; 2(4): e78.

https://doi.org/10.1002/mgea.78


文章摘要

溶液聚合丁苯橡胶(SSBR)在高性能轮胎设计及其他领域具有广泛应用。本研究旨在建立一种定量结构-性能关系(QSPR)模型,将 SSBR 的玻璃化转变温度与其结构性质联系起来。我们汇总了文献中68组数据,用于开发一种针对SSBR结构设计和合成的小样本预测机器学习模型。为解决小样本问题,提出了一种新的机器学习框架:结合生成对抗网络(GAN)和基于树的管道优化工具(TPOT)的框架。利用GAN生成额外样本,这些样本与原始数据集的分布相匹配,从而扩展数据集规模。使用 TPOT 自动化工具来寻找最佳模型及参数组合,从而为混合数据集创建一个最优预测模型。通过 GAN 扩展数据集并结合 TPOT 回归模型,显著提升了模型性能,将R²值从0.745提高至0.985,均方根误差(RMSE)从7.676降低至1.569。GAN-TPOT 框架展示了生成模型与自动化机器学习结合在材料科学研究中的潜力。该方法加速了研发过程,提升了预测与设计的精度,并为该领域引入了新的视角与可能性。


文章简介


随着汽车工业的发展,石油资源的日益短缺及各国对环保要求的不断提高,人们对绿色轮胎的关注度越来越高。溶聚丁苯橡胶(SSBR)因其分子量分布窄、分支端子少,主要应用于高性能轮胎的设计和制备,同时也广泛应用于电缆等其他行业。SSBR是通过苯乙烯和丁二烯在有机锂引发下进行阴离子溶液聚合而成的弹性体。尽管已有研究对SSBR的结构与性能关系进行了定性分析,但并未建立定量模型。SSBR的玻璃化转变温度(Tg)是一个重要的物理参数,反映了橡胶材料从玻璃态到高弹态的转变温度,直接影响材料的使用性能和工艺性能。在实验的同时,计算评估和预测Tg对加速高分子材料的设计和开发越来越重要。
针对小样本问题,通常有两种解决方法:一种是使用适合小样本回归预测的机器学习算法,如支持向量机(SVM);另一种是通过虚拟样本生成(VSG)进行数据扩增,进而提高模型的预测准确性。生成对抗网络(GAN)因其生成所需内容的能力在材料学领域越来越受到关注。采用单一ML模型作为最终预测模型,可能存在预测精度低、泛化能力弱以及超参数优化繁琐等问题。自动机器学习(AutoML)能够自动选择算法和优化超参数,开发高效的机器学习模型。因此,本文提出了一种基于GAN和TPOT结合的新框架来预测SSBR的Tg。首先使用GAN对68个样本的数据集进行数据扩增,然后将生成数据与原始数据混合,利用TPOT开发适用于该混合数据集的最佳机器学习预测模型,从而提高预测精度并减少人工干预。
鉴于目前的数据库中缺乏SSBR汇总数据,我们从各种已发表的论文中收集了尽可能多的SSBR结构性能数据。因此,我们编制了一个包含68个数据点的综合SSBR数据集。研究目的是建立SSBR预测Tg的定量结构-性质关系(QSPR)模型。这种QSPR方法使材料科学领域的研究人员能够更深入地了解分子结构和性质之间的相关性,从而加快了创新材料的发现和设计周期。我们将探究7种变量对Tg的影响,然后设计一个机器学习预测模型,该模型可以有效地利用有限的特征集和一个小的数据集,以促进SSBR的结构设计和合成。


图1. GAN总体框架结构图。


生成对抗网络(GAN)是由生成器和判别器组成的深度学习模型,其结构框架如图1所示。生成器的任务是从随机噪声中生成逼真的数据样本,而判别器的任务是将生成器生成的样本与真实数据样本区分开来。生成器和判别器通过交替优化来逐渐提升性能,最终达到一个动态的均衡状态。最终生成器能够生成逼真的数据样本,而判别器无法准确地区分生成器生成的样本和真实数据样本。确定生成样本的最优数量需要综合考虑多种因素。这包括进行实验和评估,以确定最适合的样本数量,从而在稳定的模型训练、高质量的样本和有效的资源利用之间找到平衡。
随着生成样本数量的增加,所有模型在RMSE、MAE、MAPE和R2方面的性能逐渐提高。在所有测试的样本数量中,TPOT在大多数指标上表现最佳,其次是CBR、XGBR和GBR。这突显了TPOT在自动模型选择和优化方面的能力。SVR和RFR在样本数量较少时表现良好,但随着样本数量的增加,其性能相较于其他模型表现较差。梯度提升回归模型(如CBR、XGBR和GBR)随着样本数量的增加,在捕捉数据中的模式和关系方面变得更加熟练,导致性能提升。


图2. 6种机器学习模型在不同数量混合样本上的评价结果的比较。


值得注意的是,对于生成的1500和2000个样本,评估结果相似,综合考虑时(图2a-2d),1500个样本的性能甚至更优。考虑到计算资源的限制,我们最终选择1500个样本作为研究模型的最适合生成样本数量。在图2e中,我们展示了1568个混合样本的10次评估结果,并以成对图(pairplot)形式描绘。从图中可以清楚地看到10次实验的评估结果。观察结果表明,TPOT的整体评估性能优于其他机器学习模型。
为了验证GAN的性能,我们比较了三种生成模型的性能:VSG-GP、GMM-VSG(AIC)和GMM-VSG(BIC)。使用不同方法生成的数据集进行回归预测的平均性能指标。结果表明,基于GAN的VSG方法表现最佳,展示了最低的RMSE、MAE、MAPE和最高的R2。这突显了基于GAN的数据生成在回归任务中的卓越预测能力,达到了最高的准确性水平。通过 GAN 扩展数据集并结合 TPOT 回归模型,显著提升了模型性能,将R²值从0.745提高至0.985,均方根误差(RMSE)从7.676降低至1.569。本研究中提出的GAN-TPOT框架(图3)初步证明了将生成模型与AutoML技术相结合的潜力。这种集成在加速材料研发过程以及提高预测和设计精度方面显示出了良好的效果,它为材料科学提供了新的见解和可能性。


图3. GAN-TPOT工作流程图。


在未来,我们将从多个方向进行进一步的勘探和扩展。首先,我们将研究更先进的自动超参数调优方法,如贝叶斯优化,以提高生成模型的性能;其次,我们将追求将最先进的AutoML技术与生成模型的深入集成,以推进自动化在材料研究中的应用;最重要的是,将通过实验验证生成的数据的实际价值,特别是在材料性能开发的背景下,努力弥合机器学习和实验研究之间的差距。通过这些努力,预计该框架的可靠性将得到进一步加强,其在加速材料科学创新方面的全部潜力将被释放。



作者介绍

通讯作者

崔丽鸿,教授,北京化工大学数理学院信息与计算科学系主任。主要从事小波分析理论算法及其在复杂数据处理、图像去噪等方面的研究工作,发表相关论文60余篇,近年主要致力于基于大数据驱动的稀疏信号的表示理论、机器学习算法及在材料科学和医学中的应用。


刘军,北京化工大学材料科学与工程学院有机无机复合材料国家重点实验室教授,博士生导师。研究领域为高分子基纳米复合材料基因组计划–高通量计算机模拟、高通量实验与数据库;高导电与高导热高分子纳米复合材料的设计、结构与性能研究;智能高分子纳米复合材料(自修复、形状记忆、自组装)的设计、结构与性能研究;高性能水凝胶与气凝胶高分子复合材料的计算机模拟与实验研究。


第一作者

刘占婕,北京化工大学数理学院硕士研究生。主要研究方向为机器学习和小波方法在高分子材料性能预测中的应用研究。


《材料基因工程前沿(英文)》简介

《材料基因工程前沿(英文)》(Materials Genome Engineering Advances,简称:MGE Advances)作为材料基因工程领域首个高水平综合性学术期刊,其宗旨是面向国家重点战略布局与材料学科国际学术前沿发展的重大需求,聚焦材料基因工程领域,刊载先进材料计算、高通量/自动化/智能化材料实验技术、材料数据库与大数据技术等材料基因工程关键技术的研究进展和前沿成果,以及三者在材料新效应/新原理探索和新材料发现等方面的重要应用,创建一个跨学科多领域交叉融合的国际一流高水平出版平台和学术交流平台,推动新材料研发模式变革。


2022年入选“中国科技期刊卓越行动计划高起点新刊项目”。

2024年入选北京市科委“2024支持高水平国际科技期刊建设-强刊提升”项目。

2024年被世界五大文献检索系统之一的开放获取期刊目录DOAJ收录



《材料基因工程前沿(英文)》以全OA开放获取模式,在国际出版平台Wiley Online library全文数字化上线出版。期刊采用国际先进的单篇优先出版模式,实现了最新学术成果的及时快速优先发表并高效广泛地传播给全球读者,提升了期刊的可见度和传播效率。


2026年之前投稿免APC (Article Publication Charge)


期刊主页


特刊征稿


投稿方向


投稿指南


微信公众号|mgea2023

欢迎关注!

Materials Genome Engineering Advances编辑部

地址: 北京海淀区学院路30号

邮箱: mgeadvances@ustb.edu.cn

电话: (+86) 010-6233 3882

期刊网址:

 https://onlinelibrary.wiley.com/journal/29409497

科研云

线上直播/精品课程


资讯追踪/期刊速递/科研工具

科研云
学术分享
 最新文章