导读
复旦大学党委书记裘新和中国科学院院士、北京科学智能研究院理事长、北京大学国际机器学习研究中心主任鄂维南上台,为五大赛道的总决赛冠军团队颁发一等奖奖杯与获奖证书。
来自中国科学院上海药物研究所的博士研究生张玮从2603支队伍中脱颖而出,获得物质科学赛道冠军(第一名),团队指导老师是来自于中国科学院上海药物研究所的郑明月研究员。
来自中国科学院上海药物研究所的博士研究生张玮作为一等奖获奖选手代表发言:“感谢主办方举办世界科学智能大赛,AI for Science的赛题很有意思也很有意义。在比赛过程中,我们不断学习并尝试不同的方法,有的方法性能一般,也有的性能较好。正如有位统计学家说过‘所有的模型都是错的,但有的是有用的’,希望在这类AI4S比赛的推动下,能诞生越来越多有用的模型。也很期待明年的赛题,届时会鼓励师弟师妹积极参加,感受一下产学研问题和科研课题的区别。”
科研人员和产业界致力于开发新的催化合成方法,普遍追求的目标是以高产率获取目标产物,即开发高活性的催化反应体系,以提高原子经济性,减少资源浪费和环境污染。然而,高活性催化反应体系的开发通常需要对催化剂和溶剂等多种反应条件进行详尽探索,这使得其成为一项时间和资源消耗极大的任务。目前,反应条件的筛选大多依赖于经验判断和偶然发现,使得催化反应条件的优化过程既费时又费力,这严重限制了新的高效催化合成策略的发展。
通过利用历史催化反应数据,并结合AI技术,可以预测新催化反应的产率,从而有效地帮助科研人员和产业界加快高活性反应条件的筛选速度,减少资源与人力的消耗,促进新物质的创造与合成。
上海药物所zw团队分别尝试了主流的深度学习模型和机器学习模型来对反应产率预测问题进行建模,发现使用语言模型和图神经网络来编码反应在该任务上的表现远远不如Baseline的机器学习模型,便将重心转移到机器学习模型上。经过多轮特征筛选,使用Optuna搜参对LightGBM模型调优,得到了性能较强的预测模型。再通过清洗和整合开源反应数据集,并结合检索增强预测策略,进一步大幅提高预测性能。
大赛物质科学赛道评委、复旦大学人工智能创新与产业研究院研究员徐盈辉对张玮选手的方案印象深刻:“由于催化反应数据通常伴随着较大的噪声和关键反应条件信息的缺失,这增加了赛题的难度。尽管如此,选手们通过创新的方法应对这些挑战,比如物质科学赛道第一名队伍zw在催化反应产率预测任务中,创新地使用了检索增强预测,通过评估当前检索的反应与目前训练集中数据的相似性,来判定使用模型预测值或者数据检索值作为最终的预测结果,从而在这个竞赛中取得了优异的成绩。”
数据来源杂、质量不齐会导致很难诞生通用的产率预测模型,针对某类反应收集高通量实验数据并集合计算迭代调优往往会具有更好的预测能力。然而,“开卷有益”,“以史为鉴”,我们是否能够通过文本挖掘或多模态挖掘和建立更大、更全、更规范化的反应数据集供于检索和训练,打破商业公司对反应数据的垄断,让AI在化学领域也能够有足够的数据来实现“scaling law”,无疑是未来值得深究的。让智能化学反应,应时而兴,因时而进。
致谢:感谢赛事举办方上海科学智能研究院、复旦大学、阿里云天池等赛方组织的科学智能大赛,感谢中国银行上海分行的鼎力支持。