上海药物所团队在“世界科学智能大赛”物质科学赛道:催化反应产率预测中获得冠军

学术   2024-11-26 13:55   中国  

导读

第二届世界科学智能大赛总决赛及颁奖典礼于20241110-11日在上海圆满举办。作为科学智能(AI for Science)领域的全球前沿赛事,本次大赛设立逻辑推理、社会科学、生命科学、物质科学、地球科学等五大赛道,并配有百万奖金池,吸引了来自全球24个国家和地区的1085个机构的12687人报名参赛,旨在构建科学智能生态,激发科学智能发展新动能。

第二届世界科学智能大赛颁奖典礼

复旦大学党委书记裘新中国科学院院士、北京科学智能研究院理事长、北京大学国际机器学习研究中心主任鄂维南上台,为五大赛道的总决赛冠军团队颁发一等奖奖杯与获奖证书。

物质科学赛道一等奖

来自中国科学院上海药物研究所的博士研究生张玮从2603支队中脱颖而出,获得物质科学赛道冠军(第一名),团队指导老师是来自于中国科学院上海药物研究所的郑明月研究员。

来自中国科学院上海药物研究所博士研究生张玮作为一等奖获奖选手代表发言:“感谢主办方举办世界科学智能大赛,AI for Science的赛题很有意思也很有意义。在比赛过程中,我们不断学习并尝试不同的方法,有的方法性能一般,也有的性能较好。正如有位统计学家说过‘所有的模型都是错的,但有的是有用的’,希望在这类AI4S比赛的推动下,能诞生越来越多有用的模型。也很期待明年的赛题,届时会鼓励师弟师妹积极参加,感受一下产学研问题和科研课题的区别。”

物质科学赛道赛题和方案简介

科研人员和产业界致力于开发新的催化合成方法,普遍追求的目标是以高产率获取目标产物,即开发高活性的催化反应体系,以提高原子经济性,减少资源浪费和环境污染。然而,高活性催化反应体系的开发通常需要对催化剂和溶剂等多种反应条件进行详尽探索,这使得其成为一项时间和资源消耗极大的任务。目前,反应条件的筛选大多依赖于经验判断和偶然发现,使得催化反应条件的优化过程既费时又费力,这严重限制了新的高效催化合成策略的发展。

通过利用历史催化反应数据,并结合AI技术,可以预测新催化反应的产率,从而有效地帮助科研人员和产业界加快高活性反应条件的筛选速度,减少资源与人力的消耗,促进新物质的创造与合成。

上海药物所zw团队分别尝试了主流的深度学习模型和机器学习模型来对反应产率预测问题进行建模,发现使用语言模型和图神经网络来编码反应在该任务上的表现远远不如Baseline的机器学习模型,便将重心转移到机器学习模型上。经过多轮特征筛选,使用Optuna搜参LightGBM模型调优,得到了性能较强的预测模型。再通过清洗和整合开源反应数据集,并结合检索增强预测策略,进一步大幅提高预测性能。

大赛物质科学赛道评委、复旦大学人工智能创新与产业研究院研究员徐盈辉对张玮选手的方案印象深刻:“由于催化反应数据通常伴随着较大的噪声和关键反应条件信息的缺失,这增加了赛题的难度。尽管如此,选手们通过创新的方法应对这些挑战,比如物质科学赛道第一名队伍zw在催化反应产率预测任务中,创新地使用了检索增强预测,通过评估当前检索的反应与目前训练集中数据的相似性,来判定使用模型预测值或者数据检索值作为最终的预测结果,从而在这个竞赛中取得了优异的成绩。”

未来展望

数据来源杂、质量不齐导致很难诞生通用产率预测模型,针对某类反应收集高通量实验数据并集合计算迭代调优往往会具有更好的预测能力然而,“开卷有益”以史为鉴”,我们是否能够通过文本挖掘或多模态挖掘和建立更大、更全、更规范化的反应数据集供于检索和训练,打破商业公司对反应数据的垄断,AI在化学领域也能够有足够的数据来实现“scaling law”,无疑是未来值得深究的。让智能化学反应,应时而兴,因时而进。

致谢:感谢赛事举办方上海科学智能研究院、复旦大学、阿里云天池等赛方组织的科学智能大赛,感谢中国银行上海分行的鼎力支持。

来源:人工智能药物设计

化学加
业界明星号,投稿 gongjian@huaxuejia.cn;合成化学产业资源聚合服务平台,SixMol 仪器设备供应商;央视两次报道,化学加APP已编入大学教科书。
 最新文章