吸附能Adsorption energy是必须准确预测的反应性描述符,从而在催化剂筛选过程中,有效地应用机器学习。这一过程包括在催化表面上的不同吸附构型中,找到最低能量,这些构型通常具有非常相似的能量。
尽管在计算催化剂体系的能量方面,图神经网络取得了巨大的成功,但严重依赖于原子的空间坐标。相比之下,基于Transformer的语言模型,可直接利用人类可读的文本输入,潜在地绕过了详细原子位置或拓扑的需求。然而,这些语言模型,往往难以准确预测吸附构型的能量。今日,美国 卡内基梅隆大学(Carnegie Mellon University)Janghoon Ock,Amir Barati Farimani等,在Nature Machine Intelligence上发文,研究通过一种称为图辅助预训练的自监督过程,整合了潜在空间与成熟图神经网络,从而改进了预测语言模型。这种方法,将吸附构型能量预测的平均绝对误差降低了7.4-9.8%,将模型的注意力转移到吸附构型上。为此,建议使用生成大型语言模型,以创建预测模型的文本输入,而不依赖于精确的原子位置。这一研究表明,在没有详细几何信息的情况下,语言模型在能量预测中的潜在用例。Multimodal language and graph learning of adsorption configuration in catalysis. 图1: 模型训练框架概述。
图2: 模型推理框架。
图3: 有和没有图辅助预训练的相似性得分和局部注意力分析。
图4: 晶体结构生成大模型CrystaLLM框架。
图5: CatBERTa模型输入时,大语言模型large language model,LLM衍生字符串的增强。
Ock, J., Badrinarayanan, S., Magar, R. et al. Multimodal language and graph learning of adsorption configuration in catalysis. Nat Mach Intell (2024). https://doi.org/10.1038/s42256-024-00930-7https://www.nature.com/articles/s42256-024-00930-7声明:仅代表译者观点,如有不科学之处,请在下方留言指正!