1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

学术 2024-10-22 11:51 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | KX

材料科学家发现新材料通常需要耗费很长时间。他们需要进行大量的数字运算、属性研究并运行大量的模拟。

与其他计算方法或反复试验相比，AI 可以更有效地探索化学空间，加速材料的发现和设计。但出现的一个障碍是缺乏公开数据和开放的预训练模型。

近日，Meta 公司推出一个名为「Open Materials 2024」（OMat24）的大型开放数据集和配套的预训练模型，旨在彻底改变 AI 驱动的材料发现。整个系统都是开源的，解决了材料发现中最令人头疼的问题之一：没有足够优质、可访问的数据。

OMat24 包含超 1.1 亿个结构密度泛函理论 (DFT) 计算，重点关注结构和成分多样性，成为该领域最大的公开数据集之一。

研究人员还展示了 EquiformerV2 模型，这是一种在 OMat24 数据集上训练的最先进的图神经网络 (GNN)，在 Matbench Discovery 排行榜上实现了最先进的性能，能够预测基态稳定性和形成能，F1得分高于 0.9，精度达 20 meV/atom。

剑桥大学分子建模教授 Gábor Csányi 表示（没有参与该研究），「Meta 决定公开其数据集比 AI 模型本身更重要。这与谷歌和微软等形成了鲜明对比，他们最近也发布了看似具有竞争力的模型，但这些模型是保密的数据集上进行训练的。」

OMat24 数据集和模型可在 Hugging Face 上下载、修改和使用。

相关研究以「Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models」为题，发布在预印平台 arXiv 上。

论文链接：https://arxiv.org/abs/2410.12771

Hugging Face 开源地址：https://huggingface.co/datasets/fairchem/OMAT24

新材料的发现对于众多应用都至关重要。从应对气候变化到下一代计算硬件的进步。可能材料的搜索空间非常巨大，现有的计算和实验方法在有效探索广阔的化学空间方面存在很大局限。

虽然 AI 已成为材料发现的强大工具，但缺乏公开数据和开放的预训练模型。密度泛函理论 (DFT) 计算对于研究材料的稳定性和性质至关重要，但计算成本高昂，限制了其在探索大型材料搜索空间中的实用性。

Meta FAIR 研究人员推出的 Open Materials 2024 (OMat24) 数据集和模型，旨在进一步推动 AI 和材料科学的快速发展。

OMat24 数据集

OMat24 数据集由 DFT 单点计算、结构弛豫和多种无机块体材料的分子动力学组合而成。总共计算了约 1.18 亿个标有总能量、力和晶胞（cell）应力的结构。每个结构的原子数范围为 1 到 100 个原子，大多数结构有 20 个或更少的原子。

这些结构是使用玻尔兹曼采样、从头算分子动力学 (AIMD) 和扰动结构的弛豫（relaxation of rattled structures）等技术生成的。该数据集强调非平衡结构，确保在 OMat24 上训练的模型非常适合动力学和远离平衡的特性。

OMat24 包括物理上重要的非平衡结构，具有广泛的能量、力和应力分布，以及显著的成分多样性。

OMat24 数据集建立在其他公共数据集之上，例如 MPtrj、Materials Project 和 Alexandria，其中包含平衡或近平衡构型。

图示：OMat24 数据集生成、应用领域和采样策略概述。（来源：论文）

OMat24 的元素分布基本覆盖了元素周期表。该数据集涵盖了与无机材料发现相关的大多数元素。由于氧化物在大多数开放数据集中都较为丰富，因此与其他元素相比，氧化物的代表性略高。

图示：OMat24 数据集中元素的分布。（来源：论文）

OMat24 模型和训练策略

研究人员探索了模型大小、辅助降噪目标和微调对一系列数据集（包括 OMat24、MPtraj 和 Alexandria）性能的影响。

研究人员利用 OMat24 数据集以及 MPtrj 和 Alexandria 数据集来训练 GNN。由于 Alexandria 数据集和用于测试的 WBM 数据集中存在类似的结构，研究人员对 Alexandria 数据集进行了子采样以进行训练，以确保训练数据集和测试数据集之间没有泄漏。通过删除所有与 WBM 初始结构和弛豫结构中的结构相匹配的结构，创建了 Alexandria 的新子集 (sAlexandria)。

接下来，通过删除所有能量 > 0 eV、力范数 > 50 eV/Å 和应力 > 80 GPa 的结构来缩小数据集的大小。

最后，只对剩余轨迹中能量差大于 10 meV/atom 的结构进行采样。用于训练和验证的结果数据集分别有 1000 万和 50 万个结构。

对于模型架构，研究人员仅关注 EquiformerV2，它是目前在 OC20 、OC22 和 ODAC23 排行榜上表现最好的模型。对于模型训练，研究人员探索了三种策略：

EquiformerV2 模型仅在 OMat24 数据集上训练，带有和不带有去噪增强目标。这些模型具有最强的物理意义，因为它们仅适合包含与旧版 Materials Project 设置相关的底层伪势重要更新的数据集。
EquiformerV2 模型仅在 MPtrj 数据集上训练，带有和不带有去噪增强目标，可用于直接与 Matbench Discovery 排行榜进行比较（表示为「兼容」模型）。
来自 (1) 或 OC20 检查点的 EquiformerV2 模型在 MPtrj 或 sAlexandria 数据集上进一步微调，从而成为 Matbench Discovery 排行榜上表现最好的模型（表示为「不兼容」）。

在每种情况下，都选择了几种模型大小。表 2 列出了训练模型的参数总数。

总之，在 MPtrj 上从头训练的 EquiformerV2 模型是 MatBench Discovery 上「兼容」模型中最先进的，MAE 高达 35 meV/atom。

在 Matbench Discovery 基准上进行评估时，使用 OMat24 训练的 EquiformerV2 模型的 F1 得分为 0.916，平均绝对误差 (MAE) 为 20 meV/atom，为预测材料稳定性设定了新的基准。

与同类别的其他模型相比，这些结果明显更好，凸显了在 OMat24 等大型多样化数据集上进行预训练的优势。此外，仅在 MPtraj 数据集（相对较小的数据集）上训练的模型也表现良好，这要归功于有效的数据增强策略，例如非平衡结构去噪 (DeNS)。结果表明，OMat24 预训练模型在准确性方面优于传统模型，尤其是对于非平衡构型。

OMat24 数据集和相应模型的推出，代表了 AI 辅助材料科学的重大飞跃。这些模型能够以高精度预测关键属性（例如形成能），因此对于加速材料发现非常有用。重要的是，此开源版本允许研究界在现有基础上继续发展，进一步增强 AI 在新材料发现中的作用。

参考内容：https://www.marktechpost.com/2024/10/20/meta-ai-releases-metas-open-materials-2024-omat24-inorganic-materials-dataset-and-models/

https://www.technologyreview.com/2024/10/18/1105880/the-race-to-find-new-materials-with-ai-needs-more-data-meta-is-giving-massive-amounts-away-for-free/

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503382&idx=1&sn=1faa05524e579d31ce08b37ca236f867

ScienceAI

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

上交大、复旦中山团队开发糖尿病专用大语言模型，助力个性化糖尿病管理

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

借助谷歌AI工具，科学家揭示「生物蛋白如何应对恶劣条件」

全球首个真实场景城市内涝监测大模型

首个多模态地理科学大模型「坤元」

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉