Hugging Face与Entalpic联手推出LeMaterial：加速材料发现的开源新举措

学术 2024-12-13 22:33 北京

2024年12月10日 — Hugging Face 与 Entalpic 今日隆重宣布启动 LeMaterial，一项旨在简化和加速材料研究的开源协作项目。LeMaterial 的目标是让训练机器学习模型、识别新型材料以及探索化学空间变得更加容易。这一举措的首个成果是一个名为 LeMat-Bulk 的数据集，它统一、清理和标准化了包括 Materials Project、Alexandria 和 OQMD 在内的多个重要材料数据集，从而构建了一个包含 670 万个条目和 7 种材料属性的统一数据格式。

背景：材料科学与 AI 的交叉机遇

材料科学正处于量子化学和机器学习的交叉点，蕴藏着巨大的机遇，从更明亮的 LED、到更高效的电池、光伏电池和可回收塑料，应用前景无限。通过利用机器学习 (ML) 处理大型结构化数据集，研究人员可以以前所未有的规模进行高通量筛选和测试，从而显著加快具有所需特性的新型化合物的发现周期。在这个新范式下，数据成为驱动机器学习模型的关键燃料，可以指导实验、降低成本并加速创新突破。

现有的开放数据集如 Materials Project、Alexandria 和 OQMD 为该领域的发展提供了动力。然而，这些数据集在格式、参数和范围上存在差异，导致了数据集集成难题、数据偏差、范围限制以及缺乏明确的材料关联等挑战。LeMaterial 旨在解决这些问题，通过将三个主要数据库的数据统一和标准化，形成高质量且一致的资源。

LeMaterial 的核心优势：

LeMat-Bulk 数据集不仅是一个大型合并数据集，它还具备以下关键优势：数据统一和标准化：统一不同数据库的数据格式，确保数据的一致性和兼容性。数据清洗：识别和删除不符合标准的数据点，提高数据质量。材料指纹：通过哈希函数为每种材料分配唯一标识符，方便查找、去除重复项并关联不同数据集中的材料。开放性和可视化：基于 Crystal Toolkit、Pymatgen 和 Dash 组件等开源工具，方便用户浏览和可视化数据集，如创建相图和材料浏览器。

LeMaterial 的独特贡献：材料指纹

除了构建标准化数据集，LeMaterial 的关键贡献之一是提出了材料指纹的概念，通过哈希函数为每种材料分配一个独特的标识符。这种方法可以快速识别材料是否为新的或已存在，确保数据集不含重复项，并支持更高效的计算。LeMaterial 引入了 EconNN 算法，并结合 Weisfeiler-Lehman 算法来提取材料的图结构并计算哈希值，从而实现快速而准确的材料识别。

应用与影响：

LeMaterial 的设计具备实用性和灵活性，可以广泛应用于以下领域：

探索扩展相图：利用更广泛的数据集构建更精细的相图，从而更深入地分析化学空间。

比较材料属性：通过连接不同 DFT 泛函的数据，为研究人员提供不同参数下材料属性的信息。

确定材料的新颖性：通过哈希函数快速评估材料的独特性，避免重复计算，加速发现过程。

训练预测性 ML 模型：为训练机器学习模型（例如 EquiformerV2）提供高质量的训练数据，并减少成分空间的偏差。

学术之友

\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括：分享科研资讯，总结学术干货，发布科研招聘等。让我们携起手来共同学习，一起进步！

最新文章

NepTrainKit NEP训练集可视化软件

欢迎加入学术之友社群

《Nature》重磅推荐：突破学术瓶颈的深度好文—诚挚推荐科研人必读一次！

JACS: 数据驱动的多保真机器学习训练—为高精度原子间力场铺平道路

Groupy程序：分子模拟和性能计算开源工具

Adv. Funct. Mater.：具有双重配体增强铁磁性的 2D Janus 铬硫化物中的室温拓扑自旋纹理

最近7篇PRL涉及铁电、磁性、超导等

5代Intel 8581C服务器配置，在售最快配置

史无前例|寒门师妹凭借这篇顶刊一跃成为特级教授！将解决材料研究百年难题

【招聘】中国科学院金属研究所刘培涛、陈星秋团队诚聘博士后2名

Sci. Adv.: 机器学习赋能！兼顾高强度和高延展性的新型铝富集高熵难熔B2合金的成功设计

最近4篇JACS：人工智能赋能化学与材料科学新突破

5代Intel 8581C服务器配置，在售最快配置

LLAMAT模型：新型人工智能模型加速材料发现

字节跳动ByteFF力场：助力扩展化学空间覆盖，加速药物发现

Hugging Face与Entalpic联手推出LeMaterial：加速材料发现的开源新举措

必看：十投九中，退搞率仅10%的SCI的学术水刊，快冲，快收藏～

Chem: 基于人工神经网络的钙钛矿材料预测模型

4代Intel高主频超算低至4分

5代Intel 8581C服务器配置，在售最快配置

天才少年巨作：领先传统计算30年，人工智能在材料科学杀疯了，将改写教科书！

澳门理工大学人工智能药物发现中心招收博士生(2025年入学)

Nat. Commun.: 二维铁电CuInP2S6中Cu(I)多重占据和迁移的原子级直接成像

Nat. Commun.: CrystaLLM晶体结构生成语言模型

纯计算JACS: 高通量搜索基于热力学描述符的光致伸缩材料

纯计算PRL: 通过多轨道链实现强而鲁棒的准一维超导体

通报！半年连续发布10余篇SCI，揭秘后的原因让人震惊！

南开大学李福军教授课题组诚聘博士后

241206科研基金申报机会汇总

纯计算JACS: 新型Al₂B₁₂C半导体材料展现出优异的双极载流子迁移率

4代Intel高主频超算低至4分

微软正式发布MatterSimV1-1M and MatterSimV1-5M模型

DFT大爆炸！不做实验和模拟计算连发3篇国际顶刊！改写教科书！

B站系列优质视频教程推荐2

纯计算Phys. Rev. Lett.: γ-Ga2O3的“无序”本质

Nat. Mach. Intell.:人工智能赋能催化剂吸附构型筛选

第五期VASPKIT团队“VASPKIT+VASP软件培训基础班”调研

破百年难题！青年博士连发3篇Nature顶刊！AI+DFT彻底扭转现有局面！

纯计算Nano Lett.: 揭示三维多轨道平带模型及材料

Nature打破质疑！寒门博士运用“第一性原理计算”解决计算材料学百年难题！颠覆教科书！

纯计算JACS: 最小富勒烯单元构建新型二维网络提升稳定性与光催化性能

JACS: 使用生成式预训练Transformer探索催化剂新可能

Science: 计算催化，SISSO符号回归机器学习应用

4代Intel高主频超算低至4分

极性声子敢与自旋输运共舞

滑移铁性：一种低能激发习惯

HfO2 之铁电奋斗历程

打破质疑！材料研究迎来史上最大进展，连续登顶Nature、Science等各大国际顶刊！

DiffractGPT：利用生成式预训练模型从XRD中解析原子结构

JPCC: 电催化剂数据库BEAST DB

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉