李巨Sci. Data：人工智能与材料科学的深度融合—新数据库的诞生与突破

学术 2024-10-01 22:10 中国台湾

https://doi.org/10.1038/s41597-024-03886-w

代码仓库：

https://github.com/parkyjmit/GPT-Narratives-for-Materials

研究背景：

在全球面对气候危机和能源短缺挑战的背景下，材料科学作为21世纪应对这些问题的重要手段，正迎来一场前所未有的革新。通过开发新材料来满足太阳能电池、储能电池、催化剂等各个领域的需求，科学家们正在努力加速材料的发现与设计。然而，传统的材料设计方法往往依赖直觉、试验和偶然的发现，这样的过程耗时费力，已无法满足当今快速发展的技术需求。

为了应对这一挑战，全球范围内的科研人员已经开始将计算材料科学与人工智能（AI）相结合，通过第一性原理计算和机器学习技术对材料空间进行广泛的探索。与历史上依赖经验的材料发现方式不同，今天的科学家们可以通过大规模数据分析和模型预测来加速材料设计的过程。近年来，生成式AI模型的应用使得逆向设计材料这一前沿领域取得了巨大进展。

本次研究的核心是由麻省理工学院、首尔国立大学及其他多家知名机构的科学家组成的团队开发的一个新的材料数据库。这一数据库汇集了来自多个开放材料数据库的数据，通过使用人工智能生成了1,453,493条基于自然语言描述的材料信息。这一数据集为逆向设计材料提供了新的可能，并通过多模式数据融合的方法，扩展了材料探索的视野。

研究结果：

研究团队首先从OQMD、Materials Project、JARVIS和AFLOW2等数据库中提取了超过145万个材料的数据，这些数据基于第一性原理计算，涵盖了周期表中几乎所有元素的材料。为解决传统AI模型偏向热门材料的问题，团队通过生成式AI技术创建了基于自然语言描述的材料叙事文本。这些文本经过专家评审和GPT-4模型的评分，从技术准确性、语言结构和内容深度三个维度进行了评估，评估结果表明，该生成模型与专家评分的整体结果高度一致，但内容深度仍有待进一步提高。

此外，研究展示了多模态学习在材料研究中的应用潜力。通过将文本、图像、视频等多模态数据整合进来，团队为未来的材料发现开辟了新的研究方向。这一过程不仅有助于材料特性的描述，还能为新材料的潜在应用领域提供预测。团队利用图神经网络模型（GNN）进行了属性预测，并通过优化算法大大提高了模型的预测精度。

技术验证与未来展望：

为了验证所生成数据的准确性，研究团队使用了多种评估指标，其中包括技术准确性、语言和结构的合理性，以及内容的相关性和深度。验证表明，大部分文本都具有较高的语言流畅性和技术准确性。然而，团队发现，由于生成式AI模型主要基于过去的材料数据进行学习，存在某些材料创新不足的问题。为了解决这一问题，研究团队提出了一种更加均衡的文本生成方法，通过结合不同材料数据库的知识，来降低模型对热门材料的偏向性。

研究表明，该数据库的应用前景广阔，不仅可以用于材料的逆向设计，还可以通过语言与晶体多模态学习等方式，进一步挖掘材料的潜在属性与应用。基于这些生成的自然语言文本，研究人员能够更快地识别具有潜力的材料，并加速科学假设的验证过程。

展望未来，研究团队希望通过进一步改进生成模型的内容深度和技术准确性，为材料科学领域带来更多的突破。他们也提到，随着计算成本的下降以及大规模数据的积累，人工智能驱动的第五次材料发现浪潮正悄然到来。通过建立能够从材料空间中学习的人工智能系统，并将其应用于实际科研，未来材料科学的发展将更加迅速且具有创造性。

http://mp.weixin.qq.com/s?__biz=MzI2OTQ4OTExOA==&mid=2247502081&idx=1&sn=7e3a50f8295e426eb99ab5a7504d6c9c

学术之友

\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括：分享科研资讯，总结学术干货，发布科研招聘等。让我们携起手来共同学习，一起进步！

最新文章

香港理工大学/牛津大学 Edman Tsang课题组博士后/博士招聘

Nature新闻：中国申请科研经费变得更加困难

QM9star数据库发布：包含两百万个离子和自由基的量子化学计算平衡结构

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

5代Intel 8581C服务器配置，在售最快配置

骆军委魏苏淮等人Nature: 提出免于退极化效应的光学声子软化新理论

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

5代Intel 8581C服务器配置，在售最快配置

新加坡博士后以及博士机会-导师超级Nice

巩金龙/赵志坚最新NC，可解释机器学习双原子

胡培君最新综述，神经网络势+动态催化

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

5代Intel 8581C服务器配置，在售最快配置

方国勇何晓等人JCTC：基于生成对抗网络和数据驱动潜在空间融合的晶体结构预测

ATOMKIT: 科研软件也可以有颜值

MDPI-software征稿启事：计算化学专栏

JACS最新2篇机器学习文章

5代Intel 8581C服务器配置，在售最快配置

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

段文晖/徐勇两篇NC，等变神经网络泛函

学术之友：免费推广科研成果，助力人才招聘

DFT计算之家QQ群申请加入的说明

北京同步辐射光源贾逊课题组招聘博士后，基本年薪48.5万元（长期有效）

10月份6篇PRL文献精读

5代Intel 8581C服务器配置，在售最快配置

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

机器学习势与BTE结合利器-κALDo：一款多接口的基于玻尔兹曼输运方程的热输运计算器

MolPipeline：一个使用Scikit-learn中的RDKit处理分子的Python包

VASPKIT使用指南出炉：诚邀分享与反馈

宁波东方理工大学(暂名)招聘计算模拟博士后/研究员

2024年度美国物理学会新当选会士揭晓

南开刘锦程课题组招收2025级计算方向博士研究生

(推迟至11月举行)第四期VASPKIT团队“机器学习赋能材料研究”专题培训

（摘要提交10月15日截止）参会专家信息 l 第二十二次全国电化学大会

Code Composer：一个AI项目编码助手(简单复刻Cursor Composer的功能)

Paper Copilot：基于向量索引与大模型的本地文献RAG分析工具

学校奖励8万！靠一篇SCI论文奠定学术圈地位！

J. Am. Chem. Soc.: 基于机器学习的原子堆积效应研究

2024年诺贝尔物理学奖揭晓：人工智能领军人物荣获殊荣

(即将开课)第四期VASPKIT团队“机器学习赋能材料研究”专题培训

AMI: 高通量计算与机器学习实现TMDs/2D钙钛矿异质结的电子性质预测

西密歇根大学Dr. Jinghao Li课题组博士生招生

李巨Sci. Data：人工智能与材料科学的深度融合—新数据库的诞生与突破

5代Intel 8581C服务器配置，在售最快配置

Phys. Rev. B: 声子线宽对三声子和四声子散射的影响

5代Intel 8581C服务器配置，在售最快配置

WIREs Comput Mol Sci.：机器学习推动催化科学迈入数字化时代

(国庆后开课)第四期VASPKIT团队“机器学习赋能材料研究”专题培训

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉