通讯作者:Jihan Kim
通讯单位:Korea Advanced Institute of Science and Technology(韩国科学技术院)
内容简介
本文重点是从科学文献中高效收集实验的金属有机框架 (MOF) 数据,以解决获取难以找到的数据的挑战,并提高材料科学机器学习研究可用信息的质量。利用一系列先进的大语言模型 (LLMs),作者开发了一种系统性方法来提取 MOF 数据并将其组织成结构化格式。作者的方法成功地从 40,000 多篇研究文章中汇编了信息,创建了一个全面且随时可用的数据集。具体来说,作者从表格和文本中提取了有关 MOF 合成条件和性能的数据,然后进行了分析。随后,作者利用整理的数据库来分析合成条件、性能和结构之间的关系。通过机器学习,作者发现了模拟数据和实验数据之间存在差距,进一步的分析揭示了导致这种差异的因素。此外,作者利用提取的合成条件数据开发了一个合成条件推荐系统。该系统根据提供的前驱体建议最佳合成条件,为改进合成策略提供了实用工具。这强调了实验数据集对于推进 MOF 研究的重要性。DOI:10.1021/jacs.4c11085
链接:https://doi.org/10.1021/jacs.4c11085