LLAMAT模型：新型人工智能模型加速材料发现

学术 2024-12-13 22:33 北京

研究背景：

材料的发现和发展对于应对全球在可再生能源、可持续性和先进技术方面的挑战至关重要。然而，材料科学文献的爆炸式增长，使得从海量文本数据中提取知识、合成材料和进行科学推理变得越来越困难。大型语言模型（LLM）为加速材料研究提供了前所未有的机遇，但要有效地利用它们，需要针对领域进行特定的调整。一个由印度理工学院德里分校和Cerebras Systems的研究人员组成的团队，开发出名为LLAMAT的新型人工智能（AI）模型系列，在材料科学领域取得了重大突破。这些模型通过对大量材料文献和晶体学数据进行预训练，能够更有效地理解材料科学的复杂性，并加速新材料的发现过程。

研究方法：

研究团队开发了LLAMAT，这是一个为材料科学量身定制的基础模型系列。该模型的开发采用了三阶段训练方法：

1. 连续预训练（CPT）：研究人员使用一个包含超过300亿个token的大型材料科学语料库（包括同行评审的出版物、晶体学信息文件和社区讨论）对LLAMA模型进行预训练。为了保留LLM的语言能力，研究人员还策略性地加入了原始LLAMA训练语料库RedPajama的一个子集。

2. 指令微调（IFT）：研究人员对LLAMAT模型进行了指令微调，以提升其在自然语言处理（NLP）和材料结构信息提取（SIE）方面的能力。该模型使用多种数据集进行训练，包括通用英语理解数据集、数学推理数据集和材料科学相关的下游任务数据集。

3. 任务特定微调（PEFT）：研究人员对LLAMAT模型进行了参数高效微调，使其能够进行晶体结构生成。

研究结果：

通过系统的评估，研究人员证明了LLAMAT模型在以下方面表现出色：

材料特定的自然语言处理和结构信息提取： LLAMAT模型在材料科学相关的自然语言处理和结构化信息提取方面表现出卓越的性能，能够有效地从科学文献的文本和表格中提取信息。
前所未有的晶体结构生成能力： LLAMAT模型的专业变体LLAMAT-CIF，能够以高覆盖率预测整个元素周期表中的稳定晶体，展现出前所未有的晶体结构生成能力。
意外的领域特定性能：研究人员观察到，尽管LLAMA-3的整体性能优于LLAMA-2，但LLAMAT-2在多种材料科学任务中的特定领域性能却意外增强。这表明，过度训练的LLM可能存在“适应刚性”，这为模型选择和领域适应训练方法提供了新的思考。
优于闭源模型： LLAMAT在多种材料科学任务中表现出了优于闭源模型（如Claude-3 Haiku和Gemini-1.5 Flash-8B）的性能，进一步证明了其有效性。

研究意义：

这项研究成功地展示了领域适应在开发可实际部署的材料研究LLM副驾驶方面的有效性。研究结果为LLM的领域适应提供了重要的启示：

模型选择：在进行领域适应时，选择合适的模型架构是关键。

训练方法：仔细调整训练方法，包括数据集选择和学习率，对于最大化领域特定性能至关重要。

领域特定性能：领域适应可以显著提升模型的领域特定性能，但需要注意避免过度训练导致的适应刚性。

学术之友

\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括：分享科研资讯，总结学术干货，发布科研招聘等。让我们携起手来共同学习，一起进步！

最新文章

NepTrainKit NEP训练集可视化软件

欢迎加入学术之友社群

《Nature》重磅推荐：突破学术瓶颈的深度好文—诚挚推荐科研人必读一次！

JACS: 数据驱动的多保真机器学习训练—为高精度原子间力场铺平道路

Groupy程序：分子模拟和性能计算开源工具

Adv. Funct. Mater.：具有双重配体增强铁磁性的 2D Janus 铬硫化物中的室温拓扑自旋纹理

最近7篇PRL涉及铁电、磁性、超导等

5代Intel 8581C服务器配置，在售最快配置

史无前例|寒门师妹凭借这篇顶刊一跃成为特级教授！将解决材料研究百年难题

【招聘】中国科学院金属研究所刘培涛、陈星秋团队诚聘博士后2名

Sci. Adv.: 机器学习赋能！兼顾高强度和高延展性的新型铝富集高熵难熔B2合金的成功设计

最近4篇JACS：人工智能赋能化学与材料科学新突破

5代Intel 8581C服务器配置，在售最快配置

LLAMAT模型：新型人工智能模型加速材料发现

字节跳动ByteFF力场：助力扩展化学空间覆盖，加速药物发现

Hugging Face与Entalpic联手推出LeMaterial：加速材料发现的开源新举措

必看：十投九中，退搞率仅10%的SCI的学术水刊，快冲，快收藏～

Chem: 基于人工神经网络的钙钛矿材料预测模型

4代Intel高主频超算低至4分

5代Intel 8581C服务器配置，在售最快配置

天才少年巨作：领先传统计算30年，人工智能在材料科学杀疯了，将改写教科书！

澳门理工大学人工智能药物发现中心招收博士生(2025年入学)

Nat. Commun.: 二维铁电CuInP2S6中Cu(I)多重占据和迁移的原子级直接成像

Nat. Commun.: CrystaLLM晶体结构生成语言模型

纯计算JACS: 高通量搜索基于热力学描述符的光致伸缩材料

纯计算PRL: 通过多轨道链实现强而鲁棒的准一维超导体

通报！半年连续发布10余篇SCI，揭秘后的原因让人震惊！

南开大学李福军教授课题组诚聘博士后

241206科研基金申报机会汇总

纯计算JACS: 新型Al₂B₁₂C半导体材料展现出优异的双极载流子迁移率

4代Intel高主频超算低至4分

微软正式发布MatterSimV1-1M and MatterSimV1-5M模型

DFT大爆炸！不做实验和模拟计算连发3篇国际顶刊！改写教科书！

B站系列优质视频教程推荐2

纯计算Phys. Rev. Lett.: γ-Ga2O3的“无序”本质

Nat. Mach. Intell.:人工智能赋能催化剂吸附构型筛选

第五期VASPKIT团队“VASPKIT+VASP软件培训基础班”调研

破百年难题！青年博士连发3篇Nature顶刊！AI+DFT彻底扭转现有局面！

纯计算Nano Lett.: 揭示三维多轨道平带模型及材料

Nature打破质疑！寒门博士运用“第一性原理计算”解决计算材料学百年难题！颠覆教科书！

纯计算JACS: 最小富勒烯单元构建新型二维网络提升稳定性与光催化性能

JACS: 使用生成式预训练Transformer探索催化剂新可能

Science: 计算催化，SISSO符号回归机器学习应用

4代Intel高主频超算低至4分

极性声子敢与自旋输运共舞

滑移铁性：一种低能激发习惯

HfO2 之铁电奋斗历程

打破质疑！材料研究迎来史上最大进展，连续登顶Nature、Science等各大国际顶刊！

DiffractGPT：利用生成式预训练模型从XRD中解析原子结构

JPCC: 电催化剂数据库BEAST DB

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉