近年来,人工智能(AI)在科学研究中的应用迅速崛起,成为推动科学进步的重要力量。AI技术,尤其是大语言模型(如ChatGPT)的发布,引发了全球范围内的广泛关注。AI不仅能够进行复杂的对话和生成创意文本,还能在科学研究中发挥重要作用,加速人类对未知领域的探索。
在材料科学领域,数据是AI应用的核心资源。高质量的材料科学数据对于构建可靠的AI模型至关重要。AI可以通过分析大量数据,发现材料特性之间的潜在关联,从而推动新材料的发现和开发。然而当前材料科学数据生态系统的规模较小、分散且缺乏标准化,难以满足AI研究对大规模、高质量数据的需求。因此,建立一个AI就绪的材料科学数据生态系统显得尤为重要。
9 月 27 日自然期刊发表的论文《Unleashing the power of AI in science-key considerations for materials data preparation》探讨了在材料科学研究中释放AI潜力的关键考虑因素。论文的主要研究问题包括如何确保材料数据的持续供应、如何提高数据的质量和可用性,以及如何构建一个支持AI应用的数据生态系统。通过系统地分析材料数据的生成、收集、存储、访问和共享过程,论文提出了一系列改进措施,旨在为材料科学研究提供一个可靠的数据基础。
研究团队由来自上海交通大学材料基因组计划中心及材料科学与工程学院的Yongchao Lu、Hong Wang、Lanting Zhang和Ning Yu,上海大学材料基因组研究院的Siqi Shi,以及中国钢研科技集团材料数字研发中心的Hang Su组成。该团队汇集了材料基因组学、材料科学与工程以及材料数字化研发等多个领域的专家,共同致力于推动AI在材料科学研究中的应用。
论文发表在《自然》Scientific Data子刊上,具有重要的学术意义和应用价值。Scientific Data是一个专注于数据描述和共享的开放获取期刊,旨在促进科学数据的发现、访问和再利用。该论文的发表不仅展示了研究团队在材料科学数据准备方面的前沿研究成果,也为其他研究人员提供了宝贵的参考,推动了AI在科学研究中的广泛应用。
AI在材料科学中的应用潜力
人工智能在材料科学中的应用潜力巨大,尤其是通过一些成功案例和自主实验平台的引入,展示了其在加速科学研究和发现新材料方面的强大能力。
首先,ChatGPT和AlphaFold的成功案例为AI在科学研究中的应用树立了标杆。ChatGPT作为一个基于大型语言模型的系统,能够进行有意义的对话、生成创意文本,并协助完成各种复杂任务。它的发布引发了全球对AI的关注,展示了AI在支持和推动人类社会进步方面的巨大潜力。AlphaFold是另一个典型的成功案例,由DeepMind开发,通过深度学习和多序列比对中的进化信息预测蛋白质的三维结构。AlphaFold使用transformer架构的注意力机制理解氨基酸之间的空间关系,经过对约10万个已知蛋白质序列和结构的数据集训练,能够以与实验方法相媲美的准确度预测未知蛋白质的结构。这一突破显著缩短了结构确定所需的时间,从传统的几个月甚至几年缩短到几分钟到几小时,展示了大规模科学数据在AI技术支持下带来的颠覆性加速机会。
在材料科学研究中,AI的典型应用包括通过数据直接建立研究对象特征之间的关联,而不依赖先验知识。这为在缺乏可用知识模型的情况下进行科学研究提供了新的视角。例如,AI可以通过分析材料的成分、工艺、结构和性能数据,发现材料特性之间的潜在关联,从而推动新材料的发现和开发。AI还可以用于优化材料的制造过程,提高材料的性能和质量。
自主实验平台在材料科学研究中也发挥了重要作用。这些平台结合机器人技术、数据库和AI技术,实现了科学数据的生成、管理、挖掘和验证。例如,A-Lab是一个用于无机粉末固态合成的自主实验室,利用计算、文献中的历史数据、机器学习和主动学习来规划和解释使用机器人进行的实验结果。在连续运行的17天内,A-Lab从58个目标中实现了41种新化合物的合成,包括各种氧化物和磷酸盐,展示了AI在材料探索中的颠覆性加速能力。尽管这些成功合成的化合物的新颖性在固态化学的视角下仍有争议,A-Lab继续展示了在材料探索中的颠覆性加速能力。进一步的努力将集中在提高实验结果的可靠性(如全面和详细的表征)和在整个研究过程中(从合成到表征再到分析)促进自主性,从而逐步增强这一新型研究设施的可靠性和效率,充分利用数据驱动方法的优势。
材料科学数据生态系统的现状与挑战
在材料科学研究中,数据的需求变得越来越紧迫。随着人工智能技术的迅猛发展,科学研究对高质量、大规模数据的依赖程度不断增加。AI技术在材料科学中的应用需要大量的领域特定数据,以确保模型的准确性和可靠性。然而当前的材料科学数据生态系统在满足这些需求方面存在诸多挑战。
数据需求的紧迫性不容忽视,AI技术的应用依赖于大量高质量的数据,这些数据不仅需要涵盖材料的成分、结构、性能等方面,还需要包括实验条件、过程参数等详细信息。只有这样,AI模型才能准确地捕捉材料特性之间的复杂关系,推动新材料的发现和优化。但是现有的数据生态系统难以提供持续、充足的数据供应,导致AI在材料科学研究中的应用受到限制。
现有数据生态系统的局限性主要体现在数据的分散性和非标准化上。材料科学数据通常由不同的研究团队在不同的实验条件下生成,数据格式和存储方式各异,缺乏统一的标准。这种分散和非标准化的现状使得数据的整合和共享变得困难,研究人员难以获取和利用其他团队的数据,限制了数据的再利用和价值的最大化。此外,数据的质量参差不齐,缺乏系统的质量控制和验证机制,进一步影响了AI模型的训练效果和可靠性。
数据标准化和共享的障碍也是当前材料科学数据生态系统面临的重大挑战之一。尽管一些材料科学数据库和数据共享平台已经建立,如Materials Project、AFlow、OQMD等,但这些平台的数据覆盖范围有限,难以满足所有研究需求。数据的生成、整理和使用通常由具有专业知识的人员完成,这导致了领域数据的稀缺性和获取难度。传统的“作坊式”研究模式和以科研论文为中心的发表模式,使得大部分材料数据仍处于分散和个体化的状态,研究人员在查询、获取、整合和再利用这些数据时面临诸多障碍。
为了克服这些挑战,建立一个AI就绪的材料科学数据生态系统显得尤为重要。这需要各利益相关者的共同努力,包括研究人员、资助机构、出版机构、研究设备供应商、数据管理平台和标准化组织等。通过制定统一的数据标准,推动数据的规范化和标准化,促进数据的共享和再利用,可以为AI在材料科学研究中的应用提供坚实的数据基础,从而加速科学研究的进展,推动新材料的发现和开发。
构建AI就绪的材料科学数据生态系统
在构建AI就绪的材料科学数据生态系统中,数据的生成、收集、存储、检索和共享是关键环节。每个环节都需要精心设计和管理,以确保数据的高质量和可用性,从而支持AI在材料科学研究中的应用。
图1:人工智能就绪的科学数据生态系统的整体视图。
数据生成和质量控制是构建AI就绪数据生态系统的基础。科学数据的准确性对于研究的可靠性至关重要。在传统研究范式中,科学家基于已知或经验物理模型提出假设,然后使用实验或计算工具生成数据,分析和解释数据,并进一步完善现有知识模型。然而,AI驱动的科学研究不同,它可以利用高维分析的优势,从科学数据的内在关联中构建新的知识模型,从而加速研究进程。因此,确保数据生成的准确性和质量控制是至关重要的。每一条科学数据都应在严格的科学条件下生成,反映材料的内在特性,并作为AI模型拟合真实物理世界的宝贵单元。
数据收集和维护的完整性是确保数据长期可用和可重复使用的关键。AI对大数据集的需求和科学数据的稀缺性使得使用多源数据变得紧迫。研究人员应全面捕捉研究数据的背景、条件和结果,确保数据的完整性和自解释性,使数据能够在不同研究者之间自由流动和正确使用。然而,前线材料研究人员通常只收集他们感兴趣的数据片段,缺乏对生成数据的上下文和条件的记录。这种做法限制了数据的理解和再利用。因此,改进数据收集描述,确保数据的完整性,是实现AI驱动研究的必要步骤。
数据存储和表示的一致性对于数据的整合和AI模型的训练至关重要。尽管AI可以处理结构化、非结构化和半结构化数据,但在具体模型构建中,数据必须符合特定格式和组织方案,以便AI准确高效地比较和识别数据之间的关系和模式。当前材料领域的数据标准化仍处于初级阶段,材料研究涉及多种实验和计算过程,数据类型和格式多样,难以统一标准。采用模块化方法逐步标准化特定材料研究方面的数据,并与利益相关者合作,形成领域特定的数据标准化社区,是解决这一问题的有效途径。
数据检索和索引的可查找性是构建大型数据集的基础。FAIR原则明确了数据可查找性的最低要求,包括分配持久唯一标识符、描述数据的准确属性,并在可搜索资源中注册数据。尽管材料研究社区已经建立了许多数据共享平台,如NOMAD和MDF,但研究人员仍面临不知道在哪里和如何搜索感兴趣数据的问题。将数据平台与研究社区的运作模式相结合,类似于学术会议和期刊的功能,可以促进数据的发现和交流,支持AI驱动的研究。
数据访问和共享的可及性是实现大规模数据共享的关键。根据FAIR原则,数据应通过标准化的通信协议可检索,允许必要的身份验证和授权。数据所有者的共享意愿是解决数据可及性的关键。知识产权保护、缺乏激励、基础设施支持不足、数据滥用的担忧和文化障碍是影响研究人员共享数据的主要因素。通过建立学术认可机制、建设数据共享平台、实施质量控制措施和建立数据共享社区,可以促进数据的开放和共享,推动AI在材料科学研究中的应用。
数据集的准备要求
在材料科学研究中,构建高质量的数据集是确保人工智能(AI)模型可靠性和有效性的关键。数据集的准备需要考虑多个方面,包括数据量、数据特征、数据样本的多样性、样本分布的一致性以及数据标注的专业性。
数据量的充足性至关重要,AI技术结合了统计原理,需要足够的数据样本来反映数据特征之间的潜在关联关系。虽然一些AI模型可以通过调整超参数来控制模型的准确性,但充足的数据量可以显著提高模型的泛化能力和鲁棒性。具体需要的数据量取决于模型类型、特征集、任务复杂性和数据质量等因素。例如,低参数模型如逻辑回归需要的数据相对较少,而高参数模型如深度神经网络则需要更多数据来支持高维分析。在实际操作中,研究人员需要综合考虑这些因素,确保样本量能够充分覆盖不同类型和特征,同时也要考虑数据获取的成本,确定最佳的数据规模。
数据特征的全面性是构建可靠AI模型的基础,数据集中的特征是研究对象的经验观察视角,特征越全面,AI模型对数据的分析就越接近人类的理解。对于材料科学研究,数据通常围绕材料的成分、工艺、结构和性能等方面展开。例如,钢材料的数据特征可能包括元素含量、热加工工艺、显微结构、拉伸强度、屈服强度和延伸率等。收集尽可能多的这些专家知识特征,有助于AI模型从材料数据中建立可靠的特征关系。特别是对于深度学习模型,如卷积神经网络(CNNs)、循环神经网络(RNNs)和基于transformer的模型,它们能够适应复杂的高维数据,自动提取、组合和关联高级特征,充分利用丰富的数据特征。
数据样本的多样性也是确保AI模型泛化能力的重要因素。数据集应包含尽可能多的真实世界条件下的样本案例。当样本类型较少时,AI模型容易过拟合,难以在现实环境中表现出良好的泛化能力。当前的科学研究通常在特定研究目的下进行,往往只收集符合研究目的的正面数据,而不捕捉非正面数据,导致积累的科学研究数据有限。多样化的数据样本可以提供研究科学现象渐变的机会,也能揭示未探索样本中隐藏的有价值规律。
样本分布的一致性对于避免模型训练结果的偏差至关重要。在数据样本收集中,无论是有意还是无意,不同类别数据样本数量的差异都会导致模型训练结果的倾向性,可能引起AI的偏差。为了确保样本的均匀性,建议尽可能多地收集每个类别的数据,特别是少数类别的数据。在数据有限的情况下,可以使用主动学习和数据增强等技术,增加少数类别的数据量,平衡不同类别的影响。
数据标注的专业性是确保模型可靠性的关键。监督学习特别依赖于数据标注,尤其是处理非结构化数据时。材料科学研究中的文本和图像数据需要专业知识进行标注,以确保模型的专业性和可靠性。但是数据标注是一个耗时且繁琐的过程。在小数据集的情况下,研究人员可以自行标注数据,以确保数据质量可控。但在大数据集的情况下,标注工作量可能超出个人能力范围。此时,可以利用卷积神经网络(CNNs)、U-Net和Mask R-CNN等工具进行自动或半自动分割和分类,提高标注效率和规模。此外,专业的标注服务可以提供自动化或外包标注,但需要研究人员清晰传达专业知识并实施质量控制措施,确保标注数据的专业性和模型的可靠性。
构建高质量的AI数据集需要在数据量、数据特征、数据样本的多样性、样本分布的一致性和数据标注的专业性等方面进行全面考虑和优化。通过系统性地准备和管理数据集,可以为AI在材料科学研究中的应用提供坚实的基础,推动科学研究的进展和新材料的发现。
促进数据平台与研究社区的整合
在推动人工智能(AI)在材料科学研究中的应用过程中,数据平台与研究社区的整合至关重要。通过建立科学数据社区、创建数据出版期刊、整合基本功能、组织数据出版论坛以及建立可持续商业模式,可以有效促进数据的发现、共享和利用,推动科学研究的进展。
建立科学数据社区是整合数据平台与研究社区的基础,基于现有的专题论坛或研究协会(如半导体材料、纳米材料、生物材料等),在各个领域内建立科学数据社区。这些社区可以讨论数据分类、制定数据标准,并推动数据的规范化和标准化。通过形成领域特定的数据标准化社区,研究人员可以更方便地共享和利用数据,促进数据的再利用和价值的最大化。
创建数据出版期刊是推动数据共享和利用的另一重要举措。可以在现有专题期刊的支持下,建立新的数据出版期刊,并开发相应的数据出版平台。这些期刊和平台可以发布未公开的特定材料数据,按照领域共识标准存储,提供一个公开的数据共享和发布渠道。通过数据出版期刊,研究人员可以获得学术认可,激励他们分享高质量的数据。
整合基本功能是确保数据平台有效运作的关键。专题数据平台应包括数据识别、注册、上传、查询和下载等基本功能,为研究人员提供一个公共的数字社区进行数据管理和交流。这些功能的整合可以提高数据的可访问性和可用性,促进数据的发现和利用。
组织数据出版论坛可以进一步推动数据共享和利用。在定期学术论坛中同时组织数据出版分论坛,报告新的科学数据集,扩展对领域特定数据的理解,并涵盖基于已发布数据集的AI应用,吸引广泛的研究人员参与。这些论坛不仅可以促进数据的交流和共享,还可以为研究人员提供一个展示和讨论数据的平台,推动科学研究的进展。
建立可持续商业模式是确保数据平台长期运作的保障。可以通过利用数据平台提供的高标准数据探索和AI应用支持,建立可持续的商业模式,确保平台的长期维护和运营。通过与研究机构、企业和资助机构的合作,数据平台可以获得必要的资金支持,推动数据共享和利用的可持续发展。
数据共享的挑战与解决方案
在推动人工智能(AI)在材料科学研究中的应用过程中,数据共享面临诸多挑战。这些挑战包括知识产权保护、激励机制的缺乏、基础设施支持不足、数据滥用的担忧以及文化障碍。针对这些挑战,提出相应的解决方案对于构建一个高效的数据共享生态系统至关重要。
知识产权保护是研究人员在共享数据时最为关心的问题之一。研究人员担心共享数据可能会使他人抢先发表相关研究成果,从而削弱数据的商业价值和专利潜力,影响自身的竞争地位。为了解决这一问题,可以通过建立数据所有权和引用机制来保护研究人员的知识产权。出版机构应认可数据的学术价值,与传统论文相当,通过标识符和引用建立数据所有权,并提供影响因子和引用指标等学术影响力激励。此外,研究人员可以获得与其共享数据量成比例的数据使用积分,激励他们进一步发布和共享数据。
激励机制的缺乏也是阻碍数据共享的重要因素。当前科学界对数据共享的奖励机制较为薄弱,缺乏相关的激励措施。为了解决这一问题,学术机构应建立数据共享平台,集成数据存储、识别和受控访问,为研究人员提供用户友好的数据共享基础设施。同时,资助机构可以要求其支持的研究项目在定义的时间范围和范围内共享数据,促进数据开放文化。
基础设施支持不足使得研究人员难以建立开放数据访问平台,缺乏支持数据共享的用户友好基础设施。为了解决这一问题,学术机构应建设数据共享平台,集成数据存储、识别和受控访问,为研究人员提供用户友好的数据共享基础设施。这些平台应具备数据识别、注册、上传、查询和下载等基本功能,为研究人员提供一个公共的数字社区进行数据管理和交流。
数据滥用的担忧也是研究人员不愿共享数据的原因之一。研究人员担心他们的数据可能会被误用,损害其学术声誉。为了解决这一问题,可以通过分享由客观设备生成的防篡改原始数据,保持数据的客观性,减少误解风险,保护数据提供者的声誉。此外,实施质量控制措施,如多次标注、定期样本检查等,可以确保标注数据的专业性和模型的可靠性。
文化障碍也是阻碍数据共享的重要因素。数据共享的文化尚未建立,研究人员可能由于习惯性做法而不愿共享数据。为了解决这一问题,可以通过建立数据共享社区,借鉴人类基因组计划的模式,分类和分配特定材料系统的任务,在社区内部共享和利用数据。通过这种方式,可以加速材料研究,促进数据的开放和共享。
结论
人工智能(AI)在科学研究中展示了颠覆性的优势。通过分析和处理大量数据,AI能够发现人类难以察觉的复杂关系和模式,从而加速科学发现和创新。AI技术,尤其是大语言模型和深度学习算法,已经在多个领域取得了显著成果,如ChatGPT在自然语言处理中的突破和AlphaFold在蛋白质结构预测中的成功。这些案例展示了AI在科学研究中的巨大潜力,推动了科学界对AI技术的广泛关注和应用。
然而,要充分释放AI在材料科学研究中的潜力,构建一个AI就绪的数据生态系统是必不可少的。当前的材料科学数据生态系统存在规模小、分散和非标准化的问题,难以满足AI研究对大规模、高质量数据的需求。为了克服这些挑战,需要在数据生成、收集、存储、检索和共享等各个环节进行系统性改进。通过建立统一的数据标准,推动数据的规范化和标准化,促进数据的共享和再利用,可以为AI在材料科学研究中的应用提供坚实的数据基础。
构建AI就绪的数据生态系统需要各利益相关者的协作努力。研究人员、资助机构、出版机构、研究设备供应商、数据管理平台和标准化组织等都在这一过程中扮演着重要角色。研究人员应积极参与数据的生成、收集和共享,确保数据的高质量和可用性。资助机构应提供资金支持,推动数据管理和标准化项目的发展。出版机构应认可数据的学术价值,建立数据出版期刊和平台,促进数据的公开和共享。研究设备供应商应提供自动化技术解决方案,确保数据的全面捕捉和防篡改标记。数据管理平台应具备数据识别、注册、存储、发布、检索和获取等功能,支持数据的标准化存储和自动化系统。标准化组织应建立数据社区,推动领域内数据标准的制定和实施。
总之,AI在科学研究中的应用前景广阔,但要充分发挥其潜力,需要构建一个高效、标准化和可持续的数据生态系统。通过各利益相关者的共同努力,可以加速科学研究的进展,推动新材料的发现和开发,为科学创新提供强有力的支持。(END)
参考资料:https://www.nature.com/articles/s41597-024-03821-z
波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。
加入AI交流群请扫码加微信