图源 | Internet
付芸1,2 朱丽雅1 韩涛1,2 郑新曼1,2 刘细文1,2
1.中国科学院文献情报中心,北京,100190;
2.中国科学院大学 经济与管理学院信息资源管理系,北京,100049
摘 要
关键词
实验规程 数据化 数据驱动知识发现 智能实验平台 理实交融
引用格式
付芸,朱丽雅,韩涛,等.实验规程数据化研究与建设趋势分析[J].信息资源管理学报,2024,14(2):136-147.
1 引言
在以AlphaFold[1]为代表的科研创新成果不断涌现的背景下,“数据驱动知识发现”范式得以进一步发展与提升[2]。然而,数据驱动的方法受所使用数据完整性和实质内容的限制[3],以材料领域为例,在材料性质与结构的数据较为丰富的基础上,新材料的开发速度依赖于实验合成路径的发现与验证速度[4],这就需要引入可计算的实验规程加以支撑[5]。目前,基于可计算的实验规程,结合机器学习先进技术,已被广泛应用于实验过程条件优化 [6-9]、完整的实验动作序列预测[10]、多功能材料设计[11]等实验活动,以减少实验试错次数,有效提升科研创新效率。
另一方面,实验规程还可从过往失败实验数据中获得启示。目前科学界普遍认识到失败的实验数据对科学研究同样具有重要意义[12-13],例如基于过往失败的实验数据可以显著提高实验条件预测的准确性[14]。但一方面,受当前科研评价体制、科学出版偏见等影响[15]以及个人精力的制约,科研人员普遍缺乏重复实验的动力[16],另一方面,尽管以自驱动实验室[17-20]、移动实验机器人[21-26]为代表的智能实验平台,为处理实验数据质量、多样性及实验效率、安全等问题带来极具潜力的解决方案[27],但由于缺乏标准实验操作指令系统或通过NLP直接访问文献的能力,因此很难运行和维护[28]。
实验规程在科学研究中的重要性不言而喻,然而当前尚未发现系统梳理归纳实验规程数据化研究与建设的综述。为了弥补这一研究空白,本研究将在界定实验规程及其数据化概念的基础上,基于文献计量方法全面分析当前实验规程数据化研究的国内外发展现状,重点分析具有综合集成且承上启下特征的实验规程数据库建设趋势,准确感知实验规程数据化研究今后的发展重点,并提出信息资源管理专业或知识服务机构在该方向上可能的着力点。
2 实验规程数据化概念界定
2.1 实验规程相关概念梳理
实验规程与科学实验紧密相关,科学实验是一种实现对领域中已知和未知(目标)变量之间因果关系探索的研究方法,包括实验设计、方法和结果[29],主要包含三层:①物理层,在真实世界中实验应该发现的新知识;②模型层,了解实验领域的知识;③设计层,确定实验参数和目标变量,以及实验动作序列。实验规程对应科学实验中的设计层,即实验设计的书面计划[30],在科学实验中占据中心地位,是实验执行的重要输入,也是实验设计的主要结果。
Girault等[31]将实验规程定义为对数据和真实世界对象操作的描述,目的是收集和处理实验数据以构建新对象,其本质是科学研究活动的显式离散化和组织,通常包含两类任务:结构化实验任务和操作动作(附属参数)。在生物领域,科学实验分为以计算机处理数据为主的干实验和在实验室环境下操作的湿实验,并将湿实验规程(Wet Lab Protocols, WLP)定义为一组用领域专业自然语言编写的用于分布执行生物实验过程的指令集[32]。
2.2 数据化相关概念梳理
基于经典的DIKIW(data, information, knowledge, intelligence, wisdom)模型[33]可知,数据(data)是指对符号和信号读物的记录,其中符号包括单词(文本或口语)、数字、图、表、图片(或视频)等,信号则包括光、声音、嗅觉、味觉和触觉传感器和/或感知的读物。《国家数据安全知识百问》[34]指出数据的本质是对信息的记录,具有泛在性、流动性和可复制性特征。
数据化(datafication)、数字化(digitali-zation)概念不同,基于Leonardi等[35]的研究可知,数据化是一项将活动、行为或过程转化为有意义数据的实践;数字化是一种通过和围绕数字技术组织社会生活的方式;数字化或数码化(digitization)则是指将动作或动作表示编码为数字格式(0和1),可供计算技术读取、处理、传输和存储。
2.3 实验规程相关特征梳理
Girault等[31]提出从相关性、可执行性、可交流性三个维度设计九个指标以形成高质量实验规程评估标准,详见表1。Bonnat等[36]借鉴其中的可交流性与相关性评价维度,设计了一套可量化的质量评估指标,其中可交流性包括三个指标:每个步骤中的动作数(每个规程中的平均动作数)、动作参数(每个规程中没有动作的平均步骤数)、预结构性动作(自由动作的比例,即不是预先设置的动作数);相关性包括一个指标,即动作相关性(占专家编写规程的比例)。
表1 实验规程质量评估标准
此外,从Nature Protocol①、Current Protocol②、Bio-protocol③等实验规程出版期刊的提交要求中可知,实验规程应具备完整性和可复现性特征,即实验规程应包含实验目标、材料、溶剂、配方、设备、数据和软件等要素,内容编写应按时间顺序,详细描述实验分步执行说明;不同的子实验分类、分层描述;通常使用主动语态及现在时,即每步一般以动词开头;除操作动词,每步还应包含详细的实验材料、溶剂、温度、压强等条件;用词一致,词义明确,避免模糊词,比如“一些”“大约”等。
2.4 概念界定
基于上述总结可知,前人关于实验规程的定义无法覆盖当前对实验规程内容的新要求和特征,因此对实验规程作出新的定义[37]:实验规程是科学实验设计的书面计划,是对数据和真实世界的实验活动、行动、操作动作、操作对象、操作顺序、操作条件等的描述。其目的是确保实验过程完整且可复现、规范执行实验、收集和处理实验数据、构建新对象,其本质是科学研究活动的显式离散化和组织。实验规程数据化是指将使用自然语言撰写的实验规程文本转化为计算机可读取计算、智能实验平台可获取执行等有意义的实践。
注释:
①:https://www.nature.com/nprot/content-types
②:https://currentprotocols.onlinelibrary.wiley.com/hub/authorguidelines
③:https://en.bio-protocol.org/en/authors
3 实验规程数据化研究趋势
3.1 数据来源
为全面掌握实验规程数据化研究进展及趋势,本文使用核心主题词“scientific/experiment/experimental protocol/procedure”“wet lab protocol”,在Web of Science、ArXiv、Engineering Village数据库中不限年份检索,经人工判断后得到103篇相关论文。基于英文文献内容,提炼总结中文主题词(“实验规程”或“实验程序”或“实验协议”)和(“数据化”或“数字化”)和(“表示”或“表征”或“组织”或“抽取”),在中国知网、万方、维普数据库中不限年份检索,未发现相关文献。以103篇英文科技文献为研究对象,从国家分布、关键研究问题以及核心机构人员等层面展开分析,探索实验规程数据化研究趋势。
3.2 国家分布
从各国文献总量及年度发文量来看(详见图1(a)),美国以50篇独占鳌头,自2015年持续产出至今且研究主题丰富;英国以23篇紧随其后,研究主题聚焦于智能实验平台;我国仅有5篇,均为2020年之后的成果,内容包括自动化有机合成平台研究综述[38]、材料加速操作系统(MAOS)[18]、机器化学家[22]和合成胶体纳米晶机器平台[20]。
从各国间合作发文量来看(详见图1(b)),合作两次及以上仅有三对,分别是美国与英国合作两次[39-40]、英国与比利时合作两次[41,26]、瑞士与瑞典合作三次(源于作者Thakkar在瑞士的AstraZeneca公司和瑞典的伯尔尼大学同时任职并发表3篇文章[42-44])。总之,当前该方向国家间合作力度较弱。
图1 各国发文及合作
3.3 关键研究问题
基于Web of Science中的学科分类体系,实验规程数据化研究领域分布见图2(a)。其中化学、材料领域研究成果最多,因为实验规程是智能实验平台的必备组件,近些年来尤以化学领域[21-23,45]、材料领域[17-19]的智能实验平台发展迅速。计算机科学主要提供抽取数据并驱动知识发现的计算模型[5,28,32,46-53]。
基于主题术语共现网络可知(图2(b)),当前实验规程数据化研究主要聚焦四类方向:①实验规程数据应用,例如在实验设计[6]、合成路径规划[43,54-58]、材料发现[11]、药物发现[26]、实验条件优化[7-9]以及实验自动化[17-19,21-23,45]等方面的应用。②实验规程表示方法,例如本体[25-26,29,41,59-60]、数据模型[21,24,28,40,45,61-63]、结构化图[5,47]等三类表示。
图2 领域及主题分布
③实验规程数据集(包括语料库),例如支撑计算分析[49-51,64],支撑智能实验平台访问执行[63]以及高质量实验规程文本标注语料[4,47-49,51,53,65-73]等内容。④实验规程自动抽取,例如面向科技文献的实验规程表示要素自动抽取方法[5,28,32,46-53]。
3.4 核心机构人员
从图3所示的机构合作网络可知,连接紧密的节点颜色较为集中,实验规程数据化研究多以国家内部合作为主,美国和英国的研究主体(机构及人员)最多,节点旁的红色数字表示机构编号。
图3 机构及作者合作网络
具体来说,美国(蓝色)主要有三大研究团队:Olivetti团队[3-5,72-76]、Coley团队[8,21,77-78]和无机材料合成实验规程数据最丰富的Ceder团队[3-4,48-51,64],研究主题基本覆盖所有关键研究问题。英国(粉色)也有三大研究团队:化学机器人相关成果最丰富的Cronin团队[28,40,45,61-63], King和Soldatova团队[25-26,29,79-81],以及Murray-Rust团队[82-83]。研究主题聚焦表示方法、抽取方法和实验机器人等。
其他国家具体包括:当前仅有的探索为新实验生成完整实验规程的瑞士(浅绿色)Vaucher团队[10,46],开展合成实验规划路径和预测、药物设计研发等研究的瑞典(紫色)Engkvist团队[42-44,54,57],开展实验规程文本语料标注及自动抽取方法研究的日本(蓝色)Kuniyoshi及美国Miwa等组成的团队[47,52,84]。
我国主要是以中国科学技术大学的江俊等组成的团队[20,22],开展化学及材料实验机器人研究,具备显著竞争力,但其他方向尚属空白。
3.5 研究趋势分析
从国家分布和机构人员合作情况来看,实验规程数据化研究主要以国家内部合作为主,国际间合作较少,本文认为主要是两方面原因:
(1)国家间科技竞争。实验规程数据化主要面向数据驱动知识发现以及智能实验平台等场景,作为第四范式下科学研究的新模式,理实交融、数智驱动科学研究,是当前主要科技强国抢占科技创新制高点、争夺国际标准和话语权的核心前沿之一,具有重要的国家战略意义。
(2)科研界重视不足。从国际整体发文量可看出,涉足实验规程数据化研究的力量不多,且主要集中在美国、英国等,我国仅在实验机器人方向有所进展。将知识表示与组织作为主要研究问题之一的信息资源管理专业,尤其应该认识到实验规程数据化研究的重要性。
从关键研究问题来看,当前围绕实验规程数据化研究分为四个方向且均处于起步阶段,发展空间较大。本文选取“数据集建设”这一较为综合且承上启下的方向开展深入分析,其余三个方向的进展及趋势可参见相关文献[37]。
4 实验规程数据库建设趋势
当前实验规程主要源于公开的科学出版物以及流传于实验室内部的实验手册,后者由于不可获取暂不在本文研究范围内。其中公开科学出版物主要以研究论文、专利、专业实验规程论文或图书为主,围绕其中实验规程数据化的程度和应用场景,本文将其分为三类:科技文献库、可计算数据库、文本标注语料库。下面将具体阐述三类库的建设进展,并总结规律、分析趋势。
4.1 科技文献库
(1)包含实验规程字段的科技文献库
科技文献是科学家在寻找特定实验操作规程时重要的信息资源[77],美国化学文摘社、爱思唯尔、美国国立卫生研究院等分别推出包含实验规程字段的科技文献库:SciFindern①、Reaxys②、PubChem③,内容梳理详见表2。
表2 科技文献库内容梳理
上述三个科技文献库,共同特征是:①以化学领域研究论文和专利为主;②都可提供物质的实验规程和来源参考文献等信息;③实验规程均为非结构化文本格式,不支持机器学习模型训练和智能实验平台执行;④实验规程内容完整性和规范性有待检验,复现性未知。不同点是:①SciFinder(n)和Reaxys付费使用,PubChem免费使用;②仅有PubChem允许用户自行上传数据;③由于版权等原因,各自拥有的科技文献范围不同。
(2)专业实验规程科技文献库
为了提供高质量可复用实验规程,规范实验规程内容表述,出现了专业出版实验规程的期刊或图书,经调研并咨询领域专家可知,当前使用较多的专业实验规程由科技期刊或图书形成的文献库有五个:Cold Spring Harbor Protocols④、Bio-protocol⑤、Springer Nature Experiments⑥、Protocol Exchange⑦、Current protocol⑧,其中仅有Protocol Ex-change可免费获取,其余均需付费使用,内容梳理详见表2。
上述五个专业科技文献库,共同特征是:①数据量不大,仅覆盖领域小部分研究。其中体量最大的Springer Nature Experiments,也仅有8万多条实验规程,仅覆盖领域部分研究,尚有众多实验规程仍需在科技文献中查找。②实验规程均为非结构化文本表示,不支持机器学习模型训练和智能实验平台执行。不同点是:①科研机构出版的实验规程(Cold Spring Harbor Protocols和Bio-protocol)领域范围更专深,而出版商的则更宽泛。②付费使用的实验规程完整性高、复现性强,免费使用的实验规程则无法统一保证质量。③仅Protocol Exchange为预印本平台,供用户免费使用并可自行提交数据。
4.2 可计算数据库
数据驱动知识发现的方法,要求实验规程需加工成计算机可理解的形式。梳理实验规程相关研究论文可知,可计算实验规程数据库有六个:Pistachio⑨、ORD⑩(the Open Reaction Database)、固态合成实验方案[49]、无机合成实验方案[64]、基于液体的无机材料合成实验方案[50]、金纳米粒子合成实验方案[51],仅有Pistachio需要付费,其余均可免费获取,内容梳理详见表3。
表3 可计算数据库内容梳理
六个可计算数据库,共同特征是:①均包含实验分类和实验条件;②可提供json格式文件,支持机器学习模型训练,不支持智能实验平台访问执行。不同点是:①数据来源差异较大,Pistachio主要源于美国专利局数据,ORD主要是用户提交的可用于机器学习的化学反应数据,其他四个则由Ceder教授团队基于特定领域期刊论文研制;②除ORD外,其余五个均提供计算机可读实验操作动作,能够支持计算分析需求,但是尚无法满足智能实验平台访问执行需求。
值得一提的是,当前仅有一个支持智能实验平台访问执行的数据集[63],共收录103条实验规程,其中53条已经过实验机器人检验。
4.3 文本标注语料库
尽管专业实验规程文献的内容完整性和规范性更强,但是数量有限,大量可用实验规程依然存在于一般的科技文献中。为提升从科技文献中自动抽取实验规程的算法效果,生物医药、化学材料等领域目前已建成八个高质量的实验规程文本标注语料库,内容梳理详见表4。
表4 文本标注语料库内容梳理
生物领域较为集中,基于Kulkarni等[68]在2018年发布的首个生物湿实验规程语料(WLP),Tabassum等[69]和Kulkarni等[53]修订完善WLP语料中关于实体和关系的定义,Tamari等[70]则是进一步将标注语句从段落扩大到整个文档。
材料领域较为多样,主要包括Mysore团队发布的通用语料MS-MENTIONS[72]、MSTP[73],Kuniyoshi等[47]发布的全固态电池领域语料Syn-thASSBs,以及Friedrich等[71]发布的固态氧化物电池语料SOFC-Exp。其中,MSTP、Syn-thASSBs、MS-MENTIONS主要标注实验规程段落,SOFC-Exp则面向全文档进行标注。MS-MENTIONS针对三类实体分开注释,可为特定实体抽取任务提供专门的注释子集,减少实体间的交叉影响,提升任务效率。
4.4 建设趋势分析
根据可查证资料,三类实验规程数据化建设产品最早可追溯日期分别是:包含实验规程字段的科技文献库:2004年发布的PubChem;专业实验规程科技文献库:1987年发布的Current protocol;可计算数据库:2010年发布的Pistachio,2022年发布实验机器人可读取执行的实验规程;生物文本标注语料库:2018年发布的WLP;材料文本标注语料库:2019年发布的MSPT。
上述三类产品较为明显的时间阶段,反映实验规程数据化建设需求的变迁,从初期的供科学家可查、可阅读,到后来供计算机分析计算,再到近期供机器学习模型训练优化和供智能实验平台访问执行,实验规程数据化加工粒度从自然语言文本,到明确实验条件、实验操作等内容的结构化文本,再到面向智能实验平台的明确操作指令。
注释:
①:https://scifinder-n.cas.org/
②:https://www.reaxys.com/
③:https://pubchem.ncbi.nlm.nih.gov/
④:http://cshprotocols.cshlp.org/content/by/year
⑤:https://cn.bio-protocol.org/cn/about
⑥:https://experiments.springernature.com/
⑦:https://protocolexchange.researchsquare.com/browse
⑧:https://currentprotocols.onlinelibrary.wiley.com/
⑨:https://www.nextmovesoftware.com/pistachio.html
⑩:https://docs.open-reaction-database.org/en/latest/
5 结论与展望
围绕实验规程数据化研究与建设趋势,本文在总结前人关于实验规程及数据化相关概念界定基础上,结合当前实验规程应满足计算机可读取计算与智能实验平台可访问执行的发展趋势,重新定义实验规程,且明确界定实验规程数据化。在此基础上,系统分析103篇与实验规程数据化相关的研究文献的国家分布、关键研究问题及对应的核心机构人员,全面了解实验规程数据化研究进展、掌握未来发展,发现我国在该研究方向上的不足、为今后发展布局奠定基础。最后选取具有综合集成且承上启下特征的数据集(包含语料库)建设这一关键研究问题做进一步内容总结和归纳,从中窥探科学研究对实验规程的需求变迁,准确感知实验规程数据化研究今后的发展重点。
基于实验规程数据化研究和建设趋势,本研究认为,信息资源管理专业和知识服务机构今后应围绕四个关键研究问题,可考虑在如下方向着力并发挥专业优势:
实验规程表示方法研究。当前科技文献中的实验规程多以非结构化文本形式描述,无法供机器学习模型训练计算及智能实验平台访问执行。理实交融、数据驱动知识发现的研究模式下,应深入研究如何构建高效灵活的实验规程知识表示方法,使其能够适用于表示不同实验类型,提升实验规程规范性、完整性,保证其可重用、可计算、可执行。
实验规程自动抽取技术研发。科技文献中蕴含大量且丰富的高质量实验过程信息,过去的知识为未来的发展指明方向,因此,如何自动精准地识别获取科技文献中的实验过程信息,以构建形成高质量的实验规程,是当前急需解决的关键问题。在充分解析实验规程的构成要素及表示框架基础上,研发专用面向科技文献的实验规程自动抽取技术,为构建高质量实验规程数据库奠定数据要素基础。
实验规程数据集(包含语料库)建设。当前已发布的商业及公开实验规程数据库均非我国主导或参与研制。在智能科研时代,数据是极为重要的科研生产要素,应该保证其安全自主可控。因此,应深度分析满足计算机读取计算以及智能实验平台访问执行等场景的实验规程数据特征,基于丰富的科技文献,构建实验规程数据集(包含语料库)。
实验规程数据应用研究。当前由于可用的高质量可计算实验规程数据有限,已开展的应用研究尚不充分,伴随可用数据的逐渐丰富,在与领域专家充分沟通了解科研创新需求的基础上,利用AI技术充分发挥这些数据的价值,驱动发现更多知识,从研究方案发现推荐到全新方案的推理设计,从实验条件优化推荐到完整实验规程推理生成,真正实现从支撑科研创新到嵌入科研工作的功能升级。
参考文献
作者简介
*原文载于《信息资源管理学报》2024年第2期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
付芸,朱丽雅,韩涛,等.实验规程数据化研究与建设趋势分析[J].信息资源管理学报,2024,14(2):136-147.
往期 · 推荐
▲点击访问信息资源管理学报小程序
制版编辑 | 王伊杨
审核 | 于 媛
长按识别二维码关注我们
信息资源管理学报
分享、在看与点赞
只要你点,我们就是朋友😊