来源:《中国电力》2024年第11期
引文:贺馨仪, 董明, 孙歆, 等. 标准数字化应用框架设计及其设备侧领域实践[J]. 中国电力, 2024, 57(11): 78-87.
随着电网规模持续扩张,电网生产、设备台账及状态信息等基础数据的数字化水平日益提升。在这一信息化浪潮中,涌现出诸多技术,如人工智能、数字孪生、区块链和大数据等,它们以“数字化”的方式对现实世界进行表达和呈现。当将这种“数字化”理念引入到标准化工作领域,便催生了“标准数字化”的概念。《中国电力》2024年第11期刊发了贺馨仪等撰写的《标准数字化应用框架设计及其设备侧领域实践》一文。文章提出了基于条件事理图谱的电力标准数字化技术,通过基于规则与语义角色标注的知识三元组抽取手段与基于词语相似度的知识融合技术,引入条件性元组提升电力标准的知识结构化表达,建立了条件性电力标准事理图谱—改进的电力领域标准知识图谱,并通过标准用例验证了模型的有效性。
为了满足对电力标准文献的深度挖掘和知识规则构建的需求,提出了一种电力标准数字化方案,该方案以条件事理图谱为基础,为电力行业的高效、智能化发展提供了新的解决方案。首先为实现电力标准文献的精细化知识抽取,结合了规则和语义角色标注技术,提取出关键知识三元组,在知识融合阶段,采用词语相似度方法整合知识,提高图谱准确性;其次,建立了针对电力领域的改进标准知识图谱,更全面地表达了电力标准中的知识和规则;最后,结合Cypher查询语言和产生式规则,实现电力设备的辅助知识问答和状态评估任务,大大增强了图谱的实用性。1.1 电力标准文本特征
《标准化工作导则第1部分:标准化文件的结构和起草规则》(GB/T 1.1—2020)对标准文献的构成进行了详尽的阐释。本文基于这些必备组件,构建出标准文献的共性结构要素图,如图1所示。
Fig.1 Common structural elements of standard documents
电力标准作为特定行业领域的规范性文件,其深层知识与专业规则并非直观显现,而是隐含在标准的核心技术要素组件之中。因此,为了充分挖掘和应用电力标准中的知识与规则,需要对其深层结构和逻辑进行全面剖析,从中提炼出有价值的信息,为电力行业的实践提供有力的指导和支持。而电力标准的深度和专业性对知识结构化提出了新的挑战,这种挑战主要体现在知识表示、知识抽取和知识应用等核心层面上。从知识表示的角度来看,电力标准所涵盖的知识范围虽然相对狭窄,但却要求对该领域内的知识有深入、细致的理解,即更侧重于知识的深度和词义的细粒度。这在一定程度上增加了知识表示的难度。电力标准在知识的抽取上有着更高的要求。这不仅体现在抽取结果的准确性和完整性上,更体现在抽取过程的无损性上。然而,由于标准文本的复杂性和规范性,如何实现无损抽取结构化知识,一直是标准数字化过程中的一个难点,需要寻找更有效的解决方案来应对这一挑战。在知识应用层面,基于不同细粒度的知识表示方式,通常是行业垂直领域应用的强烈需求之一。这意味着需要根据不同的需求和应用场景,选择不同粒度的知识单元来进行表示。知识图谱是揭示实体之间关系的语义网络,它以实体(或概念)为节点,以关系为边,用于存储结构化的语义知识库,并实现基于推理的概念检索。然而,无论是面向垂直领域的封闭式知识图谱还是近年来广泛建立的开放领域知识图谱,知识都以平坦网状结构呈现,即“实体–关系(属性)–实体”三元组不断链接形成的知识网络,这种网络结构的知识图谱仅能提供通用时间、通用条件下的常识。例如在电力标准领域,变压器状态量注意值的选取,需要考虑不同电压等级;变压器状态需要根据劣化度评分判断。上述问题的关键在于知识图谱仅明晰了实体与实体间关系而无法表征以实体为主语或宾语的事件及其发展规律。为了弥补这一缺陷,事理图谱的概念应运而生。事理图谱是专门用于描述事件之间关系的知识图谱其核心研究对象是谓词性事件及其关系,具体如图2所示。在事件陈述性文本中,特别是在需要高度严谨的领域里,如标准领域,条件的精确性具有举足轻重的地位。一旦条件表述模糊或缺失,事件本身可能变得无法验证。结合对IF-THEN条件性图谱的研究经验,本文提出了电力标准领域的条件性知识图谱作为标准数字化的关键实施路径。在这种新型图谱中,节点不仅要代表实体,还要能够体现实体的属性。同时,图谱元组的设计也更为全面,既包含事实元组,也注重捕捉与事实相关联的条件元组信息。条件性知识图谱不仅全面展示了事实和条件之间的复杂关系,还为文本信息的无损结构化提供了全新的解决方案。
Fig.2 Traditional graph and event graph structure
1.3 条件性事理图谱设计及电力标准数字化应用框架为了在保留不同细粒度信息的前提下实现面向电力标准条件性事理图谱的构建,需要对每个语句进行结构化处理,将其转化为一组包含事实元组和条件元组的集合。面向电力标准的条件性事理图谱设计如图3所示,该图谱主要由3个层次构成:结构层、元组层和实体层。这3个层次相互关联,共同形成了以三元组为基本单元的层次化网状结构,即
Fig.3 Conditional event graph design
式中:t为三元组;a1、a2分别为节点;r为a1、a2节点间的关系;A为节点集;R为关系集。结构层(SL):这一层级主要负责捕捉标准的结构要素。在该层级,节点可以是标准名、章标题或句子,它们共同构成了标准文档的结构骨架。元组层(TL):元组层以谓语关系作为核心节点。这些信息被分类为条件元组tc和事实元组tf,它们通过各自的条件或事实性质与结构层的句子节点建立关系,同时,通过主语/宾语关系与实体层的对应节点相连接。实体层(EL):实体层以实体、无法赋值的实体抽象属性或概念为节点,这些节点之间可以通过设置具体的关系进行相互连接,同时,它们也可以通过主语/宾语关系与元组层中的谓语关系节点建立联系。本文设计的电力标准数字化应用框架如图4所示。其中,知识推理层通过结合具体的业务场景,采用相似度计算与规则推理技术,对关键信息进行匹配与路径搜索,以在精细化场景中实现电力知识的深入应用与探索。知识应用层则根据用户的应用需求和场景,灵活调整功能模块,提供从基础的信息查询到目标业务结果返回等交互方式,以满足不同标准用户在查询与使用标准过程中的实际需求。
Fig.4 Electric power standard digital application framework 2.1 电力标准文本预处理及知识抽取
由于标准文本格式不一,且大多标准为纸质文本或图片扫描便携文档格式(portable document format,PDF),使用Python-tesseract库对只读PDF中文字信息进行光学拆解,并对结果进行人工校验,采用句划分方法对数据集进行采集。对标准文本内的图片、公式、表格等非文字类型对象进行规范化存储,以方便在关系型数据库中便捷检索。知识抽取实体数据运用自动化或半自动化的技术手段,从实体数据中抽取出有价值的知识单元。这些知识单元主要包含3类核心知识要素,即实体、关系以及属性。由于电力标准包含标准结构信息与标准内容信息2部分,需要对这2部分信息分别进行处理。标准结构信息实体是事理图谱结构层SL的主要组成部分,包括:asn={标准文件:标准名称、标准代号(如“GB”)、标准编号、标准层次或类别、国际标准分类(ICS)号、中国标准文献分类(CCS)号、发布日期、实施日期、发布机构、标准状态、替代标准、被替代标准、起草单位、主管部门、归口单位、起草人};act={章标题:标题名称、标题序号};ast={句子:内容、句子序号、链接标题、链接标题序号},特别地,句子序号表示为si,其中i以全篇为域进行编号。标准内容信息实体是对标准内容的进一步拆解,是对标准内容语义与标准规则知识的深入解析。标准内容信息实体包括:apr={谓语:谓语关系、所属句子};e={实体:实体类别、对应属性}。具体实体类别及其对应属性及其示例在表1中部分展示。
Table 1 Standard content entity categories and their corresponding attributes本文使用语义角色标注(semantic role labeling,SRL)技术,以谓词论元结构为拆解中心,对句子结构进行事实主句与条件从句的划分。本文SRL任务基于ELECTRA-small预训练模型,在中文命题语料库(Chinese proposition bank3,CPB3)数据源上训练,训练准确率为75.87%,召回率为76.24%。本文通过自建电力领域词典以句子为单位对标准内容信息需进行分词操作,分词采用面向生产环境的前沿多语种自然语言处理技术(han language processing,HanLP)中文分词工具,引入电力领域词典取自《电力名词(第三版)》。对分词后的句子执行SRL,以句子Sexp“当任一状态量单项扣分和部件合计扣分同时满足表2规定时,评价为正常状态。”为例,可视化结果如图5所示,其中,PRED标记为谓词,ARGM-ADV标记为状语,ARG1标记为受事者,即宾语。从表2中可提取到谓词为“满足”“为”。应注意到的是,谓词的论元通常是与该谓词有直接语义关系的名词短语、动词短语或其他类型的短语,不是所有在句子中出现的名词或动词短语都会被标注为谓语或论元。标准语句中的关系大多呈现显性特征,本文在事理图谱的构建过程中,选择了基于模式匹配规则的关系抽取方式,关系抽取规则如表3。这种方式能够有效地从标准语句中提取出关键信息,并依据预设的模式将实体间的关系准确地映射到图谱中,从而实现了对事理的有效表达和呈现。
Table 2 Predicate argument structure of SexpFig.5 Semantic role annotation visualization results of Sexp
Table 3 Relation extraction rule
针对设备状态评价领域,本文设计知识融合流程如图6所示,对冗余信息进行清理和整合,以提升知识的质量和可用性。本文利用word2vec将抽取到的谓词与规范谓语节点转换为词向量,词向量转换模型针对中文人民日报语料进行预训练,向量维度为300,训练粒度包含字与词。对得到的词向量进行文本相似度匹配,相似度计算选择余弦相似度,并选择相似度最高的规范谓语节点作为匹配结果。
Fig.6 Knowledge fusion process based on similarity
本文采用Neo4j图数据库来存储所构建的面向设备状态评估标准的条件性事理图谱。Neo4j是原生的图数据库引擎,它充分利用了图结构的自然伸展特性来优化查询算法,从而实现高效的查询性能。图谱总体与细节展示如图7所示。本文所搭建的面向设备状态评估的电力标准数字化图谱,包含超过6 000个实体和8 000条关系,充分实现了标准的多粒度拆解与最大程度地语义关系保留。本文的可视化不仅直观可见,更有助于深入探索和分析图谱中的复杂关联,为设备的维护和管理提供有力的数据支持。
Fig.7 Example of digital power standard conditional event graph
电力标准作为长期性的高可靠性知识,当标准更新、替换、新增时,需要向Neo4j数据库中添加新知识,并确保知识的准确性和完整性。
基于Neo4j的电力设备辅助知识问答系统可以依据所搭建的数字化电力标准为电力行业提供智能化的问答平台,帮助用户快速获取电力设备的相关标准知识。1)数据建模与导入。对电力设备的标准知识进行建模。基于数字化电力标准事理图谱,面向变压器状态评价领域,筛选相关节点1 219个,关系1 610个。对筛选后的图谱数据建立图谱投影以优化查询效率与质量。2)构建问答系统。使用自然语言处理技术对用户提出的问题进行分析。针对用户提问,采用相关知识抽取技术,对实体或相关谓语进行提取,以便准确理解用户的查询意图。建立预设问题模式,将实体或相关谓语转换为Cypher查询语言,以便在Neo4j数据库中进行查询。3)查询执行与结果返回。执行转换后的Cypher查询,并从Neo4j数据库中获取结果。产生式规则是具有关联关系的知识形式,用于表征程序性知识或人工智能系统中的规则。每条产生式规则由条件和动作2部分组成,这种规则可以表述为“如果条件满足,则执行动作”的形式,即所谓的条件-活动规则(condition-action,C-A)。在人工智能领域,产生式规则被广泛应用于专家系统、自然语言处理、智能控制等领域。通过模拟人类的思维过程和推理模式,产生式规则能够帮助机器实现更加智能化的决策和判断。本文中建立的产生式规则模型如图8所示。本文采用DL/T 1685—2017《油浸式变压器(电抗器)状态评价导则》(以下简称《导则》)中的实例验证本文所搭建的数字化电力标准在设备状态评价业务应用方面的有效性。
Fig.8 Production rule model
《导则》案例提供设备状态信息如下:某SFPSZ9-150000/220型变压器,2003年3月出厂,2004年3月投运,2005年3月11日例行试验未发现异常。2005年5月19日,该变压器在例行油色谱试验中发现乙炔和总烃含量分别突增到2.45 μL/L和348.55 μL/L,其他油色谱溶解气体成分也有增长,之后长期进行跟踪检测,试验数据如表4所示,其他状态量无异常。本文首先对上述设备状态信息进行知识抽取,针对“变压器”与“油中溶解气体”关键信息,返回结果如表5所示,其中“所属句子”为句子序号,表示为si,展示原文id;关联参量为“变压器”与“油中溶解气体”检索到的句子中包括的属性及其属性值,“仍需添加”为Cypher检索到的判断条件中未在检索语句中的参量;“输出结果”与“定性”或“定量”为希望输出的属性及其属性值,在本例中具体为扣分值相关属性,依据输出结果的扣分方式与扣分值,可以计算得到最终结果。
Table 4 The dissolved gas analysis data of a transformer in the guidelinesTable 5 Key information Returns results
在标准文本中,依据油中溶解气体判断变压器状态评价标准为表格表述,在本文的数字化标准框架中,该表格已转换为本文所述事理图谱形式。依照需添加物理参量作为属性,将表4数据作为相应属性值建立节点,标签为data,输入图谱并依照判断方式与阈值进行计算分析,返回结果为表6。从表6可以看出,该变压器状态为异常,与该导则案例相同。本文所提出的方法在检索过程中仅耗费了13 ms的时间,展现出了极高的效率。在数据系统化录入的基础上,可以进一步优化数据的调用速度,从而在确保检索精确度的同时,显著缩短人工查找和翻阅标准所需的时间。本文所提出的数字化电力标准极大地提升了标准知识的检索效率。通过实际案例的验证,充分证明了该方法在检索与结果判断上的有效性。
Table 6 Status evaluation returns results本文面向电力标准数字化实施路径,在研究标准结构与文本特点的基础上,提出了基于条件性事理图谱的标准数字化框架与构建方法,并以产生式规则为基础在设备状态评价领域进行了实施与应用,得到以下结论。1)本文提出的事理图谱构建流程实现了电力标准文献的精细化知识抽取,利用自建电力文本词典与词语相似度计算,保证了标准知识的准确、规范化表达,所构建的数字化电力标准支持高效检索与知识更新。2)与传统知识图谱相比,本文所设计的条件性事理图谱充分考虑了标准文件的结构信息与内容信息,通过引入条件约束,在图谱中明确了标准知识的使用条件与前提,提高了图谱内知识的可靠性,使所建立的图谱更满足数字化标准的应用场景与业务需求。3)本文面向设备状态评价领域,提出了电力标准辅助知识问答与基于产生式规则的设备状态评价方法,在保证精确度的基础上有效减少了人工翻阅与查找标准的时间,极大地提高了标准知识的检索效率,经案例验证共耗费检索时间13 ms,且检索结果与判断结果准确。
根据国家版权局最新规定,纸媒、网站、微博、微信公众号转载、摘编《中国电力》编辑部的作品,转载时要包含本微信号名称、二维码等关键信息,在文首注明《中国电力》原创。个人请按本微信原文转发、分享。欢迎大家转载分享。