图源 | Internet
范 昊 王一帆
武汉大学信息管理学院,武汉,430072
摘 要
关键词
标准文档 知识组织 语义关联 多粒度知识 本体构建
引用格式
范昊,王一帆.知识关联视角下标准文档的多粒度知识组织方法研究[J].信息资源管理学报,2024,14(4):133-145.
1
引言
标准包含着大量由业内协商一致且可重复使用的术语、定义、技术、流程、关系、体例等规范性知识成果,承载着鉴定质量、校验产品、控制指标等功能。基于标准的应用与服务在支撑经济活动、促进社会发展和推进国家治理能力现代化上发挥着基础性和引领性作用。数智时代,数字经济与产业数字化的发展对标准的形式与应用提出了更高要求。2021年,《国家标准化发展纲要》把“标准数字化水平不断提高”作为战略目标之一[1],即利用数字技术对标准本身及生命周期全过程赋能,使标准承载的规则与特性能够通过数字设备进行读取、传输与使用[2]。《2023年全国标准化工作要点》提出“优化标准供给,强化标准实施,努力提升标准化治理效能”,并持续推进标准数字化进程[3]。面对数字化发展形势与标准化工作新格局,有必要探索标准的新型供给形式和组织方式,使标准中的知识成果被各行业高效利用,以满足产业数字化对于标准制定、实施、推广与应用的需要。
科技文献的智能分析与理解是情报学研究的核心内容之一,作为与产业高度接轨的特殊型科技文献,标准资源建设与数智化发展更应体现全领域的决策支持功能[4]。数智驱动的应用与服务存在局限性,归根结底是数据组织层面的问题[5]。标准主要以规范性文档的传统资源组织形式存在,基于此形式的标准资源存在内容不完整、语义关联差的问题,使用户难以从繁杂的资源中获取有关联、有价值的信息或知识。已有研究探索标准文档在知识层面上的组织方式,其一是基于可扩展标记语言(XML)对标准文档进行转换,这种方法可以实现标准内容的直接提取与查询,但对语义关系的表示有限,无法进行不同标准之间的内容关联、语义交叉及共享重用[6];其二是开展标准内容语义化及知识图谱构建研究,但大多基于文档的粗粒度或文档中单一粒度,由于标准文档知识内容的多层次性,基于单一粒度的知识组织方式会丢失大量的语义信息和关联。
数据资源的价值源于其中蕴含事物之间广泛存在的知识关联,现有研究针对文化遗产[7-8]、金融领域[5,9-10]开展知识关联分析与挖掘。多角度、多层次的知识关联结合语义网的构建方法,使得标准文档的完整知识表达成为可能。由此,本研究从知识关联视角出发,提出一种面向标准文档的多粒度、富语义的通用知识组织方法,解决如何对标准文档中多粒度知识进行划分、描述、关联与管理的问题,以帮助标准文档的丰富知识内容被有效获取与重用,提高标准应用及标准化工作效率。本研究可以为新型的标准供给形式提供参考,也对多粒度知识组织导向的文档处理与知识利用提出思考。
2
相关研究
2.1 标准文档的知识组织研究
标准文档知识组织的发展历程可划分为基于文献单元的组织、基于信息单元的组织以及基于知识单元的组织。基于文献单元的组织主要以分类号为标识进行标准文档的领域和类别界定,从而以等级结构实现文献层面的标准分类与排列。基于信息单元的组织是以标准文档的外部或内容特征作为表示单元,进而用于控制和处理标准。标准文档的元数据即是一种以信息为基本单元、描述标准文档基本特征的组织方式,但是传统的元数据方案只能体现部分提前规定的特征信息,如标准号、标准名称、起草单位、实施日期等。
数字技术使得文档内容可以脱离载体而存在,转向以知识获取、挖掘、提供为核心的知识描述与组织思维[11]。标准文档的知识组织研究开始以知识单元为对象,两种代表性方法被用于实现标准文档中知识单元的关联。首先是基于标签集的方法,标准标签集通过XML对标准文档的结构和技术内容要素进行分析,并将其标记为机器可读形式[12],实现标准内容的直接提取与查找。丁恒等[13]通过图像处理和语义抽取,将标准文档转化为具有丰富语义结构信息的XML文件,并利用自然语言处理技术抽取和构建标准实体及其关系。国际标准化组织、美国国家标准协会、中国标准化研究院分别构建了相应的标准标签集[14-16],用于实现标准文档的通用描述。然而,以此种方式开展的标准知识组织只能实现机器可读的目标,对标准文档的语义表达十分有限。其次是基于本体的方法,Loibl等[17]从语义关联可见性、易扩展性和数据调用速度等方面证实图数据库更适合机器可操作标准的存储与推理。刘慧琳等[11]、杨跃翔等[18]通过分析标准文档的特征,建立包含多项概念和关系的本体模型,实现整体内容的知识切片和重组,但本体构建均止步于段落层次。范昊等[19]深入标准文档的内容层次,提出“元数据—结构—内容”三层标准文献本体模型,并采用施事者、受事者的语义角色代表段落实体内容。
2.2 文本多粒度知识组织研究
多粒度的思想为个性化的需求识别、策略制定、特征学习和表示提供了新的思路,被广泛应用于信息搜索行为[20]、语义模型构建[21]、文本知识组织等方面。其中,基于知识粒度理论的知识组织方法以满足用户的多粒度知识需求为目标,能够为用户直接提供个性化问题的满意解答。以知识检索为例,从粒度较大的知识关联到粒度较小的知识,可以帮助用户得到更加具体和详细的结果,相反可以帮助用户把握全局,并提高检索效率。
研究者主要面向科技文献、馆藏资源等展开多粒度知识组织研究。例如,为满足用户的多粒度学术知识需求,冯儒佳等[22]将科技论文划分为粗、中、细三种粒度的资源,在此基础上提取三种粒度的知识,并将不同粒度的资源和知识映射;赵冠壹等[23]基于网络拓扑结构,提出包含科技文献层、知识集合层和知识元层的科技文献多粒度知识组织模型;夏立新等[24]基于简单知识组织系统(SKOS),按照全文的粗粒度、章节的中粒度和段落的细粒度进行学术期刊文本资源的多粒度语义标注。为探索基于多粒度的馆藏资源知识组织与服务创新,王忠义等[25]根据抽象程度将知识划分为事理知识、事件知识、概念知识和实例知识四个粒度层次,并构建跨学科的多粒度知识组织模型;陈燕方[26]从用户需求和资源组织两个角度厘清多粒度内涵,并将图书馆馆藏资源划分为粗、中、细三种粒度,分别表现为以篇章为单位的知识群、以小节为单位的知识单元和以句子为单位的知识元;李迎迎等[27]把馆藏文物中所蕴含的知识分为粗粒度的事件知识、中粒度的特征知识和概念知识、细粒度的实例知识,并构建面向馆藏文物的多粒度知识体系。
综上,现有标准文档的知识组织方法存在描述粒度较粗、语义关联缺失以及无法满足多粒度知识需求的问题。多粒度的知识层级是标准文档的显著特征之一,但由于内容和需求上的特殊性,无法直接移植其他文本的多粒度组织方法。因此,本研究将充分考虑面向标准文档的知识粒度划分与概念表示,并深入分析各粒度知识之间的语义关联模式与类型,以期最大限度地展现和联结标准文档所蕴含的知识内容。
3
基于多粒度知识的标准文档组织依据和逻辑
Hobbs[28]最早对知识的粒度特性进行揭示,并证实了粒度不同的知识之间存在联系。粒度是知识的基础构成单位,知识粒度的大小影响着概念表示的抽象水平,更细的粒度提供更详细的信息,而更粗的粒度则提供更高层次的概述[29]。徐绪堪等[30]从知识组织的视角提出粒度的定义可以描述用户问题和各类知识,为问题解决提供了基础支撑,利于高质量的知识服务。根据解决问题的需要,可以从不同角度或层次对知识粒度进行划分,特别是当同一问题需要进行不同粒度的研究时,需要建立其间的关系。由此可见,知识粒度理论强调知识的多粒度粒化,实现粗粒度、中粒度、细粒度等多种粒度的知识共存,从而更好地管理和利用信息,促使更有效的决策过程。在本研究中,多粒度特征的内涵主要体现为标准文档的知识内容多粒度和知识需求多粒度。
作为一种规范性文件,标准文档的章节结构、层次编排、要素构成等均具有较为完善的规定,主要依据包括GB/T 1《标准化工作导则》、GB/T 20001《标准编写规则》、GB/T 20002《标准中特定内容的起草》等。从物理结构来看,标准文档可以划分为封面、目次、前言、引言、正文、参考文献和索引,正文又可继续分为范围、规范性引用文件、术语和定义、符号和缩略语、分类和编码/系统构成、总体原则和/或总体要求、核心技术要素和其他技术要素;从逻辑关系来看,标准文档可从文件层次分为部分、章、条、段、列项及短语或术语。标准文档具有层层嵌套与递进的知识内容结构,各层结构之间蕴含着复杂的语义关系,需要由多粒度的组织方式来表达。
并且,基于标准文档的应用与服务以满足用户需求为先决条件[31],因此标准文档的知识组织还应充分考虑用户的需求特征,与待解决问题相关联或伴随。不同于专利、论文等解释性或描述性文本,标准文档是规范事实知识的集合,根据不同任务需要,用户所需知识分散在文档的不同层次乃至不同文档之中。因此,现有的标准服务需求不再是基于文献或细粒度实体等单一单元的知识传递,而是能够直接解决问题的不同知识层次的服务[32],即在提供用户所需知识的过程中,无需将组织好的知识进行复杂的分解与重构,知识的大小应能够恰当地满足用户需求。
以多粒度知识描述与关联为目标,本研究提出面向标准文档的多粒度知识组织逻辑框架,如图1所示。首先,基于知识粒度理论,依据标准文档的知识内容和需求特征进行知识划分,提取不同粒度的知识单元,并抽象和提炼其中的统一知识概念;然后,对多粒度知识的显性或隐性关联特征进行挖掘和描述,从知识层级、文档特征、文本逻辑、时空演化等方面认知并发现标准多粒度知识之间的语义关联模式和类型;最后,采用本体构建的方法实现标准文档的多粒度知识组织,并通过知识实例的添加来完成本体验证与价值阐述。
图1 标准文档的多粒度知识组织逻辑
4
标准文档的多粒度知识划分与描述
4.1 标准文档的多粒度知识分类
本研究首先根据标准文档的知识内容和需求特征,将其组织层次分成篇、章、节、句子、词语或短语的构成等级。知识单元应满足能够独立表述一个主题的条件,而一个段落常与其他段落共同描述相同主题的内容,因此段落级不被视为单独的知识单元。然后,在知识粒度理论的支撑下,将标准知识划分为篇级的粗粒度知识,章、节、句子级的中粒度知识,以及词语或短语级的细粒度知识,进而完成各粒度知识在标准文档中表述内容的映射,形成文档特征知识、技术规则知识和规范实体知识三类知识单元,如图2所示。
图2 标准文档的多粒度知识分类框架
其中,文档特征知识是标准文档中篇级内容的表达,代表描述文档特征信息的粗粒度知识单元,该类知识的涵盖范围最大、抽象程度最高,例如标准名、标准号、机构或人员、日期、状态、性质、分类等题录知识,以及与其他文档的关联、对文档主题或更新内容的概括与总结等;技术规则知识是对标准文档中章、节、句子级内容的表达,代表为实现标准化而建立的不同层级的技术规则,属于中粒度的知识单元,依据体例结构可对应为章、条或附录的规定、具体规定、除文本外其他形式的规定等;规范实体知识是对标准文档中词语或短语级内容的表达,代表具体规范条款中的细粒度知识实体,如术语、符号、缩略语、标准化对象、技术方法等。不同粒度的标准知识可以被看作具有推理性和相似性的数据集合,从而能够进一步帮助人们理解数据中隐含的、有意义的联系,避免了单一粒度划分的知识损失问题,可以表现更加全面的知识内容。
4.2 标准文档的多粒度知识概念集
在多粒度知识分类后,本研究进一步确定能够描述标准文档多粒度知识的概念集,以实现对其内涵、形式、构成的规范说明。从通用领域出发,根据标准文档的内容描述框架,细化出各个粒度的具体知识单元。标准文档的组成可分为规范性要素和资料性要素。资源性要素提供有助于理解或使用标准文档的附加信息,例如封面、目次、前言、引言、参考文献、索引、规范性引用文件等,可得到用于概括说明标准文档信息的文档特征知识;规范性要素包括界定文件范围或设定条款的要素,前者即范围部分是对标准核心内容及主题的总结,可得到文档特征知识;后者如正文中的术语和定义、符号和缩略语、核心技术要素等,表达需要遵守、符合、理解或作出选择的表述,可得到技术规则知识和规范实体知识。从这些具体知识单元中提炼各粒度类别下的核心概念,描述其关键属性,并明确概念之间的层次关系,最终形成反映标准文档中知识层级和类型的标准多粒度知识概念集,如图3所示。
图3 标准文档的多粒度知识概念及属性
文档特征知识概念包括文件、编号、分类号、人员机构、关键词、规定内容、适用界限、更新内容等八个概念。“文件”是由业内协商一致、可重复使用的多类型知识成果,关键属性包括英文名称、与国际文件对应关系的一致性标识、发布日期、实施日期及备案号。“编号”即标准号,包括代替文件编号和文件代号所表示的文件类别两个属性,因有些文件版本更新时其标准号不变,故将其与文件设为两个单独的概念。“分类号”由中国标准文献分类号来描述该文件的领域类别,并包含用于区分其国际领域的国际标准分类号属性。“人员机构”涵盖了标准文档的提出单位、归口单位、起草单位和主要起草人。“关键词”是索引中用于概括和检索文档内容的词汇,包含提示该词位于文件编号的文档位置属性。标准文档中的范围知识虽然是规范性要素,但也是对核心内容及主题的概括,用来说明该文档的规定内容与适用界限,故分别设立“规定内容”和“适用界限”两个概念。“更新内容”由标准文档中的主要技术变化提炼,用来表述与其所代替文件的内容变动。
技术规则知识概念包括附录、章、条、条款、表格、图片、公式等七个概念。标准文档的正文及附录部分包含大量多层级的规定与规范,这既是标准文档的核心内容,也是与其他科技文献的显著区别。根据文档结构特征,这些规定与规范可依次划分以下概念:描述章级规定内容的“章”概念和与章并列但不便在正文表述的“附录”概念,分别包含章编号和章内容、附录编号和附录内容的属性;描述节级规定内容的“条”概念,包含条编号和条内容属性,并隶属于章概念;描述句子级规定内容的“条款”,包含条款内容属性,并隶属于条概念。条款内容可以使用条文、公式、图片、表格等多种形式,故“图片”“表格”“公式”均属于条款概念的下位概念,分别为规定内容的图形化、表格化、数学公式表述形式,包含图片编号和图片内容、表格编号和表格内容、公式编号和公式内容的属性。
规范实体知识概念包括术语、术语定义、缩略语、符号、对象、能愿、行为等七个概念。术语和定义用来规范标准文档的术语及其必需定义,考虑到部分术语在不同领域中的一词多义现象,以及不同标准文档对同一术语存在改写行为,因此将术语和术语定义列为两个概念。“术语”是指标准文档中需要界定语境理解的领域内关键词语,包含英文名称属性;“术语定义”是对术语内涵的描述,隶属于术语概念,包含注、例两个附加信息属性。“符号”和“缩略语”是对所使用符号和缩略语的说明,分别包含中文名称和英文名称、符号含义的属性。“对象”是规定内容所基于或面向的标准化对象,即规定的施事者或受事者,包含限定该对象范围的限定词属性。“能愿”是规定内容的约束程度,例如宜、应、可能等表示客观的可能性或必然性的能愿动词,包括否定词属性。能愿之所以单独作为概念进行提炼,是因为其是标准条款中必须出现的词语,以明确条款所规定内容的强制性程度。“行为”是规定内容中对对象采取的行动,包含表示行动采取方法的方式和行动开展前提的条件两个属性。
5
标准多粒度知识的语义关联组织
5.1 标准多粒度知识关联模式
知识关联是指人们在创造和利用知识的活动中因其某种内在或外在的联系而使其显示关联的行为及状态。与知识本身所具有的特征对应,知识关联可分为显性关联或隐性关联,显性关联能够被明确认知和描述,而隐性关联需要被挖掘和发现[10]。标准文档是高度浓缩的知识成果集合,其自身的体例结构及行文逻辑蕴涵着大量有价值的语义关联。对于一些标准文档来说,章节的安排顺序可以代表某一事件的流程知识,具体条例的组织逻辑可以推理出实施某一行为的选择或必需条件。本研究着重关注标准文档的原始逻辑与语义信息,基于上述构建的标准多粒度知识概念集来认知其间的复杂语义关联,抽象并总结了四种典型关联模式,分别为层次关联模式、特征关联模式、逻辑关联模式和时空关联模式,如图4所示。基于四种关联模式,可以实现标准文档中相同或不同粒度之间的知识单元互联、推理和发现。
图4 标准知识关联模式
5.1.1 层次关联模式
标准知识的层次关联是概念之间的上下位关联,即包含关系,用来描述标准知识概念的层级体系。标准文档中的层次关联主要来源于知识内容结构,是一种显性知识关联,可由前文的标准多粒度知识概念集得到,具体包括文件与章、附录、术语、关键词、缩略语、符号之间的包含关系;章与条、条款之间的包含关系;条与条、条款之间的包含关系;条款与图片、表格、公式、对象、行为、能愿之间的包含关系;术语与术语定义之间的包含关系。
5.1.2 特征关联模式
标准知识的特征关联是依据标准文档的外部特征所产生的基础元数据关联,能够体现标准文档外部信息要素的标引与互联。这部分的关联类型包括文件与编号的关系是“标准号”,与分类号的关系是“分类号”,与规定内容的关系是“规定”,与适用范围的关系是“适用于”,与更新内容的关系是“更新”;人员机构由提出单位、归口单位、起草单位及起草人的知识实例抽象而来,因此文件与人员机构的关系可分别定义为“提出于”“归口于”“起草于”“起草人”;标准文档之间存在引用、参考、并列(即一个整体文档划分为若干部分)的现象,具体体现于标准文档中的规范性引用文件、参考文献、文件起草所依据的标准、文件与国际文件关系的说明以及文件与其他文件的关系,因此文件概念间分别定义“引用”“参考”“并列”的关系。
5.1.3 逻辑关联模式
标准知识的逻辑关联是隐含于标准成文逻辑中的知识内容关联,是依赖于文档内容挖掘来发现和认知的隐性关联。标准文档的内容编排充分体现着标准制定者的知识体系和规范逻辑,因此在知识重组过程中,遵循标准文档的自身逻辑可以有效避免标准隐含知识的损失,有助于准确把握所需规范的实施环节和条件,预防一知半解情况的发生。首先,由章节间的组织逻辑可以发现:章与条的知识实例之间均存在“并列”“顺承”关系,顺承关系体现在标准文档中总体要求、通用内容等总分结构的章、条设立,以及根据标准化对象的活动进程所设置的、具有先后顺序的章、条;附录实例之间存在“并列”关系;条款实例之间存在“并列”“顺承”“补充”“选择”的关系,补充关系主要由条款中即、示例等字眼引出,或由图片、表格、公式等补充,选择关系表示条款可以选其一满足。其次,由条款的句法分析可知,对象实例之间存在“并列”“选择”关系,即不同对象作为并列或选择短语同时出现在条款中,此时相对于该条款来说,这两个对象实例之间隐含并列或选择关系;对象与能愿之间存在“施事”关系,对象实例作为施事方提出条款的实施必要性条件,即能愿实例;能愿与行为之间存在“约束”关系,体现能愿对行为的约束性程度;能愿、行为均与对象之间存在“受事”关系,即对象实例作为受事方接受能愿实例或行为实例的约束与规定。
5.1.4 时空关联模式
标准知识的时空关联源于标准文档间的知识交叉与共享,是同一概念在时空环境中的变化与关联。时间关联主要体现在标准文档周期性的制定、修改、更新与替代,纵向分析可了解标准知识的动态演化;空间关联主要体现在不同标准制定主体对于标准知识的同一性和差异性认知,横向分析可实现标准知识的静态比对。标准知识的时空关联可从以下三个方面分析:第一,标准文档存在版本迭代更新及新旧标准替代的现象,以保证标准内部的知识水平始终维持在领域前沿,因此,文件概念之间根据文件与代替文件的关系,设立“替代”的关系。第二,在标准制定过程中,若本文档所涉及的术语在该领域内已有定义,则会对该术语定义进行引用,特殊情况下还会根据具体应用场景对该术语进行改写,因此术语定义概念之间存在“改写”关系,同时设立术语定义与文件之间的“来源于”关系,有助于追溯术语的定义来源。除此之外,标准的规定内容也会被共享与重用,因此条、条款、图片、表格、公式与文件之间均设立“来源于”关系。第三,不同标准文档会对同一标准化对象进行不同方面或主题的规定,即一个对象实例可以对应不同的文件实例,故对象与文件之间存在“来源于”关系,以展现同一标准化对象被若干标准文档所规范的情况。
5.2 标准多粒度知识本体模型
本体是一种抽象的概念模型,强调对知识中不同层次的概念及概念间关系进行规范化的语义揭示与描述[33]。本研究在标准知识概念及其关联关系的基础上,提出基于本体的标准多粒度知识组织方法,如图5所示。该本体模型通过知识概念体系使标准文档中的多粒度知识规范化,并定义概念属性及概念间关系来约束数据层中实体、关系和属性的抽取与关联,从而能够对复杂、多源、异构的标准知识及其所包含的深层语义进行有效处理。
图5 标准多粒度知识本体模型
从知识范围和标准类型角度对所构建模型的完备性、科学性和一致性进行论述与评价。首先,现有本体[11,18-19]基本涵盖标准文档中的必备要素,本研究在复用现有本体的基础上,进一步添加可选要素的表示,并深入段落型文本的细粒度单元, 可表示的知识范围广泛,实现本体扩展与优化。其次,标准可分为术语标准、符号标准、分类标准、试验标准、规范标准、规程标准和指南标准,不同功能类型的标准在核心技术要素部分中存在描述内容和形式的不同。经过各种类型的标准查验,本模型适用于不同标准文档的建模,具有一定的广泛性,具体体现在:术语标准、符号标准和分类标准以条目或表格形式进行术语、符号的说明和示例,对该形式的内容进行拆分,可细化成本模型中的术语和符号概念,实现更为精准的知识组织;试验标准、规范标准、规程标准和指南标准多以列项、段落等形式呈现,此类内容可依据本模型的中粒度多层次知识概念进行划分,并通过多类型的知识关联形成有效建模。
本研究进一步通过添加标准多粒度知识的实例来验证该本体模型的良好组织效果。在综合比较多篇标准文档的知识要素完备性后,选取DA/T 68.3—2020《档案服务外包工作规范 第3部分:档案管理咨询服务》作为数据来源,采用人工标注的方式,根据标准多粒度知识本体模型对该文档中的知识概念及其关联进行提取。标注完成后,共获取360个标准知识实例以及1311条关联关系。通过将这些结果存储于Neo4j,所选取标准文档的多粒度知识被完整揭示,各粒度知识之间形成有效的知识层次与关联,最终被表达成富含语义、粒度丰富、联通广泛的知识网络。本研究将以该知识网络为例,在下述内容中根据不同应用场景下的实践案例,对该网络的呈现效果和应用价值进行可视化展现。
5.3 标准多粒度知识组织的实践价值
对标准文档进行多粒度知识组织是为了进一步探索和创新基于标准文档的知识发现与服务,从而加快标准化工作进程、提升标准研判与应用效率。彭国超等[34]梳理了我国80个标准服务网站和20个移动服务平台的数据,得到较为完善的标准服务类目。基于对已有标准服务的了解,本研究从检索、评价、指导三种主要服务方式提出由标准多粒度知识组织支撑的服务场景,并阐述所提出的组织方法在实际标准化活动中的应用能力与价值。
第一,标准多粒度集成知识检索场景。现有标准检索方式仍以文件检索为主,部分平台尝试了面向标准全文的细粒度知识检索,如术语、表格、图片,但未对检索结果进行整合,各类型检索结果较为割裂,无法针对用户需求进行直接回答或直观展示。多粒度知识关联的标准组织方法能够实现个性化的一站式检索,并且细粒度的知识表达“拓展和提高”了用户需求的匹配边界和精度,如以文档中的对象、行为、能愿等知识进行限定搜索,可以精准获取所查询的工作对象或流程在不同约束条件下的规范操作。同时,该方法也实现了不同粒度知识间的关联与集成,使得查询不同粒度知识的关系成为可能。以上述标注的知识实例为例,当用户希望明确档案服务外包工作实施的规范类目时,可通过粗粒度的文件知识和中粒度的章、节知识之间的关系进行检索关联,如图6(1)所示;当用户希望获取对于发包方这一标准化对象的具体规定内容时,可通过细粒度的对象知识与中粒度的条款知识之间的关系进行检索关联,如图6(2)所示。
图6 标准多粒度知识组织的应用示例
第二,标准知识内容合规性评价场景。由于制定主体和标准类别的差异,在标准知识引用或更新的过程中,常常出现知识不一致乃至冲突的现象,这既增加了标准应用的校验工作负担,又提升了生产活动标准化过程中的风险。对于新制定的标准文档或根据标准知识指导生产活动的技术文档,知识内容的合规性审查至关重要。现有服务主要通过人工进行完整性、先进性、一致性和有效性的检验。多粒度知识关联的标准组织方法可以清晰地展现出标准文档中的多粒度知识层级结构与关联脉络,多文档知识联通甚至能够展现领域的知识全貌,这为标准知识的一致性检测和合规性评价提供了可能。对于已有标准文档,可以采用相似度算法对构建的多粒度知识网络进行知识不一致的节点检测,以发现和纠正已有知识库中的知识冲突现象。对于新制定的标准或技术文档,可以通过横、纵向的标准知识比对,审查与文档相关的多粒度知识脉络,来验证该文档的结构合理性、内容完整性与知识新颖性。
第三,标准情报分析与标准化工作指导场景。标准化工作主要围绕标准制定、实施、监管等环节开展,如标准备案协助、标准应用指导、标准体系建设等。多粒度知识关联的标准组织方法将标准文档表达成语义丰富和易于推理的知识网络,有利于开展不同维度的网络特征分析与情报探测,支持和指导标准化工作的开展。一方面,标准的制定与修订工作以建立完善的技术规则和标准体系为目标,需要由领域专家随着业务需求、技术发展变化进行不断地优化完善和维护更新[35]。标准多粒度知识组织能够形成针对标准化对象或领域的动态知识关联网络,图6(3)展现了针对发包方这一标准化对象的细粒度知识网络,可指导领域专家查找已有规定内容的缺失或不足,从而计划并制定或修订标准来完善该领域的标准知识体系。另一方面,基于不同角度的标准知识网络特征计算可以完成多种情报分析工作,更好地指导标准的应用和实施。例如,以技术对象为节点、以文件间替代为关系,可进行领域标准知识的演化规律分析,识别和探测关键技术的发展路径;以人员机构为节点、以文件间引用和参考为关系,可进行标准制定的合作网络与核心机构识别,为标准竞争、标准制定话语权提升提供参考。
6
结语
本研究面向标准文档蕴含的多粒度知识单元,开展多模式、多层次的知识关联分析与组织,形成覆盖标准文档完整内容的知识概念及其关联关系,并构建语义表达完善的标准多粒度知识本体。本研究的主要贡献包括两个方面:首先,本研究所提方法对标准多粒度知识进行了规范化的语义描述,并在知识关联过程中着重关注标准文档的原始逻辑与语义信息,尽可能避免对已有知识的损失或隐含知识的忽视。该方法能够完整揭示标准文档中的多粒度知识单元,形成联通广泛的知识层次与关联,有助于标准知识被有效地获取、共享与重用。其次,本研究面向标准文档开展多粒度知识组织的探索,丰富了文档知识组织的理论与方法体系,拓展了多粒度知识驱动的文档处理与利用方式。知识图谱的组织形式打破了知识依赖文档的固有认知,实现了跨文档的知识联结,但单粒度的知识图谱以提取部分有价值的节点和关系为目标,无法做到文档内容的完整表达,而多粒度知识增强的知识图谱及其服务应是文档知识挖掘、发现和利用的可行趋势之一。
本研究的不足在于以理论探索为主,未针对特定领域或任务进行实证研究,也未形成针对标准多粒度知识组织的技术实现路径和方案,目前采取的人工抽取方式效率较低,且容易产生知识冗余。后续将进一步开展标准多粒度知识图谱的构建流程与自动化技术研究,以适用于标准文档的异构性、多模态、专业化知识内容,达到良好的应用效果,从而形成面向标准领域的全局知识视图,支撑数字化环境下的标准应用、实施和管理。
参考文献
作者简介
*原文载于《信息资源管理学报》2024年第4期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
范昊,王一帆.知识关联视角下标准文档的多粒度知识组织方法研究[J].信息资源管理学报,2024,14(4):133-145.
往期 · 推荐
制版编辑 | 周凡倩
审核 | 于 媛
长按识别二维码关注我们
信息资源管理学报
分享、在看与点赞
只要你点,我们就是朋友😊