基于递进式网络的农业命名实体识别模型构建与有效性验证设计

学术   2024-10-16 19:56   北京  

本文节选自:


计洁, 金洲, 王儒敬, 刘海燕, 李志远. 基于递进式卷积网络的农业命名实体识别方法[J]. 智慧农业(中英文), 2023, 5(1): 122-131. doi:10.12133/j.smartag.SA202303001

JI Jie, JIN Zhou, WANG Rujing, LIU Haiyan, LI Zhiyuan. Progressive Convolutional Net Based Method for Agricultural Named Entity Recognition[J]. Smart Agriculture, 2023, 5(1): 122-131. doi:10.12133/j.smartag.SA202303001

官网全文在线阅读

知网阅读

基于递进式网络的农业命名实体识别模型构建与有效性验证设计

1

基于递进式网络的表示融合模型构建与训练

本研究提出一种结合预训练语言模型和递进式卷积网络的命名实体识别方法,使用卷积操作来挖掘预训练语言模型所有编码层的信息,对所有层输出集合进行递进形式的卷积,即将相邻每两层卷积结果继续与集合中下一层输出编码进行卷积融合,直至模型最后一层。将最终融合编码结果作为输入句子的表示再进行后续命名实体识别解码,方法模型如图1所示。

图1   基于递进式网络的表示融合模型整体框架图

Fig. 1   Overall framework of the representation fusion model based on progressive networks

模型结构主要包括表示层、递进式卷积网络和解码层。其中,表示层利用预训练语言模型对输入句子进行编码,将自然语言转换为学习了上下文信息的嵌入表示集合。递进式卷积网络利用卷积层对获得的表示集合进行聚合,卷积模块从第一层开始对相邻两层卷积融合,融合结果作为新的聚合表示继续与下一未卷积层进行卷积融合,故称之为递进式融合。卷积直至表示集合的最后元素,即模型得到的最后一层表示被融合。该操作提取不同维度的语言学信息,获得增强的句子嵌入。增强的嵌入包含模型全层的信息维度,在没有增加外部信息的情况下,使得句子表示包含更丰富的信息。解码层负责对表示解码,利用CRF学习句子嵌入与对应标签之间的关系,并利用维特比算法输出预测的标签序列。

1.1 表示层

表示层用来将自然语言序列编码为向量表示。在表示层使用预训练语言模型编码输入句子,可以获得学习到上下文信息的嵌入表示集合。以BERT为例,表示层结构如图2所示。其中,Trm表示Transformer的Encoder部分。

图2   预训练语言模型表示层

Fig. 2   Pre-trained language model presentation layer

给定预训练语言模型PLM,对输入序列进行编码。预训练语言模型为多层Transformer结构,因此,可以得到句子的表示集合 LS,如公式(1)所示。

   

其中, Li∈Rn×h,i∈{1,2,…,l}表示预训练语言模型第i层编码的句子表示;l是预训练语言模型深度;R 为实数矩阵集;n、h分别表示句子长度和预训练语言模型隐层维度。

预训练语言模型不同层编码的表示侧重点各不相同,所以表示层获得的表示集合包含诸如短语、词法、词序、句子语义等多个维度的语言学信息。因此,表示集合 LS 能够更充分地表示输入句子。

1.2 递进式卷积网络构建

区别于现有方法,本研究设计了递进式卷积网络。递进式卷积网络深度为l-1,每一层结构相同,如图3所示。

图3   递进式卷积网络结构图

Fig. 3   Network structure of progressive convolutional

网络每层由三部分组成:层拼接、卷积层和归一化。其中,层拼接是将前一层的输出的融合表示与当前层的句子嵌入拼接起来得到多维度混合表示拼接后有利于下一步对两者进行卷积操作,如公式(2)所示。

     

卷积层的目的是实现前一层输出的融合表示和当前层句子嵌入的融合。即对于递进式卷积网络第c层的卷积层,其输入为,卷积核为,w和b分别为卷积核的长和宽,输出为Ec 的计算过程如公式(3)所示。

其中,为当前卷积层输出;LRx,y为当前层的句子表示x行y列的元素;矩阵 i行j列的元素;为AR 矩阵x行y列的元素。

通过层连接和卷积层,可以保证融合前后句子嵌入的尺寸大小不变。同时相较于融合之前,融合之后的句子嵌入提取了当前层的特征。对于序列中的某一位置而言,卷积操作可以使得其学习到上下文表示的特点,并且其学习到的上下文范围受到卷积核尺寸的影响。对于命名实体识别而言,命名实体是具有一定跨度的字符序列,对于命名实体中的某一字符,学习实体的其他字符的表示有助于实体识别任务。

归一化层的目的是保证当前层卷积后的句子嵌入能够与卷积之前量级上保持一致,有利于下一层的融合,归一化层也给表示带来非线性变化,提高网络对模型的表达能力。不同于计算机视觉领域用批量归一化(Batch Normalization)对批量里的不同样本的同一特征做归一操作,本研究方法利用层归一化(Layer Normalization),针对单个样本的不同特征做归一操作,不会破坏同一句子上下文中不同词义向量的可比性,更适合自然语言处理任务,有助于模型训练,避免过拟合。如图3所示,给定 Ec,其归一化值 ARc 由公式(4)~(6)计算得到:

其中,第i列的平均数;n为句子长度;为第i列的方差; 和b是可以看出,该归一化方法在句子嵌入的同一隐层维度上进行归一化。

1.3 解码层

解码层负责将2.2节得到的聚合分布表示 ARc 解码为对应的标签序列。为了获得最优标签序列,使用CRF对其进行解码。对于输入的句子序列 S ={s1,s2,…,sn },其对应的标注序列为y ={y1,y2,…,yn },yi ∈Y,Y为命名实体的类别集合。那么由公式(7)计算条件概率。

其中, Q 为概率矩阵,表示标记序列中第i个位置为y i 的概率;A 是状态转移矩阵,表示由标记到标记的概率;Y*是对于输入序列S而言,所有可能的标记序列集合。初始 Q 由通过CRF中的全连接层转化得来, A 则由CRF模型随机初始化得来。概率矩阵 Q 和转移矩阵 A 共同决定如何选择标记序列,得分最大的路径作为最终的结果。

1.4 训练阶段

公式(7)中决定最终标记序列的 Q 和 A 是可学习参数,可通过对模型的训练得到。训练阶段的loss损失函数选择条件概率的对数似然函数,如公式(8)所示。 

在反向传播过程中根据损失函数来不断调整 Q 和 A,最终生成约束标签先后顺序关系的转移矩阵 A;本研究选择Adam优化算法学习模型参数。

当学习到 Q 与 A 矩阵后,在预测阶段,通过维特比算法求解条件概率p(y|S )最大时的标记序列y*作为输入序列的标注,即公式(9)。   


2

模型有效性验证与实验设计

为验证本方法的有效性,分别选择预训练BERT、NEZHA以及BERT-wwm作为模型表示层。这些模型均是具有12层Transformer结构的基础模型。将输入序列通过上述预训练语言模型进行上下文学习得到模型对应的表示层集合,再添加本研究提出的递进式卷积网络模块至预训练语言模型和CRF解码层之间,得到增强的句子聚合表示层进行下一步命名实体识别,观察其评价指标。

2.1 数据获取与评价指标

在公开数据集上,选取人民日报的PeopleDaily命名实体识别数据集和微软亚洲研究院的MSRA命名实体识别数据集。PeopleDaily和MSRA数据集均将命名实体分为人名、地名、组织名三类。数据集被划分为训练集和测试集,相关信息如表1所示。

表1   公开命名实体识别数据集统计信息

Table 1  Public Named Entity Recognition(NER) dataset statistics

在农业领域,缺少公开标注的数据集,于是在现有的农产品本体知识库中人工整理收集数据,构建农产品命名实体识别数据集AgriNER。本体中的概念是对实例的抽象,指向某一类性质相同或相近的实例。因此,本研究将本体中的所有概念、实例统一当作命名实体,信息如表2和表3所示,该任务识别出农产品命名实体,并将其分为五类,分别是农产品类别(Product Class,PC)、农产品实例(Product Instance,PI)、病虫害类别(Disease and Pest Class,DPC)、病虫害实例(Disease and Pest Instance,DPI)和行政区划(Region,RI)。

表2   AgriNER数据集统计信息

Table 2  AgriNER dataset statistics

表3   AgriNER 标注映射表

Table 3  AgriNER annotation mapping table

实验采用BIO标注法对实验数据进行标注。其中,B表示实体的开始,即命名实体的首字符标注为B;I表示实体的其余部分,即命名实体中除首字符的其余字符标记为I;O表示非实体部分,即句子中的非实体字符均标记为O。

为了评价方法在命名实体识别任务数据集上的表现,选取命名实体识别任务常用的评价指标,包括精确率P,召回率R和F1值。F1值为P和R的调和平均数,评价模型的整体性能。

2.2 实验环境与参数设置

实验环境如表4所示,分别以BERT、NEZHA和BERT-wwm作为模型表示层,由于构建的农业语料库相对公开数据集规模较小,该模型先在公开数据集上进行实验测试,同时确定卷积核大小以及预训练模型等超参数。

表4   NER实验环境

Table 4  NER experimental environment

通过多次实验确定模型超参数,如表5所示。此外,根据表示层选择不同,训练轮次epoch大小不同。其中除了当数据集为MSRA,并且表示层选用BERT时,epoch设置为3,其余实验epoch均为5。

表5   NER实验模型超参数

Table 5  NER experimental model hyperparameters







推荐阅读


基于人工智能大模型技术的果蔬农技知识智能问答系统(《智慧农业(中英文)》2023年第4期)


基于联邦学习的粮食供应链隐私数据要素协同计算研究(《智慧农业(中英文)》2023年第4期)


基于Floyd和改进遗传算法的丘陵地区农田遍历路径规划(《智慧农业(中英文)》2023年第4期)


韩佳伟博士团队:多源信息融合下冷链配送车辆碳排放动态预测方法(《智慧农业(中英文)》2024年第4期)





智慧农业微信交流服务群

为方便农业科学领域读者、作者和审稿专家学术交流,促进智慧农业发展,为更好地服务广大读者、作者和审稿人,编辑部建立了微信交流服务群,有关专业领域内的问题讨论、投稿相关的问题均可在群里咨询。入群方法:加小编微信331760296备注:姓名、单位、研究方向,小编拉您进群,机构营销广告人员勿扰。

发布征集







欢迎在我公众号发布科研团队介绍、创新科研成果及相关活动等信息。

智慧农业期刊
《智慧农业(中英文)》是国内外公开发行的农业科学类学术期刊。期刊聚焦农业信息技术发展前沿与热点,刊载和传播国内外最新研究成果,通过搭建高水平学术交流平台,引领学术研究方向,服务行业科学决策,培养高水平创新人才,促进学科发展。
 最新文章