引用格式:
计洁, 金洲, 王儒敬, 刘海燕, 李志远. 基于递进式卷积网络的农业命名实体识别方法[J]. 智慧农业(中英文), 2023, 5(1): 122-131.
Citation:JI Jie, JIN Zhou, WANG Rujing, LIU Haiyan, LI Zhiyuan. Progressive convolutional net based method for agricultural named entity recognition[J]. Smart Agriculture, 2023, 5(1): 122-131.
{ 官网全文在线阅读 }
{ 知网阅读 }
基于递进式卷积网络的农业命名实体识别方法
计洁1,2, 金洲1, 王儒敬1,2*, 刘海燕1,2, 李志远1,2
(1.中国科学院合肥物质科学研究院智能机械研究所,安徽合肥 230031;2.中国科学技术大学,安徽合肥 230026)
摘要: 目前基于预训练语言模型(Pre-trained Language Model,PLM)的命名实体识别的研究在面对农业领域存在的实体命名方式繁杂、实体边界模糊等问题时,仅使用PLM最后一层表示输出,且均从外部引入知识或操作对实体表示进行增强,忽视内部各层本身蕴含语言不同层次的丰富信息。为解决上述问题,提出一种基于递进式卷积网络的命名实体识别方法。该方法首先存储自然句子,通过PLM后得到的每层输出表示;其次以递进式卷积作为全层信息的特征提取手段,对储存的模型中间层输出表示依次卷积。模型将注重全层信息,包括被忽略的浅层输出,而有研究表明靠近输入的模型层输出的句子嵌入包含更多的诸如短语、词组等粗粒度信息,对于边界模糊的农业命名实体识别,更关键的词组界定信息或许就隐含在这些被忽略的浅层嵌入中,可为农业领域存在的命名实体识别问题提供帮助。无需外部信息的引入,充分利用已使用的计算力得到的结果就能增强句子的表示嵌入;最终通过条件随机场(Conditional Random Field,CRF)模型生成全局最优序列。在构建的包含农作物品种、病害、虫害和农药4类农业实体的农业数据集上,所提方法的综合性指标F1值相较于基于Transformer的双向编码表征模型(Bidirectional Encoder Representation from Transformers, BERT) 提升3.61%,在公开数据集上也有较好表现,其中在数据集MSRA上F1值提升至94.96%,说明基于递进式的卷积网络能够增强模型对自然语言的表示能力,在命名实体识别任务上具有优势。
关键词: 农业命名实体识别;预训练语言模型;卷积网络;表示聚合;深度学习
1
引 言
随着农业信息化水平的提高,网络中的农业数据也以指数规模增长,利用这些数据可以对知识问答、知识图谱构建等农业知识服务进行研究。在非结构化文本占大多数的农业数据中识别出有意义的名词或短语并加以归类,如农作物品种、病害、虫害和农药名称等,即农业命名实体识别,是上述知识服务的关键性环节,也是后续获取高质量的语义知识、进行农业信息抽取与语义检索的支撑。提升命名实体识别(Named Entity Recognition,NER)的准确率可以有效地为农业领域进行知识服务,让农业决策者、生产经营者及科研人员及时准确地获取到覆盖完整、高度相关的信息,提升农业整体发展水平。
预训练的出现给自然语言处理带来新的生机,现较有效的命名实体识别方法均基于预训练语言模型实现。特别地,基于Transformer的双向编码表征(Bidirectional Encoder Representation from Transformers, BERT)模型近些年被广泛应用到开放领域和垂直领域的命名实体识别中。BERT模型是由多层Transformer堆叠而成的深度模型,具有学习上下文信息的编码能力。这些语言模型利用注意力机制学习上下文信息,将自然语言转换为语义信息丰富的句子嵌入。利用这种特性,杨飘和董文永提出使用BERT来优化传统的双向门控循环单元+条件随机场(Bidirectional Gating Recurrent Unit + Conditional Random Field , BiGRU + CRF)方法,实现中文命名实体识别。Gan等将BERT结合双向长短期记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)和条件随机场(Conditional Random Field,CRF),Gao等则将此种框架结合成中文命名实体识别算法模型,应用于CCKS2020电子病历数据集的处理。Chang等同时使用BiLSTM和迭代膨胀卷积神经网络(Iterated Dilated Convolutional Neural Networks,IDCNN)对句子嵌入做特征提取,再将两种提取的特征行融合,获得表示能力更强的句子嵌入。Li等在BERT输入引入外部实体知识,将传统的lattice结构展开为平面结构。另一方面,一些工作关注于如何从模型输入端增强句子中实体之间的关联性。琚天根等提出了基于关联记忆网络的中文命名实体识别方法。Wang等提出将搜索引擎查询获得的与输入句子匹配度较高的文本和输入句子一起经过预训练语言模型获得嵌入,实现实体表示增强的效果。Nie等提出利用键值记忆网络进行信息编码。
在农业领域,存在实体名称组成繁杂、长度较长、词语边界模糊、罕见词识别率低等问题。但上述的命名识别方法都侧重于引入外部知识或者操作来增强句子特征,以增加下游模型复杂度来换取精度的提升,对增强信息进行舍近求远的操作;同时在对齐外部引入数据时使得模型通用性较差。而相关研究表明,BERT每一层能够学习到不同维度的语言学信息:靠近输入的Transformer层输出的句子嵌入包含更多的诸如短语、词组等信息;更深的编码层会偏向句子的语义信息。对于农业命名实体识别而言,短语、句法等更粗粒度的信息可能会更有用。若在使用时只提取预训练语言模型的最后一层表示,可能会错过更利于命名实体识别的浅层信息。例如,关于农业知识图谱问答中,用户问句往往较为简短,拥有典型句子成分。如用户问句“小麦白粉病会发生于哪些作物上?”中,“小麦”和“白粉病”都可以视为独立的实体,而在农业领域中理解此问句时,更希望得到“小麦白粉病”这一完整的命名实体。因此,对于农业知识图谱问答中的命名实体识别任务来说,利用粗粒度的语言信息会更好地把握具有较长名称的农业实体名称,发挥重要作用。如果仅提取预训练语言模型的最后一层表示,可能会错过这些更利于命名实体识别的浅层信息。特别是对于边界模糊的农业命名实体识别任务,更关键的词组界定信息或许就隐含在这些被忽略的浅层嵌入中。因此,只使用最后一层输出当作句子表示是存在一定缺陷的。
在机器翻译领域,Zhang等提出BERT-JAM模型对BERT多层进行融合。BERT-JAM首先给模型各层赋予可训练的权重,然后利用门控单元对各层表示进行选择。另外,Su和Cheng提出一种基于Squeeze和Excitation的BERT多层表示加权的模型SesameBERT,在句子分类和自然语言推断等多个数据集上有提升效果。但在命名实体识别领域针对预训练语言模型的多层表示融合研究较少。
2
基于递进式网络的表示融合模型构建与训练
本研究提出一种结合预训练语言模型和递进式卷积网络的命名实体识别方法,使用卷积操作来挖掘预训练语言模型所有编码层的信息,对所有层输出集合进行递进形式的卷积,即将相邻每两层卷积结果继续与集合中下一层输出编码进行卷积融合,直至模型最后一层。将最终融合编码结果作为输入句子的表示再进行后续命名实体识别解码,方法模型如图1所示。
图1 基于递进式网络的表示融合模型整体框架图
Fig. 1 Overall framework of the representation fusion model based on progressive networks
模型结构主要包括表示层、递进式卷积网络和解码层。其中,表示层利用预训练语言模型对输入句子进行编码,将自然语言转换为学习了上下文信息的嵌入表示集合。递进式卷积网络利用卷积层对获得的表示集合进行聚合,卷积模块从第一层开始对相邻两层卷积融合,融合结果作为新的聚合表示继续与下一未卷积层进行卷积融合,故称之为递进式融合。卷积直至表示集合的最后元素,即模型得到的最后一层表示被融合。该操作提取不同维度的语言学信息,获得增强的句子嵌入。增强的嵌入包含模型全层的信息维度,在没有增加外部信息的情况下,使得句子表示包含更丰富的信息。解码层负责对表示解码,利用CRF学习句子嵌入与对应标签之间的关系,并利用维特比算法输出预测的标签序列。
2.1 表示层
表示层用来将自然语言序列编码为向量表示。在表示层使用预训练语言模型编码输入句子,可以获得学习到上下文信息的嵌入表示集合。以BERT为例,表示层结构如图2所示。其中,Trm表示Transformer的Encoder部分。
图2 预训练语言模型表示层
Fig. 2 Pre-trained language model presentation layer
给定预训练语言模型PLM,对输入序列进行编码。预训练语言模型为多层Transformer结构,因此,可以得到句子的表示集合LS,如公式(1)所示。
其中,Li∈ Rn×h,i∈{1,2,…,l}表示预训练语言模型第i层编码的句子表示;l是预训练语言模型深度;R为实数矩阵集;n、h分别表示句子长度和预训练语言模型隐层维度。
预训练语言模型不同层编码的表示侧重点各不相同,所以表示层获得的表示集合包含诸如短语、词法、词序、句子语义等多个维度的语言学信息。因此,表示集合LS能够更充分地表示输入句子。
2.2 递进式卷积网络构建
区别于现有方法,本研究设计了递进式卷积网络。递进式卷积网络深度为l-1,每一层结构相同,如图3所示。
图3 递进式卷积网络结构图
Fig. 3 Network structure of progressive convolutional
网络每层由三部分组成:层拼接、卷积层和归一化。其中,层拼接是将前一层的输出的融合表示ARi-1∈ Rn×h与当前层的句子嵌入Li∈ Rn×h拼接起来得到多维度混合表示MRi∈ R2×n×h,i∈{1,2,…,l}。拼接后有利于下一步对两者进行卷积操作,如公式(2)所示。
卷积层的目的是实现前一层输出的融合表示ARi-1和当前层句子嵌入Li的融合。即对于递进式卷积网络第c层的卷积层,其输入为MRi,卷积核为kc∈R2×w×b×1,w和b分别为卷积核的长和宽,输出为Eci,j∈Rw×b。Ec的计算过程如公式(3)所示。
其中,Ec∈Rw×b为当前卷积层输出;LRx,y为当前层的句子表示x行y列的元素;Ei,jc为Ec矩阵 i行j列的元素;ARx,y为AR 矩阵x行y列的元素。
通过层连接和卷积层,可以保证融合前后句子嵌入的尺寸大小不变。同时相较于融合之前,融合之后的句子嵌入提取了当前层的特征。对于序列中的某一位置而言,卷积操作可以使得其学习到上下文表示的特点,并且其学习到的上下文范围受到卷积核尺寸的影响。对于命名实体识别而言,命名实体是具有一定跨度的字符序列,对于命名实体中的某一字符,学习实体的其他字符的表示有助于实体识别任务。
归一化层的目的是保证当前层卷积后的句子嵌入能够与卷积之前量级上保持一致,有利于下一层的融合,归一化层也给表示带来非线性变化,提高网络对模型的表达能力。不同于计算机视觉领域用批量归一化(Batch Normalization)对批量里的不同样本的同一特征做归一操作,本研究方法利用层归一化(Layer Normalization),针对单个样本的不同特征做归一操作,不会破坏同一句子上下文中不同词义向量的可比性,更适合自然语言处理任务,有助于模型训练,避免过拟合。如图3所示,给定Ec,其归一化值ARc由公式(4)~(6)计算得到:
其中,ui为Ec第i列的平均数;n为句子长度;σi为第i列的方差;gi和b是可训练参数。可以看出,该归一化方法在句子嵌入的同一隐层维度上进行归一化。
2.3 解码层
解码层负责将2.2节得到的聚合分布表示ARc解码为对应的标签序列。为了获得最优标签序列,使用CRF对其进行解码。对于输入的句子序列S={s1,s2,…,sn},其对应的标注序列为y ={y1,y2,…,yn},yi∈Y,Y为命名实体的类别集合。那么由公式(7)计算条件概率。
其中,Q为概率矩阵,Qi,yi表示标记序列中第i个位置为yi的概率;A是状态转移矩阵,Ayi,yi+1表示由标记yi到标记yi+1的概率;Y*是对于输入序列S而言,所有可能的标记序列集合。初始Q由通过CRF中的全连接层转化得来,A则由CRF模型随机初始化得来。概率矩阵Q和转移矩阵A共同决定如何选择标记序列,得分最大的路径作为最终的结果。
2.4 训练阶段
公式(7)中决定最终标记序列的Q和A是可学习参数,可通过对模型的训练得到。训练阶段的loss损失函数选择条件概率的对数似然函数,如公式(8)所示。
在反向传播过程中根据损失函数来不断调整Q和A,最终生成约束标签先后顺序关系的转移矩阵A;本研究选择Adam优化算法学习模型参数。
当学习到Q与A矩阵后,在预测阶段,通过维特比算法求解条件概率p(y|S)最大时的标记序列y*作为输入序列的标注,即公式(9)。
3
模型有效性验证与实验设计
为验证本方法的有效性,分别选择预训练BERT、NEZHA以及BERT-wwm作为模型表示层。这些模型均是具有12层Transformer结构的基础模型。将输入序列通过上述预训练语言模型进行上下文学习得到模型对应的表示层集合,再添加本研究提出的递进式卷积网络模块至预训练语言模型和CRF解码层之间,得到增强的句子聚合表示层进行下一步命名实体识别,观察其评价指标。
3.1 数据获取与评价指标
在公开数据集上,选取人民日报的PeopleDaily命名实体识别数据集和微软亚洲研究院的MSRA命名实体识别数据集。PeopleDaily和MSRA数据集均将命名实体分为人名、地名、组织名三类。数据集被划分为训练集和测试集,相关信息如表1所示。
表1 公开命名实体识别数据集统计信息
Table 1 Public Named Entity Recognition(NER) dataset statistics
在农业领域,缺少公开标注的数据集,于是在现有的农产品本体知识库中人工整理收集数据,构建农产品命名实体识别数据集AgriNER。本体中的概念是对实例的抽象,指向某一类性质相同或相近的实例。因此,本研究将本体中的所有概念、实例统一当作命名实体,信息如表2和表3所示,该任务识别出农产品命名实体,并将其分为五类,分别是农产品类别(Product Class,PC)、农产品实例(Product Instance,PI)、病虫害类别(Disease and Pest Class,DPC)、病虫害实例(Disease and Pest Instance,DPI)和行政区划(Region,RI)。
表2 AgriNER数据集统计信息
Table 2 AgriNER dataset statistics
表3 AgriNER 标注映射表
Table 3 AgriNER annotation mapping table
实验采用BIO标注法对实验数据进行标注。其中,B表示实体的开始,即命名实体的首字符标注为B;I表示实体的其余部分,即命名实体中除首字符的其余字符标记为I;O表示非实体部分,即句子中的非实体字符均标记为O。
为了评价方法在命名实体识别任务数据集上的表现,选取命名实体识别任务常用的评价指标,包括精确率P,召回率R和F1值。F1值为P和R的调和平均数,评价模型的整体性能。
3.2 实验环境与参数设置
实验环境如表4所示,分别以BERT、NEZHA和BERT-wwm作为模型表示层,由于构建的农业语料库相对公开数据集规模较小,该模型先在公开数据集上进行实验测试,同时确定卷积核大小以及预训练模型等超参数。
通过多次实验确定模型超参数,如表5所示。此外,根据表示层选择不同,训练轮次epoch大小不同。其中除了当数据集为MSRA,并且表示层选用BERT时,epoch设置为3,其余实验epoch均为5。
表4 NER实验环境
Table 4 NER experimental environment
表5 NER实验模型超参数
Table 5 NER experimental model hyperparameters
4
实验结果分析与讨论
4.1 公开数据集实验结果分析
实验均分别重复3次,取平均值作为实验结果,以中和模型参数随机初始化的影响,结果如表6所示。其中选取的BERT-BiLSTM可作为BERT与原先深度神经网络进行结合的基线模型,而Sesame和JAM模型是采用另外两种多层表示聚合模型。
表6 模型在公开数据集NER试验结果对比——以BERT为基础预训练模型
Table 6 Comparison of the NER experimental results on public datasets — based on BERT
注:P为精确率,R为召回率,F1值为P和R的调和平均数
从表6中可以发现,本研究提出的基于递进式卷积网络的命名实体识别方法在PeopleDaily和MSRA数据集上的F1值均高于其他模型,并且其表现整体优于Sesame和JAM多层表示融合模型。相较于BERT模型,本方法在PeopleDaily数据集上的F1提升0.51%,在MSRA数据集上F1提升0.84%。实验结果表明,本方法能够一定程度上增强模型对自然语言的表示能力,提升模型在命名实体识别任务上的准确率。
表7和表8分别是基于NEZHA和BERT-wwm模型的实验结果。可以看出,本研究的递进式卷积网络融合方法在NEZHA和BERT-wwm上有显著效果。其中,基于NEZHA模型在PeopleDaily数据集上F1提升0.19%,在MSRA数据集上F1提升0.23%;基于BERT-wwm语言模型在PeopleDaily数据集上F1提升0.24%,在MSRA数据集上F1提升0.53%。从实验结果可以看出,本方法不仅对BERT模型有效,对于与BERT有相同结构的预训练语言模型有相同的作用。
表7 模型在公开数据集NER试验结果对比——以NEZHA为基础预训练模型
Table 7 Comparison of the NER experimental results on public datasets — based on NEZHA
表8 模型在公开数据集NER试验结果对比——以BERT-wwm为基础预训练模型
Table 8 Comparison of the NER experimental results on public datasets — based on BERT-wwm
4.1.1 对不同表示层的影响分析
从表6~8的实验结果可以发现,本方法在BERT上的成绩提升效果明显优于在BERT-wwm和NEZHA模型上的成绩提升,如图4所示。这种差异性取决于语言模型自身特点:BERT-wwm和NEZHA模型是在BERT模型的基础上,采用全词掩码进行改进,并且NEZHA在注意力矩阵中添加了相对位置编码。从信息论的角度出发,BERT-wwm和NEZHA在BERT基础上的优化,增强了模型对信息的编码能力,从而降低了编码过程的不确定性,减少了表示聚合能增强的信息量,因此三者通过递进式卷积网络实现的表示聚合的效果提升有上述层次差异。
图4 公开数据集NER实验不同模型F1值提升对比
Fig. 4 Comparison of F1 values of different models in the NER experiment on the public datasets
4.1.2 不同融合方法对比
从实验结果中可以发现,Sesame模型和JAM模型的实验结果均差于原模型,其中JAM模型在融合解码器每层表示时只简单进行线性组合,更多的是借鉴门控网络调节选择流向下一层的信息量,需要自行学习权重;Sesame则用挤压融合和激励操作获取BERT各层的权重因子,按照权重对全层输出进行加权获得最终表示。上述两种BERT的多层表示融合方法的核心思想均是通过对BERT各层进行加权,进而融合加权后的各层分布式表示,将权重的学习也交付给模型本身进行。权重根据BERT各层在下游任务数据上表现能力,强化更能适应任务的中间层表示,弱化不重要的中间层。但强化或弱化某一中间层全部的分布式表示,在某种程度上还是忽略了一部分信息。而本研究提出的融合方法平均保留了全层的信息,相对限制了模型的学习自由度,强制模型重视每层信息,能够更好地聚合预训练语言模型的各层嵌入,更多地挖掘模型在大规模语料上学习到的语言特性。
4.1.3 卷积操作以及核尺寸影响
为了探索卷积层中卷积操作以及核尺寸对于模型的影响,实验以BERT作为表示层,进行了当卷积核尺寸为5×768的实验。其中,768表示BERT的隐层维度。本研究选取该卷积核尺寸的原因在于,在分类等自然语言处理任务中,这种尺寸的卷积核有较好的效果。实验结果如表9所示,表中参数量为在BERT的原参数量110 M的增加量,Te表示单轮次训练时间,表格第一行为BERT模型的实验记录。
表9 实验卷积操作以及核尺寸影响
Table 9 Convolution operations and kernel size effects
实验结果表明,小尺寸的卷积核更适用于本方法。首先,大尺寸的卷积核在F1值上没有提升,说明没有实现有效的表示聚合。其次,由于卷积核尺寸的增大,大尺寸的卷积层参数量更大,因此需要更多的训练时间。所以,本研究提出的递进式卷积网络在命名实体识别任务上更适合采用小尺寸卷积核。与BERT模型相比,本模型未有显著的时间和空间需求增加,可见增加递进卷积模块后的模型空间复杂度以及时间复杂度在可承受范围。
4.2 农产品数据集实验
由4.1节实验及结果分析可以知道,以预训练语言模型BERT为基线的模型性能提升最有效,且卷积核尺寸对模型F1值有明显作用,因此,农产品命名实体识别以BERT为基线实验,分别设置不同尺寸卷积核进行实验以分析本方法的作用,实验结果如表10。
表10 AgriNER数据集实验结果
Table 10 AgriNER experimental results
4.2.1 农产品命名实体识别实验结果分析
实验发现,本方法相比于传统方法能够显著提升模型R和F1值。首先,当卷积核尺寸为5×5时,F1值提升最大,且当卷积核尺寸为3×3 时,F1值最小,但是优于传统方法。R在公开数据集上也表现出同样情况。其次,可以发现本方法对P存在影响。当卷积核尺寸越大时,P值越小,但是降低幅度小于R的提升幅度。
4.2.2 不同类别命名实体上的表现分析
为了分析模型在不同类别命名实体上的表现,本研究统计了模型在AgriNER数据集上各个实体类别的评价指标,发现R和P情况与F1值相似,故选取F1值进行说明。F1值统计结果如表11所示,传统方法BERT在各类实体上的指标值波动较大(53.73~98.69),且对行政区划实体F1值最高,对农产品类别F1值最低。其次,本方法当卷积核尺寸为5×5时,F1值在各类实体上的指标波动最小(71.60~98.87),且对行政区划实体F1值最高,对农产品类别实体F1值最低。此外,对于所有模型,对农产品类别实体的F1值都是最低的。造成这种情况的原因是农产品类别和农产品实例的实体相似度较高。比如“豌豆类”是一个农产品类别,包括的农产品实例有“豌豆”“鲜豌豆米”“荷兰豆”等。同样的,病虫害类别的F1值也整体低于病虫害实例F1值也是相同原因。
通过实验结果分析可看出,本方法不仅优于传统基于BERT的命名实体识别方法,也优于当前基于BERT模型的其余各种融合方法。其中,卷积核尺寸对模型影响较为明显,当卷积核尺寸取中间值5×5时,模型表现最佳,稳定性最强。因此可以得出结果,本方法能够有效地增强预训练语言模型对于命名实体的表示和识别能力,且卷积核尺寸不应当过大或过小。
表11 AgriNER数据集各类实体NER实验F1值比较
Table 11 Comparison of F1 values for NER experiments of various entities on the AgriNER datasets
注:农产品类别(Product Class,PC)、农产品实例(Product Instance,PI)、病虫害类别(Disease and Pest Class,DPC)、病虫害实例(Disease and Pest Instance,DPI)和行政区划(Region,RI)
4.2.3 分析标记数据对实验评估性能影响
5
结 论
但在非嵌套型实体名称的长度上,模型融合了过多浅层信息,在上下文语义信息的获取上还有提升空间。由于语义信息也可作为实体名称长度截断点选取的重要参考信息,在以后的研究中可以进一步思考如何在保持浅层信息融合的同时对深层信息进行增强。
利益冲突声明:本研究不存在研究者以及与公开研究成果有关的利益冲突。
推荐阅读
智慧农业微信交流服务群
发布征集
欢迎在我公众号发布科研团队介绍、创新科研成果及相关活动等信息。