本文内容来源于《测绘通报》2024年第9期,审图号:GS京(2024)1659号
马浩然, 王金华
关键词:地理命名实体识别, 深度学习, 特征学习, 模型融合
摘要 :地理命名实体识别是地理信息抽取的核心任务,而地理信息抽取支撑着地理信息系统的构建。但目前的地理命名实体识别研究面临两大核心挑战:一是地理领域文本的标注数据稀缺,导致传统依赖大量标注数据的通用模型难以全面捕捉并识别地理文本中所有潜在的命名实体;二是地理数据的标签密度较为稀疏,模型在区分不同地理命名实体时往往无法区分其边界,进而无法精准定位。针对上述问题,本文提出了一种面向地理领域文本特征的命名实体识别算法AM_NER。首先,利用Albert进行词向量训练,该模型是面向小样本的轻量级预训练模型,能够更为全面地学习地理领域的语义信息;然后,设计了名为M_NER的神经元结构,该神经元基于模型融合思想,利用多个模型从不同维度对语义特征进行学习,进而准确识别出命名实体的边界。相较于此前的研究,AM_NER在地理领域数据集中的各项指标提升了2.05%~2.67%。
往期推荐
资讯
○ 南方测绘推荐 | 贵州大学罗俊:顾及邻域局部特征的车载点云城市道路提取
○ 南方测绘推荐 | 自然资源部第一地理信息制图院赵选博士:秦岭(陕西段)植被碳汇时空变化与气候关联性研究
○《测绘学报(英文版)》(JGGS) 成功入选“中国科技核心期刊”!