↑点开查看清晰大图
综述
✦ 抽象语义表示解析方法研究综述
作 者:尹 华,卢懿亮,季跃蕾,吴梓浩,彭亚男
摘 要:句子级语义分析是自然语言处理(NLP)的核心任务,面临复杂语义的表示问题。抽象语义表示(AMR)突破浅层局限,实现了领域无关的整句通用语义表示,具备准确表征句子完整语义的能力。因为AMR解析效果会影响下游NLP任务的表现,所以解析方法成为近年的国内外研究热点。由于时效性因素,既有AMR综述未涉及新涌现的解析方法,亟需深度聚焦其前沿文献。该文首先采用CiteSpace工具分析了AMR的总体研究情况。相比英文AMR解析研究,中文AMR解析研究成果数量相对较少,尚有较大的发展空间。进而分析了AMR语料库发展和AMR解析面临的概念和概念关系识别、对齐以及融入结构信息等问题。根据不同的解析策略将解析方法分为4类,以问题为驱动,剖析了各类AMR解析方法的演进。最后,选择21个英文AMR解析器、7个中文AMR解析器,比较分析Smatch等各项实验指标。归纳实验结果发现,现有模型在学习复杂多语义关系方面亟待加强。该文通过理论和实证分析为研究者提供AMR解析方法的发展脉络和研究思路。
关键词:抽象语义表示;解析方法;语料库;自然语言处理
引用格式:尹华,卢懿亮,季跃蕾,吴梓浩,彭亚男. 抽象语义表示解析方法研究综述[J]. 中文信息学报. 2024, 38(3): 1-23
YIN Hua, LU Yiliang, JI Yuelei, WU Zihao, PENG Ya'nan. Survey on Abstract Meaning Representation Parsing[J]. Journal of Chinese Information Processing. 2024, 38(3): 1-23
全文链接:点击下载
语言分析与计算
✦ SaGE: 基于句法感知图卷积神经网络和ELECTRA的中文隐喻识别模型
作 者:张声龙,刘 颖,马艳军
摘 要:隐喻是人类语言中经常出现的一种特殊现象,隐喻识别对于自然语言处理各项任务来说具有十分基础和重要的意义。针对中文领域的隐喻识别任务,该文提出了一种基于句法感知图卷积神经网络和ELECTRA的隐喻识别模型(Syntax-aware GCN with ELECTRA, SaGE)。该模型从语言学出发,使用ELECTRA和Transformer编码器抽取句子的语义特征,将句子按照依存关系组织成一张图并使用图卷积神经网络抽取其句法特征,在此基础上对两类特征进行融合以进行隐喻识别。该模型在CCL 2018中文隐喻识别评测数据集上以85.22%的宏平均F1值超越了此前的最佳成绩,验证了融合语义信息和句法信息对于隐喻识别任务具有重要作用。
关键词:隐喻识别;ELECTRA;图卷积神经网络;依存句法
引用格式:张声龙,刘颖,马艳军. SaGE: 基于句法感知图卷积神经网络和ELECTRA的中文隐喻识别模型[J]. 中文信息学报. 2024, 38(3): 24-32
全文链接:点击下载
民族、跨境及周边语言信息处理
✦ 面向机器阅读理解的高质量藏语数据集构建
作 者:孙 媛,刘思思,陈超凡,旦正错,赵小兵
摘 要:机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但对于低资源语言,由于缺乏相应的数据集,机器阅读理解研究尚处于起步阶段。该文以藏语为例,人工构建了藏语机器阅读理解数据集(TibetanQA),其中包含20 000个问题答案对和1 513篇文章。该数据集的文章均来自云藏网,涵盖了自然、文化和教育等12个领域,问题形式多样且具有一定的难度。另外,该数据集在文章收集、问题构建、答案验证、回答多样性和推理能力等方面,均采用严格的流程以确保数据的质量,同时采用基于语言特征消融输入的验证方法说明了数据集的质量。最后,该文初步探索了三种经典的英语阅读理解模型在TibetanQA数据集上的表现,其结果难以媲美人类,这表明藏语机器阅读理解任务还需要更进一步的探索。
关键词:机器阅读理解;低资源语言;藏语;数据集
引用格式:孙媛,刘思思,陈超凡,旦正错,赵小兵. 面向机器阅读理解的高质量藏语数据集构建[J]. 中文信息学报. 2024, 38(3): 56-64
全文链接:点击下载
✦ 基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取
作 者:于 韬,拥 措,高 兴,尼玛扎西
摘 要:实体关系联合抽取任务旨在识别命名实体的同时可抽取实体间的语义关系。该文提出了一种基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取方法,针对基于序列标注的联合抽取方法中标注策略的局限性及特征单一、模型学习能力有限的问题,提出以下解决方案:①使用嵌套实体标注策略突破原有标注方法的局限;②使用类别特征静态融合、多特征动态融合方法及奖惩机制分别用于特征增强及模型优化。实验结果表明,该文方法提升了藏医药领域联合抽取模型的效果,模型最终的F1值为79.23%。同时,为了证明该文模型的鲁棒性及有效性,还在SKE及NYT领域数据上进行了相关实验,实验结果验证该模型的有效性,且优于基线方法。
关键词:藏医药;实体关系;联合抽取;多特征融合;奖惩机制
引用格式:于韬,拥措,高兴,尼玛扎西. 基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取[J]. 中文信息学报. 2024, 38(3): 65-74,83
全文链接:点击下载
✦ 基于指针标注的跨境民族文化实体关系抽取方法
作 者:杨振平,毛存礼,雷雄丽,黄于欣,张勇丙
摘 要:跨境民族文化领域文本中存在较多的领域词汇,使得模型提取领域信息困难,造成上下文领域信息缺失,在该领域中实体密度分布高,面临实体关系重叠的问题。考虑到领域信息对跨境民族文化文本语义表征有着重要的作用,该文提出一种基于指针标注的跨境民族文化实体关系抽取方法,在字符向量表示中融入领域词典信息来增强领域信息用于解决领域实体标注不准确问题,通过多层指针标注解决跨境民族文化领域实体关系重叠问题。实验结果表明,在跨境民族文化实体关系抽取数据集上所提出方法相比于基线方法的F1值提升了2.34%。
关键词:跨境民族文化;实体关系抽取;指针标注;领域词典信息
引用格式:杨振平,毛存礼,雷雄丽,黄于欣,张勇丙. 基于指针标注的跨境民族文化实体关系抽取方法[J]. 中文信息学报. 2024, 38(3): 75-83
全文链接:点击下载
✦ 融合领域知识图谱的跨境民族文本聚类方法
作 者:陈春吉,毛存礼,张勇丙,黄于欣,高盛祥,郝鹏鹏
摘 要:跨境民族文本聚类任务旨在建立跨境民族不同文本间的关联关系,为跨境民族文本检索、事件关联分析提供支撑。但是跨境民族间文化文本表达差异大,加上文化表达背景缺失,导致跨境民族文本聚类困难。基于此,该文提出了融合领域知识图谱的跨境民族文本聚类方法,首先融入跨境民族领域知识图谱,实现对跨境民族文本数据的文化背景知识补充及实体语义关联,从而获得文本的增强局部语义;同时考虑到跨境民族文本数据中全局语义信息的重要性,采用异构图注意力网络提取文本、主题、领域关键词之间的全局特征信息;最后利用变分自编码网络进行局部信息和全局信息的融合,并利用学习到的潜在特征表示进行聚类。实验表明,提出方法较基线方法Acc提升11.4%,NMI提升1%,ARI提升9.4%。
关键词:跨境民族;知识图谱;文本聚类;异构图注意力网络
引用格式:陈春吉,毛存礼,张勇丙,黄于欣,高盛祥,郝鹏鹏. 融合领域知识图谱的跨境民族文本聚类方法[J]. 中文信息学报. 2024, 38(3): 84-92
全文链接:点击下载
信息抽取与文本挖掘
✦ 基于跨证据文本实体关系构建的事实核查研究
作 者:贺彦程,徐 冰,朱聪慧
摘 要:事实核查是指基于证据文本的虚假信息检测任务,目前已有的研究方法主要是将声明文本与证据文本拼接后输入预训练模型进行分类判断,或者通过单一节点的全连接图进行推理判断。这些方法忽略了证据文本间的远距离语义关联和其包含的噪声干扰。针对以上问题,该文提出了一种基于跨证据文本实体关系的图卷积神经网络模型(Cross-Evidence Entity Relation Reasoning Model,CERM)。该模型以多个证据文本的实体共现关系为基础,聚合不同实体对象的语义结构信息,同时减小噪声信息干扰,有效提升模型的虚假信息判别能力。实验结果证明,在公开数据集上该文提出的方法在通用评测指标上均优于现有的对比模型,验证了CERM模型在事实核查研究任务上的有效性。
关键词:事实核查;图卷积神经网络;实体关系
引用格式:贺彦程,徐冰,朱聪慧. 基于跨证据文本实体关系构建的事实核查研究[J]. 中文信息学报. 2024, 38(3): 93-101,112
全文链接:点击下载
✦ 基于预训练的谷歌搜索结果判定
作 者:张恩伟,胡 凯, 卓俊杰,陈志立
摘 要:对搜索引擎返回的结果进行初步判定有利于优化语义搜索过程,提高搜索的准确性和效率。谷歌搜索引擎在所有的搜索引擎中占据主导地位,然而其返回的结果往往非常复杂,目前并没有有效的方法能够对搜索页面的结果做出准确的判断。针对以上问题,该文从数据特征和模型结构设计出发,制作了一个适用于谷歌搜索结果判定的数据集,接着基于预训练模型设计了一种双通道模型(DCFE)用于实现对谷歌搜索结果的判定。该文提出的模型在自建数据集上的准确率可以达到85.74%,相较于已有的模型拥有更高的精度。
关键词:谷歌搜索;预训练;深度学习
引用格式:张恩伟,胡凯,卓俊杰,陈志立. 基于预训练的谷歌搜索结果判定[J]. 中文信息学报. 2024, 38(3): 102-112
全文链接:点击下载
✦ 融合动态掩码注意力与多教师多特征知识蒸馏的文本分类
作 者:王润周,张新生,王明虎
摘 要:知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此,该文提出一种融合动态掩码注意力机制与多教师多特征知识蒸馏的文本分类模型,不仅引入多种教师模型(RoBERTa、Electra)的知识源,还兼顾不同教师模型在多个特征层的语义信息,并通过设置动态掩码模型注意力机制使得蒸馏过程动态关注不等长数据,减少无用填充信息的干扰。在4种公开数据集上的实验结果表明,经过蒸馏后的学生模型(TinyBRET)在预测性能上均优于其他基准蒸馏策略,并在采用教师模型1/10的参数量、约1/2的平均运行时间的条件下,取得与两种教师模型相当的分类结果,平均准确率仅下降4.18%和3.33%,平均F1值仅下降2.30%和2.38%。其注意力热度图也表明动态掩码注意力机制切实加强关注了数据尾部与上下文信息。
关键词:动态掩码注意力;多教师多特征;知识蒸馏;文本分类
引用格式:王润周,张新生,王明虎. 融合动态掩码注意力与多教师多特征知识蒸馏的文本分类[J]. 中文信息学报. 2024, 38(3): 113-129
全文链接:点击下载
自然语言理解与生成
✦ 基于小句复合体的中文机器阅读理解研究
作 者:王瑞琦,罗智勇, 刘 祥,韩瑞昉,李舒馨
摘 要:机器阅读理解任务要求机器根据篇章文本回答相关问题。该文以抽取式机器阅读理解为例,重点考察当问题的线索要素与答案在篇章文本中跨越多个标点句时的阅读理解问题。该文将小句复合体结构自动分析任务与机器阅读理解任务融合,利用小句复合体中跨标点句话头-话体共享关系,来降低机器阅读理解任务的难度;并设计与实现了基于小句复合体的机器阅读理解模型。实验结果表明,在问题线索要素与答案跨越多个标点句时,答案抽取的精确匹配率(EM)相对于基准模型提升了3.49%,模型整体的精确匹配率提升了3.26%。
关键词:机器阅读理解;跨标点句问答;小句复合体
引用格式:王瑞琦,罗智勇,刘祥,韩瑞昉,李舒馨. 基于小句复合体的中文机器阅读理解研究[J]. 中文信息学报. 2024, 38(3): 130-140
全文链接:点击下载
✦ 基于技能网络的通用自然语言生成模型
作 者:廖俊伟,程 帅
摘 要:使用多任务训练的自然语言生成模型仅使用一个模型即可完成各种不同的自然语言生成任务。但这种所有任务共享所有参数的模型,无法清楚地知道模型的每一部分参数学到了什么技能。为了根据不同的任务选择激活不同的模型参数,该文提出了一种基于稀疏激活的通用自然语言生成模型(SkillNet-NLG)。与传统的稠密模型在执行任务时激活所有的模型参数不同,SkillNet-NLG在执行任务时,首先依据任务预先定义一组完成任务所需要的技能,然后根据定义的技能选择性地激活与技能相关的模型参数。这种模型设计使其能够通过正确地选择与任务相关的技能来高效地学习新的任务。在中文自然语言生成任务上的实验结果表明,首先,在仅使用一个模型的情况下,SkillNet-NLG在常见的五个自然语言生成任务中的四个上面超过了当前最好方法;其次,SkillNet-NLG的表现优于另外两类多任务基线模型(稠密模型和混合专家模型),并取得了与针对特定任务单独训练的模型相当的性能;最后,当应用到新任务上时,SkillNet-NLG相较于所有基线方法取得了更好的结果,验证了该文所提出的方法对于学习新任务的有效性。
关键词:自然语言生成;多任务模型;稀疏激活模型;技能网络
引用格式:廖俊伟,程帅. 基于技能网络的通用自然语言生成模型[J]. 中文信息学报. 2024, 38(3): 141-151
CCL会议优秀论文
✦ 古汉语通假字资源库的构建及应用研究
作 者:王兆基,张诗睿,胡韧奋,张学涛
摘 要:古籍文本中的文字通假现象较为常见,这不仅为人理解文意造成了困难,也是古汉语信息处理面临的一项重要挑战。为了服务于通假字的人工判别和机器处理,该文构建并开源了一个多维度的通假字资源库,包括语料库、知识库和评测数据集三个子库。其中,语料库收录11 000余条包含通假现象详细标注的语料;知识库以汉字为节点,通假和形声关系为边,从字音、字形、字义多个角度对通假字与正字的属性进行加工,共包含4 185个字节点和8 350对关联信息;评测数据集面向古汉语信息处理需求,支持通假字检测和正字识别两个子任务的评测,收录评测数据19 678条。在此基础上,该文搭建了通假字自动识别的系列基线模型,并结合实验结果分析了影响通假字自动识别的因素与改进方法。进一步地,该文探讨了该资源库在古籍整理、人文研究和文言文教学中的应用。
关键词:古代汉语;资源库;通假字;自动识别
引用格式:王兆基,张诗睿,胡韧奋,张学涛. 古汉语通假字资源库的构建及应用研究[J]. 中文信息学报. 2024, 38(3): 152-162
全文链接:点击下载
✦ 基于动态常识推理与多维语义特征的幽默识别
作 者:吐妮可·吐尔逊,闵昶榮,林鸿飞,张冬瑜,杨 亮
摘 要:随着社交媒体的飞速发展,幽默识别任务受到研究者广泛关注。其目标是判断给定文本是否具有幽默表达。现有方法主要基于幽默产生理论,采用规则或神经网络模型提取多种幽默相关特征,如不一致性、情感和语音等。然而,这些方法未充分捕捉文本内部的情感特征,忽视了隐含在幽默文本中的情感表达,影响了幽默识别的准确性。为解决此问题,该文提出了CMSOR方法,以动态常识和多维语义特征为驱动。首先,利用外部常识信息从文本中动态推理说话者的隐式情感表达;然后,引入WordNet词典计算词级语义距离,捕捉不一致性,并计算模糊性特征;最后,基于这三个特征维度构建幽默语义,实现幽默识别。实验证明,CMSOR模型相对于当前基准模型在三个公开数据集上的识别性能均有显著提升。
关键词:幽默识别;常识推理;模糊理论;注意力机制
引用格式:吐妮可·吐尔逊,闵昶榮,林鸿飞,张冬瑜,杨亮. 基于动态常识推理与多维语义特征的幽默识别[J]. 中文信息学报. 2024, 38(3): 163-172
全文链接:点击下载
↑点开查看清晰大图
长按识别下图二维码
关注我们
获取中文信息处理领域专业干货