《中文信息学报》新刊概览∣ 2024年第8期(38卷第8期)

文摘   科技   2024-09-02 15:30   北京  



 ↑点开查看清晰大图  






综述





✦  基于深度神经网络的实体链接研究综述


作  者:张 玥,李 韧,杨建喜,肖 桥, 谢江村,蒋仕新,王 笛

摘  要:实体链接旨在将文本中的实体指称映射到知识库中相应的实体,是知识图谱问答、智能推荐等下游任务的基础。近年来,深度神经网络和预训练语言模型的快速发展为实体链接方法研究提供了坚实基础,并取得了显著性能提升。该文对近期实体链接模型与方法进行了系统性的综述,主要从四个方面进行:第一,介绍实体链接的一般框架,包括候选实体生成、候选实体排序和不可链接指称预测;第二,分析低资源实体链接研究现状,包括跨语言迁移方法和跨领域迁移方法;第三,探讨面向特定领域的实体链接研究方法,重点介绍生物医学和社交媒体领域;第四,简述多模态实体链接相关成果。最后,该文分析了目前实体链接方法面临的技术挑战,并展望了未来的研究趋势。

关键词:实体链接;深度学习;低资源;特定领域;综述

引用格式:张玥,李韧,杨建喜,肖桥,谢江村,蒋仕新,王笛. 基于深度神经网络的实体链接研究综述[J]. 中文信息学报. 2024, 38(8): 1-14

ZHANG Yue, LI Ren, YANG Jianxi, XIAO Qiao, XIE Jiangcun, JIANG Shixin, WANG Di. A Survey on Entity Linking Based on Deep Neural Networks[J]. Journal of Chinese Information Processing. 2024, 38(8): 1-14

全文链接:点击下载







语言分析与计算




✦  基于特征融合的汉语被动句自动识别研究


作  者:胡 康,曲维光,魏庭新,周俊生,李 斌,顾彦慧

  要:汉语中的被动句根据有无被动标记词可分为有标记被动句和无标记被动句。由于其形态构成复杂多样,给自然语言理解带来很大困难,因此实现汉语被动句的自动识别对自然语言处理下游任务具有重要意义。该文构建了一个被动句语料库,提出了一个融合词性和动词论元框架信息的PC-BERT-CNN模型,对汉语被动句进行自动识别。实验结果表明,该文提出的模型能够准确地识别汉语被动句,其中有标记被动句识别F1值达到98.77%,无标记被动句识别F1值达到96.72%。

关键词:汉语被动句;自动识别;特征融合;语料库

引用格式:胡康,曲维光,魏庭新,周俊生,李斌,顾彦慧. 基于特征融合的汉语被动句自动识别研究[J]. 中文信息学报. 2024, 38(8): 15-24

HU Kang, QU Weiguang, WEI Tingxin, ZHOU Junsheng, Li Bin, GU Yanhui. Automatic Recognition of Chinese Passive Sentences Based on Feature Fusion[J]. Journal of Chinese Information Processing. 2024, 38(8): 15-24

全文链接:点击下载 




✦  融合知识的多目标词联合框架语义分析模型

作  者陈旭东,郑 策,常宝宝
摘  要框架语义分析任务是自然语言处理领域的一项基础性任务。先前的研究工作大多针对单目标词进行模型设计,无法一次性完成多个目标词的框架语义结构提取。该文提出一个面向多目标的框架语义分析模型,实现对多目标词的联合预测。该模型对框架语义分析的各项子任务进行交互性建模,实现子任务间的双向交互。此外,该文利用关系图网络对框架关系信息进行编码,将其作为框架语义学知识融入模型中。实验表明,该文模型在不借助额外语料的情况下相比之前模型都有不同程度的提高。消融实验证明了该文模型设计的有效性。此外,该文分析了模型目前存在的局限性以及未来的改进方向。
关键词框架语义分析 ;框架网络
引用格式陈旭东,郑策,常宝宝. 融合知识的多目标词联合框架语义分析模型[J]. 中文信息学报. 2024, 38(8): 25-33
CHEN Xudong, ZHENG Ce, CHANG Baobao. Knowledge-integrated Joint Model for Multi-target Frame Semantic Parsing[J]. Journal of Chinese Information Processing. 2024, 38(8): 25-33
全文链接点击下载 



✦ 基于提示微调的汉语词汇简化研究

作  者肖子豪, 程苗苗, 巩捷甫,韩 旭, 王士进,宋 巍
摘  要词汇简化是在不改变原句结构和语义的情况下,用更简单的词替换句子中的难词,提高文本面向特定群体读者的可读性。该文提出基于提示微调的汉语词汇简化方法PTCLS(Prompt-tuning Based Chinese Lexical Simplification)。PTCLS采用基于BART的底层架构,能够自然地生成不同字数的替代词,模型训练只需微调少量参数。在公开的汉语词汇简化数据集上的实验表明,该文提出的方法可以大幅超越目前最好的基线系统BERT-LS。深入分析揭示,微调方法只利用少量标注数据即可取得比全参数微调、手工提示和无监督方法更好的表现,尤其针对汉语同义词词典外的难词取得了更显著的性能提升。
关键词词汇简化;提示学习;提示微调;文本简化;小样本学习
引用格式肖子豪,程苗苗,巩捷甫,韩旭,王士进,宋巍. 基于提示微调的汉语词汇简化研究[J]. 中文信息学报. 2024, 38(8): 34-43
XIAO Zihao, CHENG Miaomiao, GONG Jiefu, HAN Xu, WANG Shijin, SONG Wei. Chinese Lexical Simplification Based on Prompt-Tuning[J]. Journal of Chinese Information Processing. 2024, 38(8): 34-43
全文链接点击下载 







语言资源建设与应用






✦ 基于改进蚁群算法的对抗样本生成模型


作  者:刘文娟,吴厚月,张顺香

  要:传统的文本生成对抗方法主要采用位置置换、字符替换等方式,耗费时间较长且效果较差。针对以上问题,该文提出一种基于改进蚁群算法的对抗样本生成模型IGAS (Improved ant colony algorithm to Generate Adversarial Sample),利用蚁群算法的特点生成对抗样本,并利用类形字进行优化。首先,构建城市节点群,利用样本中的词构建城市节点群;然后对原始输入样本,利用改进的蚁群算法生成对抗样本;再针对生成结果,通过构建的中日类形字典进行字符替换,生成最终的对抗样本;最后在黑盒模式下进行对抗样本攻击实验。实验在情感分类、对话摘要生成、因果关系抽取等多种领域验证了该方法的有效性。

关键词蚁群算法;对抗样本生成;类形字;黑盒攻击 

引用格式:刘文娟,吴厚月,张顺香. 基于改进蚁群算法的对抗样本生成模型[J]. 中文信息学报. 2024, 38(8): 44-54

LIU Wenjuan, WU Houyue, ZHANG Shunxiang. Adversarial Sample Generation Based on Improved Ant Colony Algorithm[J]. Journal of Chinese Information Processing. 2024, 38(8): 44-54

全文链接:点击下载











机器翻译





✦ 基于门控机制多模态信息融合的图像描述翻译


作  者:李志峰,徐旻涵,洪 宇,姚建民,周国栋

摘  要:图像描述翻译是给定图像和图像对应某一语言的描述,采用神经网络以端到端方式融合图像和文本两种模态信息,利用翻译技术为图像描述生成目标语言的任务。传统图像描述翻译,在将源语言翻译成目标语言时,借助图像中的重要特征优化翻译过程。翻译过程中,目标词的生成依赖于源语言上下文和目标语言上下文信息。通过观察发现,源语言上下文偏于影响翻译结果的充分性和忠实度,而目标语言上下文偏于影响翻译结果的流畅性和衔接度。由于缺少有效机制来调节两种上下文信息的贡献度,翻译模型会生成流畅但不充分或者充分但不流畅的句子。针对以上问题,该文提出一种基于门控机制多模态信息融合的解码方法,用于优化现有图像描述翻译模型。该文模型通过源上下文门控调整图像特征和每个源语言词的重要度,过滤掉图像中不相关的特征;通过目标上下文门控动态调整源语言上下文和目标语言上下文对翻译结果的贡献度,从而有效提高翻译结果的充分性和流畅性。在Multi30k数据集上进行实验,验证了上述方法的有效性,在Multi30k-16英德和英法以及Multi30k-17英德和英法测试集上,BLEU-4值对比基准系统分别提升了1.3、1.0、1.5和1.4个百分点。

关键词:图像描述翻译;多模态机器翻译;上下文门控;忠实度及流畅度

引用格式:李志峰,徐旻涵,洪宇,姚建民,周国栋. 基于门控机制多模态信息融合的图像描述翻译[J]. 中文信息学报. 2024, 38(8): 55-68

LI Zhifeng, XU Minhan, HONG Yu, YAO Jianmin, ZHOU Guodong. Context Gate Based Multimodal Information Fusion for Image Description Translation[J]. Journal of Chinese Information Processing. 2024, 38(8): 55-68

全文链接:点击下载




✦ 面向标记语言的机器翻译方法研究


作  者:杜 权,曾 信,李 北,刘 辉,李垠桥,肖 桐,朱靖波

摘  要:标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题。针对这些难题,该文提出基于组合泛化的标记语言建模方法。同时,针对标记语言的格式还原问题,该文提出使用标签位置准确率、正确率、召回率和F1值等指标来衡量标记语言格式还原效果。实验发现,该文所提出的泛化方法相较于基于截断、基于词对齐和已有的泛化方法,BLEU均有较大提升,格式还原率接近100%。

关键词:标记语言;机器翻译;基于泛化的建模方法

引用格式:杜权,曾信,李北,刘辉,李垠桥,肖桐,朱靖波. 面向标记语言的机器翻译方法研究[J]. 中文信息学报. 2024, 38(8): 68-75

DU Quan, ZENG Xin, LI Bei, LIU Hui, LI Yinqiao, XIAO Tong, ZHU Jingbo. Research on Machine Translation for Markup Language[J]. Journal of Chinese Information Processing. 2024, 38(8): 68-75

全文链接:点击下载








民族、跨境及周边语言信息处理




 基于预训练的藏医药实体关系抽取


作  者:周 青,拥 措,拉毛东只,尼玛扎西

摘  要:藏医药领域的文本主要以非结构化形式保存,藏医药文本的信息抽取对挖掘藏医药的知识有重要作用。针对现有藏文实体关系抽取模型语义表达能力差、嵌套实体抽取准确率低的问题,该文介绍了一种基于预训练模型的实体关系抽取方法,使用TibetanAI_ALBERT_v2.0预训练语言模型,使得模型更好地识别实体,使用Span方法解决实体嵌套问题。在Dropout的基础上,增加了一个KL散度损失函数项,提升了模型的泛化能力。在TibetanAI_TMIE_v1.0藏医药数据集上进行了实验,实验结果表明,精确率、召回率和F1值分别达到了84.5%、80.1%和82.2%,F1值较基线提升了4.4个百分点,实验结果证明了该文方法的有效性

关键词:藏医药;实体关系抽取;预训练语言模型

引用格式:周青,拥措,拉毛东只,尼玛扎西. 基于预训练的藏医药实体关系抽取[J]. 中文信息学报. 2024, 38(8): 76-83

ZHOU Qing, YONG Tso, LAMAO Dongzhi, NYIMA Trashi. Entity Relation Extraction Based on Pre-trained Language Model for Tibetan Medicine[J]. Journal of Chinese Information Processing. 2024, 38(8): 76-83

全文链接:点击下载




 基于跨语言学习的老挝语实体识别方法


作  者:邓 喆,周兰江,周蕾越

摘  要:传统的命名实体识别系统主要是有监督的机器学习模型,这种方法需要大量的手动标注数据才能实现比较好的效果,难以适用于老挝语这种低资源语言。该文在对汉语和老挝语结构特点进行研究后,针对实验室目前获取的大量汉-老平行句对提出了一种基于跨语言学习的老挝语实体识别方法,该方法仅需要汉-老平行句对,而无需大量命名实体标注数据。首先,利用开源命名实体识别工具在汉语端进行命名实体标注;然后,利用跨语言表示和相似度计算将标注从汉语端投影到老挝语端并进行后处理;最后,使用融合词性特征和音节特征的字符向量训练命名实体识别模型。实验表明,基于跨语言学习的老挝语实体识别模型的F1值达到了74.29%。

关键词:老挝语;命名实体识别;弱监督学习;跨语言词向量

引用格式:邓喆,周兰江,周蕾越. 基于跨语言学习的老挝语实体识别方法[J]. 中文信息学报. 2024, 38(8): 84-92

DENG Zhe, ZHOU Lanjiang, ZHOU Leiyue. Lao Entity Recognition Based on Cross-language Learning[J]. Journal of Chinese Information Processing. 2024, 38(8): 84-92
全文链接:点击下载






信息抽取与文本挖掘





✦ 基于注意力机制补足实体缺陷的文档级关系抽取方法


作  者:彭文智,肖 蓉,安先跨,杨 肖

摘  要:命名实体识别是文档级关系抽取中的一项关键任务,然而,传统的文档级关系抽取模型在实体识别时,仅通过汇聚局部提及信息构建实体,这限制了实体的表征能力。为此,该文提出了基于注意力机制补足实体缺陷的文档级关系抽取方法。该方法根据预定义的关系集合选择性关注实体提及层次特征,然后利用池化方法积累信号,为实体补足不同提及语义特征,同时,引入交叉多头注意力机制和残差连接对实体进行上下文加权处理,加强实体与上下文、全局信息之间的联系。该文在DocRED数据集上进行实验,与基线模型相比,补足实体缺陷后的基线模型在验证集F1/Ign_F1和测试集F1/Ign_F1上分别提升了1.82%/1.73%和1.81%/1.62%,实验结果表明了该方法的有效性。

关键词:文档级关系抽取;命名实体识别;注意力机制

引用格式:彭文智,肖蓉,安先跨,杨肖. 基于注意力机制补足实体缺陷的文档级关系抽取方法[J]. 中文信息学报. 2024, 38(8): 93-102

PENG Wenzhi, XIAO Rong, AN Xiankua, YANG Xiao. Document-Level Relation Extraction with Attention Mechanisms[J]. Journal of Chinese Information Processing. 2024, 38(8): 93-102

全文链接:点击下载




✦ 基于中文电子病历知识图谱的实体对齐研究


作  者:李丽双,董姜媛

摘  要:医疗知识图谱中知识重叠和互补的现象普遍存在,利用实体对齐进行医疗知识图谱融合成为迫切需要。然而据作者调研,目前医疗领域中的实体对齐尚没有一个完整的处理方案。因此该文提出了一个规范的基于中文电子病历的医疗知识图谱实体对齐流程,为医疗领域的实体对齐提供了一种可行的方案。同时针对基于中文电子病历医疗知识图谱之间结构异构性的特点,该文设计了一个双视角并行图神经网络(DuPNet)模型用于解决医疗领域实体对齐,并取得较好的效果。

关键词:医疗知识图谱;中文电子病历;实体对齐;结构异构体;并行图神经网络

引用格式:李丽双,董姜媛. 基于中文电子病历知识图谱的实体对齐研究[J]. 中文信息学报. 2024, 38(8): 103-111

LI Lishuang, DONG Jiangyuan. Entity Alignment Based on Knowledge Graph of Chinese Electronic Medical Record[J]. Journal of Chinese Information Processing. 2024, 38(8): 103-111

全文链接:点击下载




✦ 基于大型语言模型指令微调的心理健康领域联合信息抽取


作  者:蔡子杰,方 荟,刘建华,徐 戈,龙云飞

摘  要:信息抽取目的在于从文本中提取关键的信息。心理健康领域的信息抽取能力反映了语言模型对人类心理健康相关信息的自然语言理解能力。提高语言模型的领域信息抽取能力,还能为AI心理健康服务提供重要的知识来源。但目前心理健康信息抽取的中文指令数据集十分匮乏,这限制了相关研究和应用的发展。针对以上问题,该文在心理学专家的指导下提示ChatGPT生成样本实例,并通过设计生成指令以及数据增强,构建了5 641条包含命名实体识别、关系抽取和事件抽取三项基本抽取任务的心理健康领域联合信息抽取指令数据集,旨在填补心理健康领域信息抽取中文指令数据集的不足。随后使用该指令数据集对大型语言模型进行参数高效微调。与基线模型的性能对比以及人工评估的实验结果表明,大型语言模型经过有效的指令微调后可以完成心理健康领域信息抽取的联合任务。

关键词:信息抽取;心理健康;大型语言模型;指令微调

引用格式:蔡子杰,方荟,刘建华,徐戈,龙云飞. 基于大型语言模型指令微调的心理健康领域联合信息抽取[J]. 中文信息学报. 2024, 38(8): 112-127

CAI Zijie, FANG Hui, LIU Jianhua, XU Ge, LONG Yunfei. Instruction Tuning of LLM for Unified Information Extraction in Mental Health Domain[J]. Journal of Chinese Information Processing. 2024, 38(8): 112-127

全文链接:点击下载








机器阅读理解





✦  基于多尺度卷积的阅读理解候选句抽取


作  者:李沫谦,杨陟卓,李 茹,王笑月,吉 宇

摘  要:机器阅读理解作为检验机器是否具有理解人类自然语言能力的重要任务之一,受到了越来越广泛的关注。该文针对选择型阅读理解任务中特征提取不全面和交互不充分的问题,提出一种基于多尺度卷积的候选句抽取模型。首先,使用预训练模型编码句子语义信息,并利用多种特征辅助编码提升模型性能。其次,为了充分利用文本信息,采用多尺度卷积捕捉不同尺度的文本特征。再次,使用Focal Loss解决阅读理解中正负样本不均衡的问题,最后,选取top20作为候选句。该文的方法在两个阅读理解选择题数据集上进行测试,实验结果表明,多尺度卷积模型效果优于基线模型,F1值较最优基线模型结果分别提升3.66%和4.82%,验证了方法的有效性。

关键词:机器阅读理解;候选句抽取;多尺度卷积

引用格式:李沫谦,杨陟卓,李茹,王笑月,吉宇. 基于多尺度卷积的阅读理解候选句抽取[J]. 中文信息学报. 2024, 38(8): 128-139,157

LI Moqian, YANG Zhizhuo, LI Ru, WANG Xiaoyue, JI Yu. Evidence Sentence Extraction for Reading Comprehension Based on Multi-scale Convolution[J]. Journal of Chinese Information Processing. 2024, 38(8): 128-139,157

全文链接:点击下载






情感分析与社会计算





✦  融合用户特征的图注意力微博谣言检测模型


作  者:杨 帆,李邵梅

摘  要:随着网络和通信技术的发展,谣言借助微博等平台可快速扩散,形成病毒式传播,给国家安全和社会稳定造成严重的安全隐患。为了提高谣言自动检测的准确率,对基于图注意力网络的全局-局部注意力编码谣言检测模型进行了改进。首先,引入用户属性信息对微博文本内容特征和传播结构特征进行补充,得到更高阶特征;其次,改进图注意力机制以得到更健壮的节点聚合特征,为判决是否为谣言提供更准确的依据。在微博谣言数据集上的实验结果表明,相对于已有算法,该文提出的检测模型具有更高的检测准确率。

关键词:谣言检测;图注意力机制;用户属性信息;传播结构信息

引用格式:杨帆,李邵梅. 融合用户特征的图注意力微博谣言检测模型[J]. 中文信息学报. 2024, 38(8): 140-146

YANG Fan, LI Shaomei. Incorporating User Features for Weibo Rumor Detection via Graph Attention Network[J]. Journal of Chinese Information Processing. 2024, 38(8): 140-146

全文链接:点击下载




✦ 基于集合预测的方面级情感三元组提取


作  者:余 军, 过 弋, 阮启铭

摘  要:近年来,基于方面级别的情感分析(ABSA)任务受到越来越多的关注。其中,方面级情感三元组提取(ASTE)是ABSA任务中最新的子任务,其要求同时提取出句子的方面词、观点词并输出对应的情感极性。先前的工作大多采用pipeline方式进行提取,忽略了方面词和观点词之间的联系,且容易产生误差传播的问题。对此,该文提出一种基于集合预测的方法,将方面级情感三元组提取问题转换成集合预测问题,以端到端的方式进行三元组提取。在多个基准数据集上的实验表明,该文提出的模型取得了较为先进的结果。

关键词:方面级情感分析;集合预测;情感三元组

引用格式:余军,过弋,阮启铭. 基于集合预测的方面级情感三元组提取[J]. 中文信息学报. 2024, 38(8): 147-157

YU Jun, GUO Yi, RUAN Qiming. Set Prediction for Aspect Sentiment Triplet Extraction[J]. Journal of Chinese Information Processing. 2024, 38(8): 147-157

全文链接:点击下载




✦ 基于事实和风格的多通道融合虚假新闻检测


作  者:赵中杰,郑秋生,张 龙

摘  要:虚假新闻的大量传播对个人和社会都造成巨大的危害,通过智能算法检测虚假新闻是阻止虚假新闻传播的重要途径。针对不同语境中虚假新闻检测不准确的问题,该文将新闻的背景事实特征和新闻的风格特征融入到模型中,可以提高模型解决缺少背景知识的虚假新闻检测能力,增强模型的鲁棒性,其中新闻的风格包括情感风格和文本风格。同时该文构建了多通道融合器融合新闻与背景知识的差异性特征,语义特征和风格特征,组成了基于事实和风格的虚假新闻检测框架FSFD。在CHEF中文开放数据集上的实验证明,该文提出的检测方法在F1值上比基准模型提升了2.3%,可见,该文方法适用于背景丰富的新闻,为在线社交媒体的虚假新闻检测提供有力支持。

关键词:虚假新闻检测;证据检索;多通道融合;预训练模型

引用格式:赵中杰,郑秋生,张龙. 基于事实和风格的多通道融合虚假新闻检测[J]. 中文信息学报. 2024, 38(8): 158-166

ZHAO Zhongjie, ZHENG Qiusheng, ZHANG Long. Multi-channel Fusion of Style and Fact for Fake News Detection[J]. Journal of Chinese Information Processing. 2024, 38(8): 158-166

全文链接:点击下载







↑点开查看清晰大图  




长按识别下图二维码

关注我们

获取中文信息处理领域

专业干货


点击|阅读原文|获取当期全文

中文信息学报
于1986年创刊,是由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的高水平学术期刊。被中国科技核心期刊、中国核心期刊、全国中文核心期刊等数据库收录,它及时反映我国中文信息处理的学术水平,是中文信息处理领域的重要参考资料。