《中文信息学报》新刊概览∣ 2024年第6期(38卷第6期)

文摘   科技   2024-07-18 12:39   北京  



 ↑点开查看清晰大图  






综述





✦  预训练神经机器翻译研究进展分析


作  者:曹智泉,穆永誉,肖 桐,李 北,张春良,朱靖波

摘  要:神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下游任务取得显著的性能提升。目前基于预训练的神经机器翻译(http://jcip.cipsc.org.cn/CN/Y2024/V38/I6/1PTNMT)在受限资源数据集上已被广泛验证,但如何高效地在高资源NMT模型中利用PTM仍亟待研究。该文致力于对PTNMT的现状和相关问题进行系统性的整理和分析,从引入PTM的预训练方法、使用策略以及特定任务等角度对PTNMT方法进行详细的分类,并对PTNMT方法解决的问题进行总结,最后对PTNMT的研究进行展望。

关键词:自然语言处理;预训练模型;神经机器翻译

引用格式:曹智泉,穆永誉,肖桐,李北,张春良,朱靖波. 预训练神经机器翻译研究进展分析[J].中文信息学报. 2024, 38(6): 1-23

CAO Zhiquan, MU Yongyu, XIAO Tong, LI Bei, ZHANG Chunliang, ZHU Jingbo. Pre-trained Neural Machine Translation: Progress and Analysis [J].Journal of Chinese Information Processing. 2024, 38(6): 1-23

全文链接:点击下载







知识表示与知识获取




✦  基于树形解码器的航空术语DEF自动生成


作  者:吕 嘉,王裴岩,蔡东风,张桂平,李林娜

  要:该文研究了基于HowNet的KDML语法体系的术语DEF自动生成问题,提出一种基于树形解码器的生成方法。在编码器端输入专业术语以及其他外部信息(术语的定义、术语子词的义原等);在解码器端交替使用义原解码器和关系解码器,同时使用注意力机制关注编码器端的各种表征信息,最终得到“义原-关系-义原”形式的输出,并组合成术语对应的义原树,进而得到术语的DEF表示以辅助专业领域HowNet的构建,最终取得了首义原F1值74.13%、总义原F1值53.92%、总关系F1值53.33%、总三元组F1值30.48%的结果。

关键词:知网;DEF生成;树形结构解码

引用格式:吕嘉,王裴岩,蔡东风,张桂平,李林娜. 基于树形解码器的航空术语DEF自动生成[J].中文信息学报. 2024, 38(6): 24-33

LYU Jia, WANG Peiyan, CAI Dongfeng, ZHANG Guiping, LI Linna. DEF Generation for Terminologies Based on Tree-structured Decoder[J].Journal of Chinese Information Processing. 2024, 38(6): 24-33

全文链接:点击下载 




✦  基于模态相似性路径的统一多模态实体对齐

作  者朱柏霖,桂 韬,张 奇
摘  要实体对齐(EA)的目标是从多个知识图谱(KG)中识别等价的实体对,并构建一个更全面、统一的知识图谱。大多数EA方法主要关注KG的结构模式,缺乏对多模态信息的探索。已有的一些多模态EA方法在这个领域做出了良好的尝试。但是,它们存在两个缺点: (1)针对不同模态信息采用复杂且不同的建模方式,导致模态建模不一致且建模低效;(2)由于EA中各模态间的异质性,模态融合效果往往不佳。为了解决这些挑战,该文提出了PathFusion,使用模态相似性路径作为信息载体,有效地合并来自不同模态的信息。在真实世界的数据集上的实验结果显示,与最先进的方法相比,PathFusion在Hits@1上提高了22.4%~28.9%,在MRR上提高了0.194~0.245,验证了PathFusion的优越性。
关键词实体对齐;知识图谱;多模态学习
引用格式朱柏霖,桂韬,张奇. 基于模态相似性路径的统一多模态实体对齐[J].中文信息学报. 2024, 38(6): 34-44
ZHU Bolin, GUI Tao, ZHANG Qi. Universal Multi-modal Entity Alignment via Iteratively Fusing Modality Similarity Paths[J].Journal of Chinese Information Processing. 2024, 38(6): 34-44
全文链接点击下载 



✦ 面向事件常识知识获取的事件分类研究

作  者王 亚,曹存根,王 石
摘  要在计算机科学和语言学中,针对动词语义层面上的分类问题,研究者们提出了不同的分类方法,但这些分类方法无一例外地都存在着分类不全面等分类学中经常遇到的问题。一个动词表示一个事件,该文以获取事件相关的常识知识为出发点,以动词性语素为分类依据对常见的现代汉语动词进行语义分类,此分类方法分类标准清晰、不丢失语义信息,并且可实现自动分类,该文重点以“自移”类动词为例来介绍我们的分类方法。此外,该文用描述逻辑对动词性语素及语素之间的分类关系进行形式化表示,动词性语素的形式化表示是动词形式化表示的基础。根据该事件语义分类结构,可以有效地进行事件属性常识知识和事件关系常识知识的获取。
关键词事件语义分类;特征属性;常识知识获取
引用格式王亚,曹存根,王石. 面向事件常识知识获取的事件分类研究[J].中文信息学报. 2024, 38(6): 45-57
WANG Ya, CAO Cungen, WANG Shi. Event Categorization for Commonsense Knowledge Acquisition about Events[J].Journal of Chinese Information Processing. 2024, 38(6): 45-57
全文链接点击下载 







机器翻译






✦ 面向低资源场景的神经机器翻译方法


作  者:胡朝东,叶 娜,张桂平,蔡东风

  要:神经机器翻译需要大规模的双语平行语料利用深度学习的方法构建翻译模型,但低资源场景下平行句对缺乏,导致训练的神经机器翻译模型效果较差。无监督神经机器翻译技术仅使用两种语言的单语数据,解决了神经机器翻译对大规模双语平行数据的依赖问题。但是无监督神经机器翻译技术存在两个问题,一是对于句法建模能力欠缺;二是在低资源场景下存在的少量双语语料不能用于模型训练,造成双语语料资源浪费。为了解决上述问题,该文提出在无监督神经机器翻译中融合句法知识的方法,使模型可以充分学习句子的句法信息;同时引入少量双语平行语料辅助无监督神经机器翻译训练,使模型直接学习源语言与目标语言单词之间的转换。与基线模型相比较,在英-法和德-英单语新闻数据集上BLEU值分别提升了1.65和1.79。

关键词无监督神经机器翻译;句法知识;去噪自动编码器 

引用格式:胡朝东,叶娜,张桂平,蔡东风. 面向低资源场景的神经机器翻译方法[J].中文信息学报. 2024, 38(6): 58-66

HU Chaodong, YE Na, ZHANG Guiping, CAI Dongfeng. Neural Machine Translation Method for Low-resource Scenarios [J].Journal of Chinese Information Processing. 2024, 38(6): 58-66

全文链接:点击下载




✦ 融合指代消解的神经机器翻译研究


作  者:冯 勤,贡正仙,李军辉,周国栋

  要:篇章中的同一实体经常会呈现出不同的表述,形成一系列复杂的指代关系,这给篇章翻译带来了很大的挑战。该文重点探索指代消解和篇章神经机器翻译的融合方案,首先为指代链设计相应的指代表征;其次使用软约束和硬约束两种方法在翻译系统中实现指代信息的融合。该文建议的方法分别在英语-德语和中文-英语语言对上进行了实验,实验结果表明,相比于同期最好的句子级翻译系统,该方法能使翻译性能获得明显提升。此外,在英语-德语的代词翻译质量的专门评估中,准确率也有显著提升。

关键词指代表征;神经机器翻译;篇章级机器翻译

引用格式:冯勤,贡正仙,李军辉,周国栋. 融合指代消解的神经机器翻译研究[J].中文信息学报. 2024, 38(6): 67-76

WFENG Qin, GONG Zhengxian, LI Junhui, ZHOU Guodong. Neural Machine Translation Combined with Reference Resolution[J].Journal of Chinese Information Processing. 2024, 38(6): 67-76

全文链接:点击下载




✦ 基于域对抗迁移学习的低资源机器翻译


作  者:常 鑫,侯宏旭,乌尼尔,贾晓宁,李浩然

  要:当域外和域内分别表示不同的语言时,语言之间的差异会导致域外知识难以适应至域内。因此提出域对抗迁移学习方法来改进机器翻译模型。采用对抗学习方法,加入一个域判别器对域外和域内的语义特征进行预测,通过最小化域外和域内语义特征预测值优化编码器。当两个领域的语义特征预测值相近时,说明模型学习到一个可以把域内数据映射到域外的映射函数。通过实验,该方法在蒙古语-汉语和维吾尔语-汉语等翻译任务上展现出一定的泛化能力。

关键词对抗;机器翻译;多语言;对抗学习

引用格式:常鑫,侯宏旭,乌尼尔,贾晓宁,李浩然. 基于域对抗迁移学习的低资源机器翻译[J].中文信息学报. 2024, 38(6): 77-85

CHANG Xin, HOU Hongxu, WU Nier, JIA Xiaoning, LI Haoran. Domain-adversarial Transfer Learning for Low-resource Neural Machine Translation[J].Journal of Chinese Information Processing. 2024, 38(6): 77-85

全文链接:点击下载









民族、跨境及周边语言信息处理





✦ 基于阅读理解的汉越跨语言新闻事件要素抽取方法


作  者:朱恩昌,余正涛,高盛祥,黄于欣,郭军军

摘  要:新闻事件要素抽取旨在抽取新闻文本中描述主题事件的事件要素,如时间、地点、人物和组织机构名等。传统的事件要素抽取方法在资源稀缺型语言上性能欠佳,且对长文本语义建模困难。对此,该文提出了基于阅读理解的汉越跨语言新闻事件要素抽取方法。该方法首先利用新闻长文本关键句检索模块过滤含噪声的句子。然后利用跨语言阅读理解模型将富资源语言知识迁移到越南语,提高越南语新闻事件要素抽取的性能。在自建的汉越双语新闻事件要素抽取数据集上的实验验证了该文方法的有效性。

关键词:新闻事件要素抽取;长文本语义建模;跨语言知识迁移;阅读理解

引用格式:朱恩昌,余正涛,高盛祥,黄于欣,郭军军. 基于阅读理解的汉越跨语言新闻事件要素抽取方法[J].中文信息学报. 2024, 38(6): 86-95

ZHU Enchang, YU Zhengtao, GAO Shengxiang, HUANG Yuxin, GUO Junjun. Chinese-Vietnamese Cross Language News Event Element Extraction of via Machine Reading Comprehension[J].Journal of Chinese Information Processing. 2024, 38(6): 86-95

全文链接:点击下载




✦ 基于组合网络的多特征老挝语实体关系抽取研究


作  者:马霄飞,周兰江,周蕾越

摘  要:实体关系抽取旨在提取实体之间存在的语义关系,这可以为知识图谱、自动问答等下游任务提供支持,在自然语言处理领域具有重要作用。由于当前老挝语实体关系抽取的相关研究十分匮乏,可用数据也十分有限,因此在训练时神经网络无法获取足够的语义信息。针对此问题,该文提出了一种基于PCNN和BiGRU的组合模型的多特征老挝语实体关系抽取方法。首先,将位置特征与音素特征融入到词向量中得到包含多种语义的联合向量;然后,分别使用PCNN模型和BiGRU模型对联合向量进行深层语义的提取,其中PCNN模型能够更好地提取文本中的局部信息,BiGRU模型能够更好地考虑文本的全局信息,之后将两个模型的输出进行拼接,便得到了包含多维度语义信息的句子向量;最后,使用softmax进行多分类计算。实验表明,该文提出的方法,在有限的数据下得到了不错的效果,macro-averaged F1达到了82.25%。

关键词:多段卷积神经网络;双向门控循环单元;音素特征;联合向量;层归一化

引用格式:马霄飞,周兰江,周蕾越. 基于组合网络的多特征老挝语实体关系抽取研究[J].中文信息学报. 2024, 38(6): 96-107

MA Xiaofei, ZHOU Lanjiang, ZHOU Leiyue. Combined Network Based Multi-feature Lao Language Entity Relationship Extraction[J].Journal of Chinese Information Processing. 2024, 38(6): 96-107

全文链接:点击下载








信息抽取与文本挖掘




 基于平行交互注意力网络的中文电子病历实体及关系联合抽取


作  者:李丽双,王泽昊,秦雪洋,袁光辉

摘  要:基于电子病历构建医学知识图谱对医疗技术的发展具有重要意义,实体和关系抽取是构建知识图谱的关键技术。该文针对目前实体关系联合抽取中存在的特征交互不充分的问题,提出了一种平行交互注意力网络(PIAN)以充分挖掘实体与关系的相关性,在多个标准的医学和通用数据集上取得最优结果;当前中文医学实体及关系标注数据集较少,该文基于中文电子病历构建了实体和关系抽取数据集(CEMRIE),与医学专家共同制定了语料标注规范,并基于该文所提出的模型实验得出基准结果

关键词:实体关系联合抽取;双向特征交互模块;自注意力机制;中文电子病历;数据集标注与构建

引用格式:李丽双,王泽昊,秦雪洋,袁光辉. 基于平行交互注意力网络的中文电子病历实体及关系联合抽取[J].中文信息学报. 2024, 38(6): 108-118

LI Lishuang, WANG Zehao, QIN Xueyang, YUAN Guanghui. Parallel Interactive Attention Network Based Joint Entity and Relation Extraction for Chinese Electronic Medical Record[J].Journal of Chinese Information Processing. 2024, 38(6): 108-118

全文链接:点击下载




 基于子句单元的异构图网络抽取式文本摘要


作  者:林群凯,陈钰枫,徐金安,张玉洁,刘 健

摘  要:文本摘要的目标是将长文本进行压缩、归纳和总结,从而形成具有概括性含义的短文本,其能帮助人们快速获取文档的主要信息。当前大多数的抽取式文本摘要的研究都是以整句作为抽取单元,而整句作为抽取单元会引入冗余信息,因此该文考虑使用粒度更细的抽取单元。已有研究表明,细粒度的子句单元比整句单元在抽取式摘要上更具有优势。结合当下热门的图神经网络,该文提出了一种基于子句单元异构图网络的抽取式摘要模型,有效融合了词、实体和子句单元等不同层次的语言信息,能够实现更细粒度的抽取式摘要。在大规模基准语料库(CNN/DM和NYT)上的实验结果表明,该模型产生了突破性的性能并优于以前的抽取式摘要模型。

关键词:子句;异构图;抽取式摘要

引用格式:林群凯,陈钰枫,徐金安,张玉洁,刘健. 基于子句单元的异构图网络抽取式文本摘要[J].中文信息学报. 2024, 38(6): 119-128

LIN Qunkai, CHEN Yufeng, XU Jin’an, ZHANG Yujie, LIU Jian. Extractive Text Summarization with Heterogeneous Graph Network Based on Sub-sentence Unit[J].Journal of Chinese Information Processing. 2024, 38(6): 119-128
全文链接:点击下载






问答与对话





✦ 基于模型校准和控制编码的多阶段知识对话系统


作  者:孙泽田,周雨琦,户保田,胡欣硕,赵 宇,许天骁,李东方,张 民

摘  要:基于搜索引擎的知识对话系统需要解决三个问题: 何时检索(When),检索什么(What),如何将知识与对话历史融合(How)。该文将基于搜索引擎的知识对话系统拆解为三个阶段: 对话模式选择,搜索词生成以及对话回复生成,并对对话模式选择和对话回复生成两个阶段进行优化: 使用置信度校准的方式降低分类结果中假阴性样本的比例,提高对话模式判断的准确率并改善搜索词生成的质量;使用控制编码的方式对生成模型进行约束以提高模型生成回复时的知识利用率,并构建排序器对对话回复做进一步的筛选优化。实验表明,该文的方法对比基线模型有较大的效果提升。在2022年语言与智能技术竞赛的知识对话任务中,该知识对话系统获得第四名的成绩。

关键词:知识对话系统;自然语言处理

引用格式:孙泽田,周雨琦,户保田,胡欣硕,赵宇,许天骁,李东方,张民. 基于模型校准和控制编码的多阶段知识对话系统[J].中文信息学报. 2024, 38(6): 129-138

SUN Zetian, ZHOU Yuqi, HU Baotian, HU Xinshuo, ZHAO Yu, XU Tianxiao, LI Dongfang, ZHANG Min. Multi-stage Knowledge Dialogue System Based on Model Calibration and Control Code[J].Journal of Chinese Information Processing. 2024, 38(6): 129-138

全文链接:点击下载









情感分析与社会计算





✦ 基于模型校准和控制编码的多阶段知识对话系统


作  者:聂小芳,谭宇轩,曾雪强,左家莉

摘  要:细粒度情绪识别模型采用比传统方法更多的情绪类别,能更为准确地捕捉人们日常生活中经历和表达的情绪。然而,大幅增加的情绪类别以及细粒度情绪间存在的相互关联和模糊性,给细粒度情绪识别模型带来了挑战。已有情绪识别工作表明,引入情感词典等外部知识可以有效提升模型性能。但现有细粒度情绪识别模型引入情感知识的方式还较为简单,仍未考虑深层情感知识,例如,情感层级关系。针对上述问题,该文提出一种基于层级图卷积网络的情绪识别(Hierarchy Graph Convolution Networks-based Emotion Recognition,HGCN-EC)模型。HGCN-EC模型由语义信息模块、情绪层级结构知识模块和知识融合模块组成。语义信息模块提取文本的语义特征;情绪层级结构知识模块将细粒度情绪构建为树状层级结构并使用贝叶斯统计推断计算情绪之间的转移概率作为层级知识;知识融合模块采用图卷积网络将情绪层级知识与文本语义特征融合,用于实现情绪预测。在GoEmotions数据集上的对比实验结果表明,HGCN-EC模型具有相较于基线方法更优的细粒度情绪识别性能。

关键词:细粒度情绪识别;图卷积网络;情绪层级知识;GoEmotions

引用格式:聂小芳,谭宇轩,曾雪强,左家莉. 基于层级图卷积网络的情绪识别模型[J].中文信息学报. 2024, 38(6): 139-150

NIE Xiaofang, TAN Yuxuan, ZENG Xueqiang, ZUO Jiali. Emotion Recognition Based on Hierarchical Graph Convoluation Networks [J]. Journal of Chinese Information Processing. 2024, 38(6): 139-150

全文链接:点击下载




✦ 一种不确定模态缺失的多模态对抗虚假新闻检测框架


作  者:张永成,魏小梅,王 欢,徐荣康

摘  要:当前虚假新闻的检测方法已经从传统的单一模态数据分析转向了多模态数据融合技术的应用。然而现有的多模态虚假新闻检测方法未充分考虑到现实场景中可能存在的模态缺失问题。模态的缺失可能会导致无法完整地抽取和融合新闻特征,从而降低模型的性能。该文提出一种新的虚假新闻检测框架,该框架在多模态特征学习中,加入了一个模态鉴别器,其在与特征生成器进行对抗训练的过程中学习不同模态组合之间的迁移特征,实现了在不确定模态缺失场景下的虚假新闻检测。通过在真实数据集上进行实验证明,该文所提出的框架在不确定模态缺失场景下优于最新的多模态虚假新闻检测方法。

关键词:虚假新闻检测;多模态对抗学习;不确定模态缺失

引用格式:张永成,魏小梅,王欢,徐荣康. 一种不确定模态缺失的多模态对抗虚假新闻检测框架[J].中文信息学报. 2024, 38(6): 151-160

ZHANG Yongcheng, WEI Xiaomei, WANG Huan, XU Rongkang. A Multi-modal Adversarial Framework for Fake News Detection under Uncertain Missing Modalities[J].Journal of Chinese Information Processing. 2024, 38(6): 151-160

全文链接:点击下载







↑点开查看清晰大图  




长按识别下图二维码

关注我们

获取中文信息处理领域

专业干货


点击|阅读原文|获取当期全文

中文信息学报
于1986年创刊,是由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的高水平学术期刊。被中国科技核心期刊、中国核心期刊、全国中文核心期刊等数据库收录,它及时反映我国中文信息处理的学术水平,是中文信息处理领域的重要参考资料。