《中文信息学报》新刊概览∣ 2024年第4期（38卷第4期）

文摘科技 2024-05-20 16:59 北京

↑点开查看清晰大图

综述

✦ 表格问答研究综述

作者：张洪廙，李韧，杨建喜，杨小霞，肖桥，蒋仕新，王笛

摘要：表格问答通过自然语言问句直接与表格数据进行交互并得到答案，是智能问答的主要形式之一。近年来，研究人员利用以语义解析为主的技术在该领域开展了深入研究。该文从不同表格类型分类及其问答任务问题定义出发，将表格问答细分为单表单轮、多表单轮、多表多轮式问答三种任务，并系统介绍了各类表格问答任务的数据集及其代表性方法。其次，该文总结了当前主流表格预训练模型的数据构造、输入编码以及预训练目标。最后，探讨当前工作的优势与不足，并分析了未来表格问答的前景与挑战。

关键词：表格问答；语义解析；自然语言处理；综述

引用格式：张洪廙,李韧,杨建喜,杨小霞,肖桥,蒋仕新,王笛. 表格问答研究综述[J].中文信息学报. 2024, 38(4): 1-16

ZHANG Hongyi, LI Ren, YANG Jianxi, YANG Xiaoxia, XIAO Qiao, JIANG Shixin, WANG Di. Researches on Question Answering Over Tables: A Survey[J]. Journal of Chinese Information Processing. 2024, 38(4): 1-16

全文链接：点击下载

语言认知计算模型

✦ 大模型生成回答与人类回答文本的语言特征比较研究

作者：朱君辉,王梦焰,杨尔弘,聂锦燃,杨麟儿,王誉杰

摘要：近年，人工智能的语言生成技术突飞猛进，基于自然语言生成技术的聊天机器人ChatGPT能够自如地与人对话、回答问题。为了探究机器生成语言与人类语言的差异，该文分别收集了人类和ChatGPT在中文开放域上3 293个问题的回答作为语料，对两种语料分别提取并计算描述性特征、字词常用度、字词多样性、句法复杂性、语篇凝聚力五个维度上的161项语言特征，利用分类算法验证用这些特征区别两种语言的有效性，并考察、对比这些特征来阐释人类、机器生成两种语言的异同。研究结果发现，两种文本在描述性特征、字词常用度、字词多样性三个维度的77项语言特征上存在显著差异，相较于机器回答语言，人类回答语言表现出易读性高、论元重叠度低、口语色彩明显、用词丰富多样、互动性强等特点。

关键词：ChatGPT；人类语言；语言特征；机器学习

引用格式：朱君辉,王梦焰,杨尔弘,聂锦燃,杨麟儿,王誉杰. 大模型生成回答与人类回答文本的语言特征比较研究[J].中文信息学报. 2024, 38(4): 17-27

ZHU Junhui, WANG Mengyan, YANG Erhong, NIE Jinran , YANG Lin'er, WANG Yujie. A Comparative Study of Language between Artificial Intelligence and Human: A Case Study of ChatGPT[J].Journal of Chinese Information Processing. 2024, 38(4): 17-27

全文链接：点击下载

✦ 基于词汇识别ERP数据的跨语言激活路径研究：从二语到母语方向

作者：杨思琴，江铭虎

摘要：该文运用事件相关电位技术(Event-Related Potentials,ERPs) 探索了二语学习者在识别二语(Second Language，L2)词汇时激活母语(Native Language，L1) 词汇表征的路径。研究设计了隐性启动范式来开展两个实验，通过观察被试对L1中对译词这一隐性条件的感知情况来推测激活结果。脑电结果显示，实验一的被试在执行语义判断任务时，对译词首字重复与不重复的两种情况产生了显著的N400差异，这表明被试通过概念表征激活了L1词汇表征，印证了激活路径Path-1的存在；实验二的被试在执行书写形式判断任务时，在没有语义启动的情况下，同样感知到了对译词重复这一隐性条件，这表明L2词汇表征可以直接激活L1词汇表征，从而证明了激活路径 Path-2的存在。总体而言，词汇识别过程中从L2词汇表征到L1词汇表征的激活路径与修正层次模型（the Revised Hierarchical Model, RHM）描绘的词汇产出的激活路径类似。据此，该研究推测，尽管大脑在词汇识别和产出过程中采用了不同的处理机制，但在词汇的跨语言激活过程中，它们依然存在某些共通之处。

关键词：词汇；激活；路径；P200；N400

引用格式：杨思琴,江铭虎. 基于词汇识别ERP数据的跨语言激活路径研究: 从二语到母语方向[J].中文信息学报. 2024, 38(4): 28-37

YANG Siqin, JIANG Minghu. Cross-Language Activation Pathways Based on Word Recognition ERP Data: from Second Language to Native Language[J].Journal of Chinese Information Processing. 2024, 38(4): 28-37

全文链接：点击下载

✦ 基于CNN-NLSTM的脑电信号注意力状态分类方法

作者：沈振乾，李文强，任甜甜，王瑶，赵慧娟

摘要：通过脑电信号进行注意力状态检测，对扩大脑-机接口技术的应用范围具有重要意义。为了提高注意力状态的分类准确率，该文提出一种基于CNN-NLSTM的脑电信号分类模型。首先采用Welch方法获得脑电信号的功率谱密度特征并将其表示为二维灰度图像。然后使用卷积神经网络从灰度图像中学习表征注意力状态的特征，并将相关特征输入到嵌套长短时记忆神经网络依次获得所有时间步骤的注意力特征。最后将两个网络依次连接来构建深度学习框架进行注意力状态分类。实验结果表明，该文所提出的模型通过进行多次5-折交叉验证评估后得到8926%的平均分类准确率和90.40%的最大分类准确率，与其他模型相比具有更好的分类效果和稳定性。

关键词：注意力状态；脑电信号；卷积神经网络；嵌套长短时记忆神经网络；功率谱密度

引用格式：沈振乾,李文强,任甜甜,王瑶,赵慧娟. 基于CNN-NLSTM的脑电信号注意力状态分类方法[J].中文信息学报. 2024, 38(4): 38-49

SHEN Zhenqian, LI Wenqiang, REN Tiantian, WANG Yao, ZHAO Huijuan. EEG-based Attention States Classification via CNN-NLSTM Model[J].Journal of Chinese Information Processing. 2024, 38(4): 38-49

全文链接：点击下载

机器翻译

✦ 基于时空注意力机制的视频引导机器翻译方法

作者：姜舟,余正涛,高盛祥,毛存礼,郭军军

摘要：视频引导机器翻译是一种多模态机器翻译任务，其目标是通过视频和文本的结合产生高质量的文本翻译。但是之前的工作只基于视频中的时间结构选择相关片段引导机器翻译，所选片段中存在大量与目标语言无关的信息。因此，在翻译过程中，视频中的时空结构没有得到充分利用，从而无法有效缓解机器翻译中细节缺失或翻译错误的问题。为了解决这一问题，该文提出了一种基于时空注意力（Spatial-Temporal Attention,STA）的模型来充分利用视频中的时空信息引导机器翻译。该文提出的注意力模型不但能够选择与目标语言最相关的时空片段，而且能进一步聚焦片段中最相关的实体信息。所关注的实体信息能有效增强源语言和目标语言的语义对齐，从而使得源语言中的细节信息得到准确翻译。该文的方法基于Vatex公共数据集和构建的汉-越低资源数据集进行实验，在Vatex与汉-越低资源数据集上BLEU4分别达到32.66和18.46，相比于时间注意力基线方法提高了3.54与0.89个BLEU值。

关键词：时空注意力；视频引导机器翻译；细节缺失；时间注意力；空间注意力

引用格式：姜舟,余正涛,高盛祥,毛存礼,郭军军. 基于时空注意力机制的视频引导机器翻译方法[J].中文信息学报. 2024, 38(4): 50-58

JIANG Zhou , YU Zhengtao, GAO Shengxiang, MAO Cunli, GUO Junjun. Video-guided Machine Translation by Spatial-Temporal Attention[J].Journal of Chinese Information Processing. 2024, 38(4): 50-58

全文链接：点击下载

✦ 融合目标端上下文的篇章神经机器翻译

作者：贾爱鑫，李军辉，贡正仙，张民

摘要：神经机器翻译在句子级翻译任务上取得了令人瞩目的效果，但是句子级翻译的译文会存在一致性、指代等篇章问题，篇章翻译通过利用上下文信息来解决上述问题。不同于以往使用源端上下文建模的方法，该文提出了融合目标端上下文信息的篇章神经机器翻译。具体地，该文借助推敲网络的思想，对篇章源端进行二次翻译，第一次基于句子级翻译，第二次翻译参考了全篇的第一次翻译结果。基于LDC中英篇章数据集和WMT英德篇章数据集的实验结果表明，在引入较少的参数的条件下，该文方法能显著提高翻译性能。同时，随着第一次翻译（即句子级译文）质量的提升，所提方法也更有效。

关键词：神经机器翻译；推敲网络；篇章翻译

引用格式：贾爱鑫,李军辉,贡正仙,张民. 融合目标端上下文的篇章神经机器翻译[J].中文信息学报. 2024, 38(4): 59-68

JIA Aixin, LI Junhui, GONG Zhengxian, ZHANG Min. Modeling Target-side Context for Document-level Neural Machine Translation[J].Journal of Chinese Information Processing. 2024, 38(4): 59-68

全文链接：点击下载

民族、跨境及周边语言信息处理

✦ JCapsR: 一种联合胶囊神经网络的藏语知识图谱表示学习模型

作者：孙媛，梁家亚，陈安东，赵小兵

摘要：知识图谱表示学习是自然语言处理的一项关键技术，现有的知识图谱表示研究主要集中在英语、汉语等语言，而低资源语言的知识图谱表示学习研究还处于探索阶段，如藏语。该文基于前期构建的藏语知识图谱，提出了一种联合胶囊神经网络(JCapsR)的藏语知识图谱表示学习模型。首先，我们使用TransR模型生成藏语知识图谱的结构化信息表示。其次，采用融合多头注意力和关系注意力的Transfomer模型表示藏语实体的文本描述信息。最后，采用JCapsR进一步提取三元组在知识图谱语义空间中的关系，将实体文本描述信息和结构化信息融合，得到藏语知识图谱的表示，相比基线系统，联合胶囊神经网络JCapsR模型提高了在藏语知识图谱上实体链接预测的性能，相关研究为其他低资源语言知识图谱表示学习的拓展优化提供了参考借鉴意义。

关键词：藏语知识图谱；表示学习；胶囊神经网络

引用格式：孙媛,梁家亚,陈安东,赵小兵. JCapsR: 一种联合胶囊神经网络的藏语知识图谱表示学习模型[J].中文信息学报. 2024, 38(4): 69-77

SUN Yuan , LIANG Jiaya, CHEN Andong, ZHAO Xiaobing. JCapsR: A Joint Capsule Neural Network for Tibetan Knowledge Graph Representation Learning[J].Journal of Chinese Information Processing. 2024, 38(4): 69-77

全文链接：点击下载

✦ 面向汉越跨语言事件检索的事件预训练方法

作者：吴少扬，余正涛，黄于欣，朱恩昌，高盛祥，邓同杰

摘要：汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务。由于越南语属于典型的低资源语言，汉越跨语言事件检索缺乏大规模的标注数据，并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识，不适用于该任务。因此，为了将汉越双语对齐的事件知识融入到多语言预训练语言模型中，该文提出了两个预训练方法，即事件要素掩码预训练以及跨语言事件对比预训练。在该文构造的汉越跨语言事件检索数据集和公开跨语言问答数据集上进行了实验，比基线提升1%～3%MAP值，2%～4%NDCG值，证明了该文方法的有效性。

关键词：事件预训练；跨语言事件检索；掩码语言模型；对比学习

引用格式：吴少扬,余正涛,黄于欣,朱恩昌,高盛祥,邓同杰. 面向汉越跨语言事件检索的事件预训练方法[J].中文信息学报. 2024, 38(4): 78-85

WU Shaoyang, YU Zhengtao, HUANG Yuxin, ZHU Enchang, GAO Shengxiang, DENG Tongjie. Event Pre-training for Chinese-Vietnamese Cross-lingual Event Retrieval[J].Journal of Chinese Information Processing. 2024, 38(4): 78-85

全文链接：点击下载

信息抽取与文本挖掘

✦ MKE：基于背景知识与多头选择的嵌套命名实体识别

作者：李政，涂刚，汪汉生

摘要：目前，在嵌套命名实体识别研究中，基于片段的方法将命名实体识别转化为分类问题，通过微调预训练模型，能够较好地识别嵌套实体，但仍存在领域知识缺乏和无法实现实体多分类的不足。该文提出基于知识嵌入的多头模型，用于解决这些问题。模型的改进包括：①引入领域背景知识，知识嵌入层以实体矩阵的形式，实现背景知识的无损嵌入；②将命名实体识别过程转化为多头选择过程，借助注意力打分模型，计算候选片段得分，最终在正确识别嵌套实体边界的同时实现实体多分类。实验结果表明，以实体矩阵方式实现的背景知识嵌入，可以有效提高识别准确率，在7个嵌套与非嵌套命名实体识别数据集上取得SOTA表现。

关键词：嵌套命名实体识别；知识嵌入；多头选择；注意力；实体多分类

引用格式：李政,涂刚,汪汉生. MKE: 基于背景知识与多头选择的嵌套命名实体识别[J].中文信息学报. 2024, 38(4): 86-98,107

LI Zheng, TU Gang, WANG Hansheng. MKE: Nested NER Based on Knowledge Embedding and Multi-Head Selection[J].Journal of Chinese Information Processing. 2024, 38(4): 86-98,107

全文链接：点击下载

✦ 融合继续预训练和分部池化的司法事件检测模型

作者：张家诚，孙媛媛，李志廷，杨亮，林鸿飞

摘要：事件检测任务在自然语言处理领域中具有重要的研究价值，其主要目标是从文本中识别并分类触发词，实现高级文本分析与语义理解。随着智慧司法建设的推进，自然语言处理模型与司法领域的结合日益紧密。然而，由于司法领域数据较为稀缺且一个句子大多包含多个触发词等问题，该研究在预训练阶段，通过收集的十二万条司法犯罪数据对BERT进行继续预训练，以提高预训练模型对司法领域知识的理解能力；在微调阶段提出了一种分部池化结构并融合PGD对抗训练的方法，以捕获触发词上下文和句子整体的语义特征。该模型在法研杯CAIL 2022事件检测赛道上取得了明显的性能提升，比基于BERT的基线模型平均F1值提高了3.0%。

关键词：事件检测；司法领域；预训练模型

引用格式：张家诚,孙媛媛,李志廷,杨亮,林鸿飞. 融合继续预训练和分部池化的司法事件检测模型[J].中文信息学报. 2024, 38(4): 99-107

ZHANG Jiacheng, SUN Yuanyuan, LI Zhiting, YANG Liang, LIN Hongfei. Judicial Event Detection Model Based on Continuous Pre-training and Segment Pooling[J]. Journal of Chinese Information Processing. 2024, 38(4): 99-107

全文链接：点击下载

✦ 基于正反上下文语义对齐融合的多模态文本摘要模型

作者：陈中峰，陆振宇，荣欢

摘要：该文基于序列到序列的神经网络，提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言，使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码，对齐文本与图片的语义信息。通过多模态正向注意力机制与反向注意力机制多方面观察对齐后的源文本与图片内容，分别得到各自模态语义信息的正相关和不相关特征表示。使用正向滤波器过滤正向注意力机制中的不相关信息，使用反向滤波器过滤反向注意力机制中的相关信息，达到分别从正向与反向两个方面选择性地融合文本语义信息和图片语义信息的目的。最后基于指针生成网络，使用正相关信息搭建正向指针、使用不相关信息搭建反向指针，生成带有多模态语义信息补偿的文本摘要内容。在京东中文电子商务数据集上，所提模型生成的多模态文本摘要在ROUGE-1、ROUGE-2、ROUGE-L指标上分别取得了38.40、16.71、28.01的结果。

关键词：多模态文本摘要；多模态信息对齐；二级门控编码机制；文本生成模型

引用格式：陈中峰,陆振宇,荣欢. 基于正反上下文语义对齐融合的多模态文本摘要模型[J]. 中文信息学报. 2024, 38(4): 108-119

CHEN Zhongfeng, LU Zhenyu, RONG Huan. Multi-Modal Text Summarization by Positive and Negative Context Alignment and Fusion[J].Journal of Chinese Information Processing. 2024, 38(4): 108-119

全文链接：点击下载

情感分析与社会计算

✦ 融合Emoji情感分布的多标签情绪识别方法

作者：刘烨，刘仕鑫，曾雪强，左家莉

摘要：随着基于互联网的社交媒体兴起，Emoji由于具有以图形化方式快速准确地表达情绪的特点，目前已经成为用户在日常交流中广泛使用的图像文本。已有研究工作表明，在基于文本的情绪识别模型中考虑Emoji信息，对于提升模型性能具有重要的作用。目前，考虑Emoji信息的情绪识别模型大多采用词嵌入模型学习Emoji表示，得到的Emoji向量缺乏与目标情绪的直接关联，Emoji表示蕴含的情绪识别信息较少。针对上述问题，该文通过软标签为Emoji构建与目标情绪直接关联的情感分布向量，并将Emoji情感分布信息与基于预训练模型的文本语义信息相结合，提出融合Emoji情感分布的多标签情绪识别方法（Emoji Emotion Distribution Information Fusion for Multi-label Emotion Recognition, EIFER）。EIFER方法在经典的二元交叉熵损失函数的基础上，通过引入标签相关感知损失对情绪标签间存在的相关性进行建模，以提升模型的多标签情绪识别性能。EIFER方法的模型结构由语义信息模块、Emoji信息模块和多损失函数预测模块组成，采用端到端的方式对模型进行训练。在SemEval2018英文数据集上的情绪预测对比实验结果表明，该文提出的EIFER方法比已有的情绪识别方法具有更优的性能。

关键词：Emoji情感分布；多标签分类；情绪识别；情绪相关性

引用格式：刘烨,刘仕鑫,曾雪强,左家莉. 融合Emoji情感分布的多标签情绪识别方法[J]. 中文信息学报. 2024, 38(4): 120-133

LIU Ye, LIU Shixin, ZENG Xueqiang, ZUO Jiali. Emoji Emotion Distribution Information Fusion for Multi-Label Emotion Recognition[J].Journal of Chinese Information Processing. 2024, 38(4): 120-133

全文链接：点击下载

✦ 基于知识蒸馏的跨模态语音情感分类

作者：尤佩雯，王晶晶，高晓雅，李寿山

摘要：针对语音情感分类任务面临的语音数据标注困难的挑战，该文提出了一种新的跨模态语音情感分类任务，其可以使用文本模态数据（源端）帮助语音模态数据（目标端）进行情感分类。在此基础上，提出了一种基于知识蒸馏的跨模态情感分类模型，旨在通过知识蒸馏方法将文本情感分类模型（教师模型）学习到的预训练先验知识蒸馏到语音情感分类模型（学生模型）中。该模型的特色在于无须在测试端依赖昂贵的语音识别技术，可对原始语音数据直接进行情感分类，有利于该模型在实际语音情感分类应用场景中大规模落地。实验结果表明，该文所提出的方法可以有效利用文本模态分类的经验来提升语音模态的分类效果。

关键词：跨模态；知识蒸馏；情感分类

引用格式：尤佩雯,王晶晶,高晓雅,李寿山. 基于知识蒸馏的跨模态语音情感分类[J].中文信息学报. 2024, 38(4): 134-142

YOU Peiwen, WANG Jingjing, GAO Xiaoya, LI Shoushan. Cross-modal Speech Sentiment Classification Based on Knowledge Distillation[J].Journal of Chinese Information Processing. 2024, 38(4): 134-142

全文链接：点击下载

自然语言处理应用

✦ 融合学科知识的数学习题知识点自动标注模型

作者：罗文兵，罗凯威，黄琪，王明文

摘要：习题知识点标注是构建结构化题库和实现个性化学习的关键任务。对于数学习题，由于其存在公式化、表达精炼化等特殊性，现有的标注模型无法很好地捕获关键信息，进而难以深入理解文本中蕴含的深层语义。此外，结合领域知识的知识点标注模型普遍存在引入的知识不够关键、融合的方式过于直接的问题，缺乏对信息的有效筛选，从而导致在特征融合时产生大量噪声，干扰模型最终的标注结果。为此，该文提出了一种融合学科知识的数学习题知识点自动标注模型MKAGated。该模型首先利用预训练模型对原始习题和两种细化的学科知识文本进行初步的语义编码表示，然后利用注意力机制实现习题与两种学科知识的信息交互以获取两种学科知识的深层语义表征，最后通过门控机制连续地、隐式地融合两种深层语义表征的平均池化表示以保留原始习题表示中有利于最终分类的语义特征。模型在自建的初中数学习题知识点标注数据集上测试的三种指标micro-F1、macro-F1、weighted-F1相较于基准模型分别提升了1.99%、2.99%、2.12%，实验结果表明，该文所提方法能有效提升数学习题知识点的标注。

关键词：知识点标注；学科知识；注意力机制；门控机制

引用格式：罗文兵,罗凯威,黄琪,王明文. 融合学科知识的数学习题知识点自动标注模型[J]. 中文信息学报. 2024, 38(4): 143-155

LUO Wenbing, LUO Kaiwei, HUANG Qi, WANG Mingwen. Automatic Annotation of Mathematical Exercise Topics Based on Subject Knowledge[J].Journal of Chinese Information Processing. 2024, 38(4): 143-155

全文链接：点击下载

语音信息处理

✦ 基于改进Conformer的新闻领域端到端语音识别

作者：张济民，早克热·卡德尔，艾山·吾买尔，申云飞，汪烈军

摘要：目前，开源的中文语音识别数据集大多面向通用领域，缺少面向新闻领域的开源语音识别语料库，因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR，并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证，实验表明，该文所构建的语料在最好的模型上CER为4.8%，SER为39.4%。由于新闻联播主持人说话语速相对较快，该文构建的数据集文本平均长度为28个字符，是Aishell_1数据集文本平均长度的2倍；且以往的研究中训练目标函数通常为基于字或词水平，缺乏明确的句子水平关系，因此该文提出了一个句子层级的一致性模块，与Conformer模型结合，直接减少源语音和目标文本的表示差异，在开源的Aishell_1数据集上其CER降低0.4%，SER降低2%；在CH_NEWS_ASR数据集上其CER降低0.9%，SER降低3%，实验结果表明，该方法在不增加模型参数量的前提下能有效提升语音识别的质量。

关键词：端到端语音识别；Conformer；句子层级一致性

引用格式：张济民,早克热·卡德尔,艾山·吾买尔,申云飞,汪烈军. 基于改进Conformer的新闻领域端到端语音识别[J].中文信息学报. 2024, 38(4): 156-164

ZHANG Jimin, ZAOKERE Kadeer, AISHAN Wumaier, SHEN Yunfei, WANG Liejun. End-to-End Speech Recognition in News Field Based on Conformer[J].Journal of Chinese Information Processing. 2024, 38(4): 156-164

全文链接：点击下载

↑点开查看清晰大图

长按识别下图二维码

关注我们

获取中文信息处理领域

专业干货

点击|阅读原文|获取当期全文

http://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ==&mid=2247485654&idx=1&sn=b9538b08a716b58f7f31911dc4c7d8d1

中文信息学报

于1986年创刊，是由中国科学技术协会主管，中国中文信息学会和中国科学院软件研究所合办的高水平学术期刊。被中国科技核心期刊、中国核心期刊、全国中文核心期刊等数据库收录，它及时反映我国中文信息处理的学术水平，是中文信息处理领域的重要参考资料。