《中文信息学报》新刊概览∣ 2024年第5期(38卷第5期)

文摘   科技   2024-06-28 11:40   北京  



 ↑点开查看清晰大图  






综述





✦  非关系型表格理解前沿进展


作  者:罗 平,杨清平,曹逸轩,曹荣禹,何 清

摘  要:表格理解是指通过计算机对广泛存在于互联网、垂直领域的表格进行自动识别、解析和应用的过程。表格可大致分为关系型表格和非关系型表格。前者类似关系数据库表格,具有结构固定、机器易解析等特点,其研究历史由来已久。后者通常布局多变,语法灵活,具有更明显的语言特性,这也导致计算机在解析和应用非关系型表格时面临着极大挑战。非关系型表格理解是自然语言和计算机视觉多模态交叉的重要新兴领域之一。随着近年来深度学习技术的普及应用,非关系型表格在表格识别、语义分析、创新应用几个方向得到了长足发展。该文介绍了非关系型表格的结构特点,阐述了其在研究过程中面临的独特挑战,然后从表格识别、语义分析、创新应用三个研究方向简要介绍了近年来此领域的发展,归纳了相关数据集,最后总结了目前非关系型表格理解领域亟需解决的问题,展望了未来研究方向。

关键词:表格智能;深度学习;多模态自然语言处理

引用格式:罗平,杨清平,曹逸轩,曹荣禹,何清. 非关系型表格理解前沿进展[J].中文信息学报. 2024, 38(5): 1-21

LUO Ping, YANG Qingping, CAO Yixuan, CAO Rongyu, HE Qing. A Survey on Non-Relational Table Understanding. Journal of Chinese Information Processing[J].2024, 38(5): 1-21

全文链接:点击下载







语言分析与计算




✦  中文连动句语义关系识别研究


作  者:孙 超,曲维光,魏庭新,顾彦慧,李 斌,周俊生

  要:连动句是形如“NP+VP1+VP2”的句子,句中含有两个或两个以上的动词(或动词结构)且动词的施事为同一对象。相同结构的连动句可以表示多种不同的语义关系。该文基于前人对连动句中VP1和VP2之间的语义关系分类,标注了连动句语义关系数据集,基于神经网络完成了对连动句语义关系的识别。该方法将连动句语义识别任务进行分解,基于BERT进行编码,利用BiLSTM-CRF先识别出连动句中连动词(VP)及其主语(NP),再基于融合连动词信息的编码,利用BiLSTM-Attention对连动词进行关系判别,实验结果验证了该文所提方法的有效性。

关键词:连动结构;神经网络;连动句语义关系识别

引用格式:孙超,曲维光,魏庭新,顾彦慧,李斌,周俊生. 中文连动句语义关系识别研究[J].中文信息学报. 2024, 38(5): 22-31

SUN Chao, QU Weiguang, WEI Tingxin, GU Yanhui, Li Bin, ZHOU Junsheng. Semantic Relation Recognition of Chinese Serial-verb Sentences[J].Journal of Chinese Information Processing. 2024, 38(5): 22-31

全文链接:点击下载 




✦  基于话头话体共享结构信息的机器阅读理解研究

作  者韩玉蛟,罗智勇,张明明,赵志琳,张 青
摘  要机器阅读理解(Machine Reading Comprehension, MRC)任务旨在让机器回答给定上下文的问题来测试机器理解自然语言的能力。目前,基于大规模预训练语言模型的神经机器阅读理解模型已经取得重要进展,但在涉及答案要素、线索要素和问题要素跨标点句、远距离关联时,答案抽取的准确率还有待提升。该文通过篇章内话头话体结构分析,建立标点句间远距离关联关系,补全共享缺失成分,辅助机器阅读理解答案抽取;设计和实现融合话头话体结构信息的机器阅读理解模型,在公开数据集CMRC2018上的实验结果表明,模型的F1值相对于基线模型提升2.4%,EM值提升6%。
关键词机器阅读理解;话头话体结构分析;注意力机制;预训练语言模型
引用格式韩玉蛟,罗智勇,张明明,赵志琳,张青. 基于话头话体共享结构信息的机器阅读理解研究[J].中文信息学报. 2024, 38(5): 32-40
HAN Yujiao, LUO Zhiyong, ZHANG Mingming, ZHAO Zhilin, Zhang Qing. Machine Reading Comprehension Based on Shared Structure Information between Naming and Telling[J].Journal of Chinese Information Processing. 2024, 38(5): 32-40
全文链接点击下载 



✦ 基于多层级语言特征融合的中文文本可读性分级模型

作  者谭可人,兰韵诗,张 杨,丁安琪
摘  要中文文本可读性分级任务的目标是将中文文本按照其可读性划分到相应的难度等级。近年来研究表明,语言特征与深度语义特征在表征文章难度上体现出互补性。但已有的工作仅对两类特征进行浅层融合,尚未考虑将语言特征和深度模型进行深层、多层级融合。因此,该文在基于BERT的传统文本可读性分级模型的基础上,设计多层级语言特征融合方法,考虑到不同语言特征和网络层结构的交互,将汉字、词汇和语法的语言特征与模型的嵌入层和自注意力层进行融合。实验结果显示,该文的方法在中文文本可读性分级任务上的效果超过了所有基线模型,并在测试集上达到94.2%的准确率。
关键词中文文本可读性分级;多层级特征融合;深度模型
引用格式谭可人,兰韵诗,张杨,丁安琪. 基于多层级语言特征融合的中文文本可读性分级模型[J].中文信息学报. 2024, 38(5): 41-52
TAN Keren, LAN Yunshi, ZHANG Yang, DING Anqi. Chinese Text Readability Grading via Multi-level Linguistic Feature Fusion[J].Journal of Chinese Information Processing. 2024, 38(5): 41-52
全文链接点击下载 







信息抽取与文本挖掘 






✦ 基于框架语义映射和类型感知的篇章事件抽取


作  者:卢 江,苏雪峰,李 茹,闫智超,陈加兴

  要:篇章事件抽取任务从给定的文本中识别其事件类型和事件论元。该任务包括事件检测和论元识别两个子任务。目前篇章事件普遍存在数据稀疏和多值论元耦合的问题。基于此,该文提出了一种基于框架语义映射和类型感知的篇章事件抽取方法。该文分析发现事件描述与框架语义网有着相似的结构,因此将汉语框架网(CFN)与中文篇章事件建立映射,并在文本输入层引入触发词释义信息和滑窗机制充分感知上下文信息,改善了事件检测的数据稀疏问题;使用基于类型感知标签的多事件分离策略缓解了论元耦合问题。为了提升模型的鲁棒性,进一步引入对抗训练。在DuEE-fin和CCKS2021数据集上的实验结果显示,该文模型较当前主流模型测试结果有较大提升,验证了方法的有效性。

关键词汉语框架网;框架语义映射;类型感知;事件抽取 

引用格式:卢江,苏雪峰,李茹,闫智超,陈加兴. 基于框架语义映射和类型感知的篇章事件抽取[J].中文信息学报. 2024, 38(5): 53-64

LU Jiang, SU Xuefeng, LI Ru, YAN Zhichao, CHEN Jiaxing. Document-Level Event Extraction Based on Frame Semantic Mapping and Type Awareness[J]. Journal of Chinese Information Processing. 2024, 38(5): 53-64

全文链接:点击下载




✦ 基于PCNN相似句袋注意力的远程监督关系抽取方法


作  者:吴介坤,李卫疆

  要:在关系抽取任务中,远程监督通过对齐知识库(KB)和文本来自动生成训练数据,从而解决了人工标注数据的问题。然而,远程监督不可避免会伴随着错误标签的问题。为了解决错误标签的问题,该文提出了基于PCNN(分段卷积神经网络)相似句袋注意力的远程监督关系抽取方法(PCNN-PATT-SBA),该模型提出了基于高斯分布的位置注意力机制(PATT),通过对非实体词与实体词之间的位置关系建模,为句子中每个单词分配相应的权重,从而降低噪声词的影响。另外,基于不同句袋之间的特征相似性,该文提出了相似句袋注意力机制(SBA),通过融合相似句袋的特征,从而达到解决单句子句袋信息过少的问题。在数据集New York Times(NYT)上的实验结果证明了该文提出方法的有效性,并且相对于句袋间注意力模型,在P@N值上提高了6.9%。

关键词远程监督;位置特征;相似度;注意力机制;高斯分布

引用格式:吴介坤,李卫疆. 基于PCNN相似句袋注意力的远程监督关系抽取方法[J].中文信息学报. 2024, 38(5): 65-75

WU Jiekun, LI Weijiang. Distant Supervision Relation Extraction Based on PCNN Similar Bag Attention[J].Journal of Chinese Information Processing. 2024, 38(5): 65-75

全文链接:点击下载




✦ 面向无触发词文本的因果关系事件对联合抽取模型


作  者:张国梁,朱 桐,陈文亮

  要:事件因果关系抽取(Event Causality Extraction, ECE)是从文本中抽取出表示因果事件对的事件类型、事件要素及事件间的关系。之前的工作都在含有触发词的文本上进行,并且事件抽取和关系识别也都依靠触发词等事件主体。然而,现实中有许多文本没有触发词,因此该文的抽取任务则是在无触发词标注的文本上进行。该任务的难点在于不仅要抽取多个独立事件,还要判断相互间的因果关系,并且存在事件主体缺失、多事件对及事件类型重叠的问题。该文提出一种分阶段的联合抽取模型,在第一阶段,利用层叠结构模型识别出文本中的事件类型与因果关系;在第二阶段,利用“双定位”和阅读理解机制获得嵌入事件类型信息的句子表示,并通过多层二元标志解码器预测各事件要素的首尾位置。为缓解误差传播问题,该文将两阶段模型通过共享编码层的方式联合训练。实验表明,该文提出的方法可以在完全无规则的情况下有效抽取出无触发词文本中的因果事件对。

关键词事件因果关系抽取;事件抽取;关系抽取

引用格式:张国梁,朱桐,陈文亮. 面向无触发词文本的因果关系事件对联合抽取模型[J]. 中文信息学报. 2024, 38(5): 76-87

ZHANG Guoliang, ZHU Tong, CHEN Wenliang. A Joint Model for Causal Event Pairs Extraction without Triggers[J].Journal of Chinese Information Processing. 2024, 38(5): 76-87

全文链接:点击下载




✦ 非样本均衡细粒度金融要素抽取研究


作  者:徐土杰,陈清财

  要:金融要素抽取旨在应用信息抽取技术,从合同、计划书中提取出能够反映金融文档关键性信息的一些实体、短语等,又称为金融要素,最终实现金融文档的自动化处理。相比现有抽取任务,金融要素抽取任务面临着样本长尾分布、细粒度以及长文本长要素等难点,现有抽取模型无法有效处理如此复杂的抽取问题,抽取效果不佳。对此,该文提出了将要素抽取任务转换为带类型的头尾指针预测任务的模型ENAPtBERT。一方面,ENAPtBERT头尾指针的设计缓解了不合法标签的影响,并能很好地结合不均衡损失函数以缓解不均衡问题。另一方面,ENAPtBERT利用引入的要素名称信息增强模型发现要素、分类要素的准确率。在金融要素抽取数据集上,ENAPtBERT的Micro-F1指标比现有抽取模型提升了2.50%,Macro-F1指标至少提升了2.66%,有效证明了ENAPtBERT处理复杂抽取问题的有效性。

关键词金融要素抽取;不均衡;细粒度;要素名称信息

引用格式:徐土杰,陈清财. 非样本均衡细粒度金融要素抽取研究[J].中文信息学报. 2024, 38(5): 88-98

XU Tujie, CHEN Qingcai. Non-Sample Equilibrium Fine-grained Financial Element Extraction[J].Journal of Chinese Information Processing. 2024, 38(5): 88-98

全文链接:点击下载




✦ 融入文档图和事件图的新闻核心事件检测


作  者:赵庆珏,余正涛,王 剑,黄于欣,朱恩昌

  要:新闻核心事件检测旨在从非结构化的新闻文本中检测出最能代表新闻核心内容的事件。新闻报道的多个事件之间存在着复杂的关联关系,且同一个事件的事件要素分布在不同的句子甚至不同的段落中,传统的方法对事件之间的关联关系以及事件的全局语义信息建模不充分。因此,该文提出了融入文档图和事件图的新闻核心事件检测方法。该方法首先通过构建文档图和事件图来建模新闻文本的全局语义特征和事件之间的关联特征。然后,通过图卷积神经网络捕获高阶邻域信息,获得文档表征和事件表征。最后,将得到的文档表征和事件表征使用交叉注意力进一步捕获事件全局语义信息。在纽约时报数据集上的实验结果验证了该文方法的有效性,NR@1较基线方法提升2.18%。

关键词核心事件检测;文档图;事件图;交叉注意力机制

引用格式:赵庆珏,余正涛,王剑,黄于欣,朱恩昌. 融入文档图和事件图的新闻核心事件检测. 中文信息学报. 2024, 38(5): 99-106

ZHAO Qingjue, YU Zhengtao, WANG Jian, HUANG Yuxin, ZHU Enchang. News Salient Event Detection Incorporating Document Graph and Event Graph[J]. Journal of Chinese Information Processing. 2024, 38(5): 99-106

全文链接:点击下载




✦ 基于孪生网络文本语义匹配的多文档摘要


作  者:钟 琪,王中卿,王红玲

  要:多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式摘要方法,该方法将孪生网络和预训练语言模型BERT相结合,构建一个文本语义匹配与文本摘要联合学习模型。该模型运用孪生网络从不同的视角考察任意两个文本单元之间的语义关联,学习文档集中碎片化的信息,进一步对重要信息进行评估,最后结合文本摘要模型选择出更能代表文档集主要内容的句子组织成摘要。实验结果表明,该文所提方法和当前主流的多文档抽取式摘要方法相比,在ROUGE评价指标上有较大提升。

关键词多文档抽取式摘要;语义关系;预训练语言模型

引用格式:钟琪,王中卿,王红玲. 基于孪生网络文本语义匹配的多文档摘要[J].中文信息学报. 2024, 38(5): 107-116

ZHONG Qi, WANG Zhongqing, WANG Hongling. Siamese Network-Based Text Semantic Matching for Multi-Document Summarization[J].Journal of Chinese Information Processing. 2024, 38(5): 107-116

全文链接:点击下载








问答与对话





✦ 面向知识图谱问答的查询图生成方法


作  者:谈川源,贾永辉,陈文亮,陈跃鹤

摘  要:该文提出一种新的查询图生成方法用于知识图谱问答系统的问句解析。现有查询图生成工作覆盖的复杂问句类型有限,不能较好地处理答案为关系或涉及关系约束的问句,且未充分考虑路径结果间的组合与运算。因此,该文在查询图生成中应用节点操作的同时引入基于关系的操作,并考虑不同主路径之间的组合情况,显著提升对复杂问句的分析能力。并在此基础上,构建了中文知识图谱问答系统。此外,该文构建一份包含多种复杂类型问句的中文知识图谱问答数据集。该数据集和CCKS2019-CKBQA数据集合并后构成一个新的数据集CCKS2019-Comp,并用来测试本文方法的有效性。实验结果表明,该文方法在CCKS2019-CKBQA和CCKS2019-Comp测试集上平均F1值分别达到73.8%和73.3%。该文的新构建数据和代码已开源:https://github.com/cytan17726/KBQA_QueryGraphGeneration。

关键词:知识图谱问答;查询图生成;数据构建;问答系统

引用格式:谈川源,贾永辉,陈文亮,陈跃鹤. 面向知识图谱问答的查询图生成方法[J].中文信息学报. 2024, 38(5): 117-126

TAN Chuanyuan, JIA Yonghui, CHEN Wenliang, CHEN Yuehe. A Query Graph Generation Method for Knowledge Base Question Answering[J].Journal of Chinese Information Processing. 2024, 38(5): 117-126

全文链接:点击下载




✦ 面向干扰项增强的无监督常识问答模型


作  者:李 伟,黄贤英,冯雅茹

摘  要:问题生成是无监督常识问答模型的一个核心子任务,目前的方法主要是根据给定知识生成问题和答案,并为每个问题随机生成多个干扰项,然而这些方法存在干扰项与问题相关性不强且随机性较大的问题。该文提出一种面向干扰项增强的无监督常识问答模型,首先根据知识三元组生成问题和正确答案,再为问题建立对应的问题子图,得到与问题相关的三元组集合,使用注意力机制增强特征并根据问题和正确答案确定干扰项,最后使用生成的数据对模型进行训练。该模型在四个不同类型的测试任务上的结果表明,该模型优于目前的最新方法,证明了该模型的有效性。

关键词:干扰项增强;问题子图;注意力机制

引用格式:李伟,黄贤英,冯雅茹. 面向干扰项增强的无监督常识问答模型[J].中文信息学报. 2024, 38(5): 127-135

LI Wei, HUANG Xianying, FENG Yaru. Unsupervised Commonsense Question Answering Via Negative Samples Enhancement[J].Journal of Chinese Information Processing. 2024, 38(5): 127-135

全文链接:点击下载








情感分析与社会计算




 基于多粒度融合的图卷积网络会话情感分析


作  者:王 佳,朱小飞,唐 顾,黄贤英

摘  要:会话情感分析指对一段会话中的每句话进行情感分类,目前大部分会话情感分析模型不仅忽略了对话中内部信息的相互影响,而且没有考虑到日常对话中存在的隐性背景情感。为了有效解决这些问题,该文提出了一个基于多粒度融合的图卷积神经网络,其主要包括两个模块,即特征提取模块和星图增强的图学习模块。首先,特征提取模块使用预训练语言模型RoBERTa获取会话中语句之间粗粒度的上下文信息,同时结合句法依赖树获取词之间细粒度的句法信息,从而将多粒度特征信息引入到会话情感建模。然后,在星图增强的图学习模块中建模会话的背景情感信息和会话中不同说话者之间的交互信息,从而增强会话情感分析的准确性。实验结果表明,该文提出的模型与其他基线模型相比,其准确性以及度量指标F1值在所有数据集上均有显著提升。

关键词:会话情感分析;多粒度融合;句法依赖树;图卷积网络

引用格式:王佳,朱小飞,唐顾,黄贤英. 基于多粒度融合的图卷积网络会话情感分析[J].中文信息学报. 2024, 38(5): 136-145

WANG Jia, ZHU Xiaofei, TANG Gu, HUANG Xianying. Multi-granular Information Fusion Approach to Graph Convolutional Network Based Conversational Emotion Recognition[J].Journal of Chinese Information Processing. 2024, 38(5): 136-145

全文链接:点击下载




 融合文本摘要和情绪感知的抑郁倾向识别


作  者:季浩然,林鸿飞,杨 亮,徐 博

摘  要:抑郁症作为世界第四大疾病,严重影响着人们的生理和心理健康。随着互联网的发展,社交媒体的发布内容已经成为研究精神疾病的重要数据源,研究者开始应用自然语言处理技术自动检测抑郁倾向。现存算法无法充分捕捉到长文本中的关键信息,忽略了对用户情绪状态的时序性建模,进而造成抑郁倾向识别性能不佳。该文提出一种融合文本摘要和情绪感知的抑郁倾向识别模型,首先利用文本摘要算法抽取用户历史文本的全局语义特征,在压缩文本长度的同时保留了与用户真实意图强相关的内容;然后利用词汇增强算法计算句子级的细粒度情绪表示,并结合深度神经网络捕获了用户的情绪变化特征。实验结果表明,该文提出的模型取得了更佳的识别效果,在抑郁倾向识别数据集上将检测结果的正类F1值提升至75.61%。

关键词:抑郁倾向识别;自然语言处理;文本摘要;情绪感知

引用格式:季浩然,林鸿飞,杨亮,徐博. 融合文本摘要和情绪感知的抑郁倾向识别[J].中文信息学报. 2024, 38(5): 146-154

JI Haoran, LIN Hongfei, YANG Liang, XU Bo. Depression Recognition by Conbining Summarization and Emotion Perception[J].Journal of Chinese Information Processing. 2024, 38(5): 146-154
全文链接:点击下载






自然语言理解与生成





✦ 基于预训练模型自适应匹配的视觉故事生成算法


作  者:宁 铭,江爱文,崔朝阳,刘长红,王明文

摘  要:视觉故事生成任务是为一组图像序列生成具有表现力和连贯性的、能准确描述所涉及视觉内容的语句段落,是当前计算机视觉和自然语言处理交叉领域中一个有趣而又快速发展的多模态研究方向。随着预训练模型在各种下游任务的成功,基于预训练模型的视觉故事生成算法也被广泛研究。但因为数据模态的差异和语义鸿沟的存在,预训练模型在微调学习过程中会产生灾难性遗忘问题。如何协调视觉和语言两种模态数据的预训练模型,是当前多模态预训练模型研究的主要目标之一。该文提出基于预训练模型自适应匹配的视觉故事生成算法,一方面综合挖掘图像流的视觉、关系、序列等多样化互补信息,弥补语义差异;同时,另一方面用适应性损失对图文两种模态数据进行特征对齐,以及对图像流数据进行连续信息对齐,取得了较好的效果。算法在目前已公开的视觉故事生成数据集(VIST)上与近年的先进算法进行实验比较。评测结果表明,该文算法在生成故事的图文相关性、文本多样性、内容逻辑连贯性等指标上取得了具有竞争力的结果。

关键词:视觉故事;适应匹配损失;预训练模型;多模态特征;图像序列

引用格式:宁铭,江爱文,崔朝阳,刘长红,王明文. 基于预训练模型自适应匹配的视觉故事生成算法[J].中文信息学报. 2024, 38(5): 155-166

NING Ming, JIANG Aiwen, CUI Zhaoyang, LIU Changhong, WANG Mingwen. Visual Story Generation Based on Adaptive Pre-trained Model Matching[J]. Journal of Chinese Information Processing. 2024, 38(5): 155-166

全文链接:点击下载




✦ 修辞可控的中国古典诗歌生成


作  者:杨媛婷,朱泓禹,马安香,刘玉豪,罗应峰,肖 桐

摘  要:中国古典诗歌是一种语言凝练、语义丰富的文学艺术,它的创作因素有许多方面,修辞手法是其中一个最显著的特征之一,诗人在进行创作时通常会使用修辞手法来增强诗歌的感染力和表现力。该文致力于构建具有修辞手法创作能力的诗歌生成模型,以此来提升生成诗歌的多样性、趣味性和新颖性,从而增加读者阅读过程中的审美体验。该文首先通过人工标注、词句特征提取、训练基于BERT的修辞分类器的方式构建一个修辞诗句数据库,然后将每首诗按照一定的方式序列化成一个长句子,并以此来训练语言模型得到诗歌生成模型。自动评测和人工评测结果表明,模型可以生成具有特定修辞手法的诗歌,且生成诗歌的质量相比基线有显著提升。

关键词:中国古典诗歌;诗歌生成;修辞可控

引用格式:杨媛婷,朱泓禹,马安香,刘玉豪,罗应峰,肖桐. 修辞可控的中国古典诗歌生成[J].中文信息学报. 2024, 38(5): 167-174

YANG Yuanting, ZHU Hongyu, MA Anxiang, LIU Yuhao, LUO Yingfeng, XIAO Tong. Rhetoric-Controllable Chinese Classical Poetry Generation[J]. Journal of Chinese Information Processing. 2024, 38(5): 167-174

全文链接:点击下载





↑点开查看清晰大图  




长按识别下图二维码

关注我们

获取中文信息处理领域

专业干货


点击|阅读原文|获取当期全文

中文信息学报
于1986年创刊,是由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的高水平学术期刊。被中国科技核心期刊、中国核心期刊、全国中文核心期刊等数据库收录,它及时反映我国中文信息处理的学术水平,是中文信息处理领域的重要参考资料。