《中文信息学报》新刊概览∣ 2023年第10期(37卷第10期)

文摘   科技   2023-12-12 16:38   北京  

 


 ↑点开查看清晰大图  






综述





✦ 神经网络结构搜索前沿综述


作  者:杨木润,曹润柘,杜 权,李垠桥,肖 桐,朱靖波

摘  要:深度学习已经在多个领域得到了广泛的使用,并取得了令人瞩目的成绩。然而优秀的网络结构设计在很大程度上仍然依赖于研究者的先验知识和大量的实验验证,整个过程对于人力、算力等资源消耗巨大。因此,能否让计算机自动地找到最适用于当前任务的神经网络结构成为了当前研究的热点。近年来,研究人员对神经网络结构搜索(Neural Architecture Search,NAS)进行了各种改进,相关研究工作复杂且丰富。为了让读者对神经网络结构搜索方法有更清晰的了解,该文从神经网络结构搜索的三个维度: 搜索空间、搜索策略和性能评估策略对现有方法进行了分析,并提出了未来可能的研究方向。

关键词:神经网络结构搜索;搜索空间;搜索策略;性能评估策略;自动机器学习

引用格式:杨木润,曹润柘,杜权,李垠桥,肖桐,朱靖波. 神经网络结构搜索前沿综述[J].中文信息学报. 2023, 37(10): 1-15

YANG Murun, CAO Runzhe, DU Quan, LI Yinqiao, XIAO Tong, ZHU Jingbo. Frontiers in Neural Architecture Search: A Literature Review[J]. Journal of Chinese Information Processing. 2023, 37(10): 1-15
全文链接:点击下载







语言分析与计算




✦  基于依存句法的中文语义模型及语义提取方法


作  者:王佳琦,韩 军,孙启童

  要:意图识别与槽填充是语义提取的常用方法,其存在如下两个问题: 依赖训练数据,需要标注大量的数据用于训练模型;可迁移性差,训练得到的模型难以复用。针对上述问题,该文对于不同的语义提取场景,提出了四种不同的语义模型。同时,该文研究了汉语语法的特点,基于依存句法,提出了不同的语义提取算法,解决了模型难以复用的问题。该方法对数据集的要求较低,节省了成本。最后,设计了语义提取实验,验证了在样本规模小且分布不均匀的数据集下,语义提取算法相比于部分中文文本分类算法有更高的准确率。该文提出的模型和算法具有一般性,对于文本分类、人机对话等不同语义提取场景具有较强的指导意义。

关键词:意图识别;依存句法;语义模型;语义提取

引用格式:王佳琦,韩军,孙启童. 基于依存句法的中文语义模型及语义提取方法[J].中文信息学报. 2023, 37(10): 16-25

WANG Jiaqi, HAN Jun, SUN Qitong. Chinese Semantic Model and Semantic Extraction Method Based on Dependency Syntax[J]. Journal of Chinese Information Processing. 2023, 37(10): 16-25

全文链接:点击下载 



✦  汉语增强依存句法自动转换研究

作  者余婧思,师佳璐,杨麟儿,肖 丹,杨尔弘
摘  要在斯坦福基础依存句法规范的基础上,该文研制了汉语增强依存句法规范,主要贡献在于: 介词和连词的增强、并列项的传播、句式转换和特殊句式的增强。此外,该文提供了基于Python的汉语增强依存句法转换的转换器,以及将句子从基础依存句法树通过所提规范解析成依存图的Web演示。最后,该文探索了增强依存句法的实际应用,并以搭配抽取和信息抽取为例进行相关讨论。
关键词依存句法;汉语增强依存句法;自动转换
引用格式余婧思,师佳璐,杨麟儿,肖丹,杨尔弘. 汉语增强依存句法自动转换研究[J].中文信息学报. 2023, 37(10): 26-33
YU Jingsi, SHI Jialu, YANG Lin'er, XIAO Dan, YANG Erhong. Automatic Transformation of Enhanced Dependencies in Chinese[J]. Journal of Chinese Information Processing. 2023, 37(10): 26-33

全文链接点击下载 







信息抽取与文本挖掘




✦ 基于语义相关性的命名实体识别算法研究


作  者:袁运新,樊腾飞,聂为之

  要:高质量的命名实体识别算法往往依赖海量的高质量标注数据来帮助实体识别模型的训练,然而大规模标注数据的获取存在诸多困难,如何通过文本信息自身的相关性来提高实体识别的准确性受到越来越多科研工作者的关注。该文有效地利用文本信息的语义相关性引入“实体联合器”概念,通过其与实体的高相关性,提高实体的数字化表征能力,进而实现对实体的有效识别。基于此,首先提出了一种实体联合器识别模型,通过文本关联结构信息来实现非标签文本的实体联合器识别;之后,采用经典的BiLSTM网络模型,提取句子的语义表征,并利用特征融合机制实现实体联合器与句子特征融合;由于实体联合器与实体有较强的关联性,又提出了针对实体表征及句子整体表征的约束机制,确保实体联合器在特征学习过程中的指导作用,精准高效地识别文本数据中的实体。通过在公开的数据集CoNLL03、NCBI Disease上对该文算法进行测试,相关实验结果证明了该文所提出算法的优越性和合理性。

关键词命名实体识别; 语义相关性; 实体联合器

引用格式:袁运新,樊腾飞,聂为之. 基于语义相关性的命名实体识别算法研究[J].中文信息学报. 2023, 37(10): 34-44

YUAN Yunxin, FAN Tengfei, NIE Weizhi. Named Entity Recognition Algorithm Based on Semantic Relevance[J]. Journal of Chinese Information Processing. 2023, 37(10): 34-44

全文链接:点击下载





✦ 基于对比学习与数据增强的零样本事件检测


作  者:纪文迪,张森辉,王晓玲,孔维璟

  要:事件检测是一项经典的自然语言处理任务。然而在实践中,获取高质量的标注数据需要耗费大量的人力,这使得现有的基于监督学习的方法在面对大量未定义的新事件类型时表现不佳。面对零样本事件检测的困境,现有方法或者需要预定义的事件类型作为启发规则,或者由于自编码器类间特征提取能力不足,无法进一步归类发现的未知事件。为此,该文提出了一种基于对比学习与数据增强的零样本事件检测方法,通过对事件描述的重构与复写,自动为无监督的对比学习提供训练样本。模型只需要部分已知事件类别标准数据,便可以从大量文本中自动发现并归类新的事件类型。实验表明,该方法在保持对已知类别事件识别能力的同时,能够显著提升对未知事件类别识别的准确率。

关键词零样本;事件抽取;对比学习

引用格式:纪文迪,张森辉,王晓玲,孔维璟. 基于对比学习与数据增强的零样本事件检测[J].中文信息学报. 2023, 37(10): 45-54

JI Wendi, ZHANG Senhui, WANG Xiaoling, KONG Weijing. A Zero-Shot Event Detection Model Based on Contrastive Learning and Data Augmentation[J]. Journal of Chinese Information Processing. 2023, 37(10): 45-54

全文链接:点击下载



✦ 基于自监督学习的委婉语识别方法


作  者:胡玉雪,吴明民,沙 灜,曾 智,张瑜琦

  要:委婉语常被用于社交媒体和暗网交易市场,以其表面含义掩盖潜在含义来逃避平台的监管,例如,用“weed”(杂草)代替“marijuana”(大麻)进行非法交易。委婉语识别是将给定的委婉语映射到特定的目标词(潜在含义)。当前委婉语识别的研究没有获得广泛关注,一方面缺乏有效标注的数据集,另一方面现有方法主要关注委婉语句子中的单个词汇,忽略了委婉语的语境信息。针对上述问题,该文提出了双层自监督学习模型——DSLM(Double Self-supervised Learning Method)用于委婉语识别: 外层自监督学习框架用来自动构建含标签数据集,以解决缺乏有效标注数据集的问题;内层使用语境对比学习方法,利用委婉语语境信息,拉近委婉语语境表示和目标词的语义距离。实验表明,该方法优于当前最先进的方法,且结果更稳定、模型收敛更快。

关键词委婉语识别;自监督学习;对比学习

引用格式:胡玉雪,吴明民,沙灜,曾智,张瑜琦. 基于自监督学习的委婉语识别方法[J].中文信息学报. 2023, 37(10): 55-63,75

HU Yuxue, WU Mingmin, SHA Ying, ZENG Zhi, ZHANG Yuqi. A Self-Supervised Learning Method for Euphemism Identification[J]. Journal of Chinese Information Processing. 2023, 37(10): 55-63,75

全文链接:点击下载




✦ 融合标签语义知识的价值观多标签文本分类


作  者:韩泓霖,单丽莉,孙承杰,刘秉权

  要:为了准确识别网络文本中的价值观倾向,该文提出了一种融合标签语义知识实现价值观多标签文本分类的策略。首先基于价值观理论体系,构建了价值观知识图谱;然后构建了价值观多标签文本分类数据集;最后提出了融合标签语义知识的价值观多标签文本分类模型,通过两种方式融合价值观标签的语义知识。其一,利用标签语义信息进行文本表示学习,获得每个标签对于文本中不同词的重要程度;其二,利用标签的语义知识,计算标签与文本的语义相似度,并与分类模型结果融合。实验表明,该方法可以较好地解决价值观多标签分类问题,尤其可以缓解“尾标签”问题,最终在top@1结果上达到62.44%的精确率,在top@3上达到66.92%的召回率。

关键词价值观;标签语义;知识图谱;多标签文本分类

引用格式:韩泓霖,单丽莉,孙承杰,刘秉权. 融合标签语义知识的价值观多标签文本分类[J].中文信息学报. 2023, 37(10): 64-75

HAN Honglin, SHAN Lili, SUN Chengjie, LIU Bingquan. Multi-Label Text Classification Combining Semantic Knowledge of Value Labels[J]. Journal of Chinese Information Processing. 2023, 37(10): 64-75

全文链接:点击下载







自然语言理解与生成





✦ 基于双图注意力的多领域口语语言理解联合模型


作  者:贾 旭,彭 敏

摘  要:多领域口语语言理解包括多意图识别和槽填充两个子任务,现有研究通过构建语句中的意图和槽之间的关联提升模型的表现。然而现有研究将多领域场景下的意图和槽看作相互独立的标签,忽视了标签之间领域内和领域间的结构关联。该文提出细粒度标签图和领域相关图的双图注意力联合模型。具体来说,细粒度标签图将意图和槽标签分成细粒度分片,建模分片之间的结构性关联和上下文表示的语义特征。领域相关图通过标签间的领域信息,建模预测意图和对应领域内槽的关联,减少图中的冗余关联。实验结果表明,在两个公开的数据集上,该文提出的模型均优于基准模型。

关键词:多领域口语语言理解;多意图识别;细粒度标签图;领域相关图

引用格式:贾旭,彭敏. 基于双图注意力的多领域口语语言理解联合模型[J].中文信息学报. 2023, 37(10): 76-85

JIA Xu, PENG Min. DualGAT Based Joint Model for Multi-Domain Spoken Language Understanding[J]. Journal of Chinese Information Processing. 2023, 37(10): 76-85

全文链接:点击下载




✦ 一种融合知识点信息的几何题自动求解方法


作  者:曹 杰,肖 菁,曹 阳

摘  要:近年来,数学题的自动求解研究逐渐成为焦点,但是当前研究主要侧重于文字应用题求解,对于几何题的自动求解研究还比较少。针对该问题,已经有研究学者提出了基于深度学习方法的几何题求解模型,但是他们的方法不能根据几何题的特点进行设计,没有将知识点信息应用于题目的求解中。受到人类求解几何题的思维方式的启发,该文基于几何题的求解特点设计了一个几何题知识点预测任务,用于预训练文本编码器,然后从预训练后的文本编码器中获得知识点的语义向量表示。随后设计了一种融合知识点语义信息的几何题求解方法①。实验结果表明,基于知识点预训练任务和知识点信息融合方法的模型能将几何题的自动求解准确率提升至66.89%

关键词:数学几何题;预训练任务;自动求解

引用格式:曹杰,肖菁,曹阳. 一种融合知识点信息的几何题自动求解方法[J].中文信息学报. 2023, 37(10): 86-96

CAO Jie, XIAO Jing, CAO Yang. Automatic Geometric Problem Solution by Integrating Knowledge Points Information[J]. Journal of Chinese Information Processing. 2023, 37(10): 86-96

全文链接:点击下载




✦ 基于反事实推理的事实验证去偏方法


作  者:陈建贵,张儒清,郭嘉丰,范意兴

摘  要:事实验证是一项具有挑战性的任务,旨在使用来自可信赖语料库的多个证据句子来验证声明。为了促进研究,一些事实验证数据集被提出,极大地加速了事实验证技术的发展。然而,现有的事实验证数据集通常采用众包的方法构造,无可避免地引入偏差。已有事实验证去偏工作大致可以分为基于数据增强的方法和基于权重正则化的方法,前者不灵活,后者依赖于训练阶段的不确定输出。与已有工作不同,该文从因果关系出发,提出基于反事实推理的事实验证去偏方法。该文首先设计事实验证中的因果图,建模声明、证据以及它们之间的交互和预测结果的因果关系。接着,根据因果图提出事实验证去偏方法,通过总间接效应去除声明带来的偏差影响。我们使用多任务学习的方式来训练模型。训练时,该文采用多任务学习的方式建模各个因素的影响,同时在有偏和无偏测试集上评估模型的性能。实验结果表明,对比基准方法,该文模型在性能上获得了一致的提升

关键词:事实验证;反事实推理;去偏模型

引用格式:陈建贵,张儒清,郭嘉丰,范意兴. 基于反事实推理的事实验证去偏方法[J].中文信息学报. 2023, 37(10): 97-105

CHEN Jiangui, ZHANG Ruqing, GUO Jiafeng, FAN Yixing. Counterfactual Inference for Fact Verification Debiasing[J]. Journal of Chinese Information Processing. 2023, 37(10): 97-105

全文链接:点击下载






计算论辩专栏计算论辩专栏




 对话式论辩研究综述


作  者:魏忠钰,丁佳玙,沈晨晨,高 源,梁敬聪,纪程炜,林嘉昱,黄萱菁

摘  要:近年来,论辩研究引起计算语言学学者的关注,并催生了一个新的研究领域,即计算论辩学。根据参与论辩过程的人数不同,计算论辩学的研究可以分成两类,即,单体式论辩和对话式论辩。对话式论辩过程在现实世界中广泛存在,如社交网络平台、司法领域、教育领域等,但是相关的研究才刚刚起步。该文综述了对话式论辩领域的基本任务设置、主流模型框架、下游应用以及公开数据和评测方法。最后,该文也指出对话式论辩未来发展的几个研究方向,包括多模态的对话式论辩分析、知识注入的论辩生成等。

关键词:计算论辩;对话式论辩

引用格式:魏忠钰,丁佳玙,沈晨晨,高源,梁敬聪,纪程炜,林嘉昱,黄萱菁. 对话式论辩研究综述[J].中文信息学报. 2023, 37(10): 108-121

WEI Zhongyu, DING Jiayu, SHEN Chenchen, GAO Yuan, LIANG Jingcong, JI Chengwei, LIN Jiayu, HUANG Xuanjing. A Survey of Dialogical Argumentation[J]. Journal of Chinese Information Processing. 2023, 37(10): 108-121

全文链接:点击下载




 包含演绎支持关系和必要支持关系的论辩框架


作  者:程 佑,廖备水

摘  要:对于包含支持关系的论辩框架,已有研究中存在对攻击的定义繁琐、外延求解复杂等问题。该文用演绎支持关系和必要支持关系来扩展抽象论辩框架,并采用一种基于强度的方法来定义该框架中的攻击关系,在此基础上提出一种更简洁且更有表达力的基于外延的语义。该文将一种基于等式的方法运用于这种论辩框架,为其提供一种基于标记的语义。最后,该文证明在这种论辩框架下,基于等式的方法和基于外延的语义之间存在对应关系。

关键词:双极论辩框架;基于等式的方法;论辩语义

引用格式:程佑,廖备水. 包含演绎支持关系和必要支持关系的论辩框架[J].中文信息学报. 2023, 37(10): 122-129

CHENG You, LIAO Beishui. Argumentation Frameworks with Deductive and Necessary Supports[J]. Journal of Chinese Information Processing. 2023, 37(10): 122-129

全文链接:点击下载




 融合细粒度上下文信息的互动论点对识别方法


作  者:何宇航,鲍建竹,徐睿峰,孙 洋,赵 琴

摘  要:作为论辩挖掘领域中的重要研究问题,互动论点对识别旨在从对话文本中理解对话双方的观点,并识别出互动的论点对。现有基于深度学习的方法通过融合上下文信息取得了不错的效果,但是这些方法往往仅考虑整体上下文,忽略了上下文中可能存在的噪声文本,缺乏对论点间互动关系的细粒度建模能力。针对上述问题,该文首先基于语义相似度筛选过滤上下文,而后构建基于上下文的对偶互动图,从而细粒度地挖掘论点-上下文、论点-论点之间潜在的互动模式,以提高互动论点对识别性能。在CMV公开数据集上的实验结果显示,该文提出的方法取得了优于现有模型的性能,并具有一定的可解释性。

关键词:互动论点对识别;细粒度建模;上下文信息

引用格式:何宇航,鲍建竹,徐睿峰,孙洋,赵琴. 融合细粒度上下文信息的互动论点对识别方法[J].中文信息学报. 2023, 37(10): 130-138

HE Yuhang, BAO Jianzhu, XU Ruifeng, SUN Yang, ZHAO Qin. Incorporating Fine-grained Context for Interactive Argument Pair Identification[J]. Journal of Chinese Information Processing. 2023, 37(10): 130-138

全文链接:点击下载




 面向中文网络对话文本的论辩挖掘——基于微调与提示学习的大模型算法


作  者:言佳润,鲜于波

摘  要:随着互联网技术的飞速发展,即时通信、在线论坛等应用广泛普及,网络上产生了了大量非结构化或半结构化的网络对话论辩文本,对这些文本进行论辩挖掘研究具有重要的学术价值与现实意义。该文首先构建了中文网络对话论辩语料库,以子句作为标注的粒度;然后,基于此语料库使用预训练语言模型微调和提示方法分别进行论辩元素及其关系的识别,分别使用了目前受到广泛认可的 BERT、XLNet、RoBERTa 及其衍生的预训练语言模型,通过预训练微调的方式进行实验。在GPT、BERT、RoBERTa预训练模型上进行提示学习,通过P-tuning自动构建连续模板,进行论辩挖掘。实验结果显示,提示学习用于论辩挖掘任务是可行的,且准确率与现今取得很好效果的预训练微调方法相近,有时准确率甚至更高,同时在小样本或零样本数据集上有着更好的效果。实验还显示GPT 与 Prompt 结合可以较好地完成论辩关系识别任务。

关键词:论辩挖掘;网络对话文本;论辩语料库;预训练模型;提示学习

引用格式:言佳润,鲜于波. 面向中文网络对话文本的论辩挖掘——基于微调与提示学习的大模型算法.中文信息学报. 2023, 37(10): 139-148

YAN Jiarun, XIAN Yubo. Argument Mining for Chinese Web Dialogue Texts——Model Approach via Fine-tuning and Prompt[J]. Journal of Chinese Information Processing. 2023, 37(10): 139-148

全文链接:点击下载





 基于双重注意力网络的司法分论点生成


作  者:邓 健,周 纤,罗准辰,巢文涵

摘  要:证据作为认定案件事实的基础,在司法实践中起着重要的辅助判决作用。正常来说,一篇文书中相关的证据会被分为几个不相交子集,每个子集所证明的内容被视为司法分论点,这些分论点支撑了案件事实的不同方面,从而有利于法官的最终判决。然而,以前的工作主要集中在法庭观点生成,或其他法律助理系统(如法律判决预测和司法问答),忽视了法律文书中的证据推理。为了还原法律案件中完整的证据证明、推理过程,该文提出了基于自动证据推理的分论点生成任务,即基于证据子集生成司法分论点。该文为此任务提出了一个双重注意力网络模型,从事实描述中挖掘与证据相关的语义以及法律知识,并结合解码器自动生成分论点。为了进行评估,该文构建了一个司法分论点数据集,并进行了相关实验来证明所提出模型的有效性。

关键词:司法分论点;证据推理;文本生成

引用格式:邓健,周纤,罗准辰,巢文涵. 基于双重注意力网络的司法分论点生成[J].中文信息学报. 2023, 37(10): 149-157

DENG Jian, ZHOU Xian, LUO Zhunchen, CHAO Wenhan. Sub-claim Generation via Dual-Attention Network[J]. Journal of Chinese Information Processing. 2023, 37(10): 149-157

全文链接:点击下载





 学生议论文中的比喻论证作用分析


作  者:武阗阗,宋子尧,韩 旭,程苗苗,巩捷甫,王士进,宋 巍

摘  要:在议论文中,比喻不仅是一种修辞技巧,也是一种重要的论证方式。该文提出结合比喻识别和论辩挖掘技术自动分析议论文中的比喻及其论证作用。该文构建了一个数据集,标注了约1 200篇学生议论文中的比喻句、论辩角色及论辩质量等级,分析了比喻与论点、论据、阐释和其他论辩角色的作用方式以及比喻运用与篇章质量的关系。该文发现作为常见的修辞手段,比喻句的数量与论辩质量的相关性较弱,但比喻句作为论点时与论辩质量的相关性要强于作为其他论辩角色。此外,该文进一步标注了比喻论点类型以描述比喻的论证作用,包括事实、价值和策略,发现比喻论点的作用主要是传递价值与提出策略。通过比较两类比喻论点类型识别方法,发现基于精调预训练语言模型的方法优于基于提示学习的方法。最后,该文构建了一个集成比喻识别、论辩角色识别与论点类型分类的流水线系统,实验结果显示,该任务具有一定的实用性和挑战性。该研究对于作文自动评分与风格化的论点生成具有很好的应用前景和潜力。

关键词:比喻论证;论辩挖掘;大语言模型

引用格式:武阗阗,宋子尧,韩旭,程苗苗,巩捷甫,王士进,宋巍. 学生议论文中的比喻论证作用分析[J].中文信息学报. 2023, 37(10): 158-166

WU Tiantian, SONG Ziyao, HAN Xu, CHENG Miaomiao, GONG Jiefu, WANG Shijin, SONG Wei. Analysis on Argumentative Functions of Figurative Languages in Student Essays[J]. Journal of Chinese Information Processing. 2023, 37(10): 158-166

全文链接:点击下载





 中英双语政治论辩挖掘任务数据集建设


作  者:张霄军,周静狮

摘  要:受制于训练语料资源稀缺,中文论辩挖掘在政治领域的研究才刚刚起步。外交辞令、外事问答以及外宣公告都蕴含着丰富而微妙的政治论辩技巧,在外交领域开展政治论辩挖掘研究具有现实意义和应用价值。该文从在建的“多语外交对话语料库”得到启发,选取部分语料进行政治论辩观点标注、论辩关系标注和论辩句情感分析,初步建成了包含200篇外交部例行记者会实录中英文文本、1 536个话轮的中英双语政治论辩挖掘任务数据集BiDAM,并以示例的形式展示了该数据集的可用性。

关键词:政治论辩;多语外交对话语料库;跨语言论辩挖掘;论辩挖掘任务数据集

引用格式:张霄军,周静狮. 中英双语政治论辩挖掘任务数据集建设[J].中文信息学报. 2023, 37(10): 167-174

ZHANG Xiaojun, ZHOU Jingshi. Building Chinese-English Bilingual Dataset for Political Argument Mining Tasks[J]. Journal of Chinese Information Processing. 2023, 37(10): 167-174

全文链接:点击下载







↑点开查看清晰大图  




长按识别下图二维码

关注我们

获取中文信息处理领域

专业干货


点击|阅读原文|获取当期全文

中文信息学报
于1986年创刊,是由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的高水平学术期刊。被中国科技核心期刊、中国核心期刊、全国中文核心期刊等数据库收录,它及时反映我国中文信息处理的学术水平,是中文信息处理领域的重要参考资料。