《中文信息学报》新刊概览∣ 2024年第1期（38卷第1期）

文摘科技 2024-03-27 16:00 北京

↑点开查看清晰大图

综述

✦ 大语言模型评测综述

作者：罗文,王厚峰

摘要：大语言模型(Large Language Models，LLMs)在多种自然语言处理(Natural Language Processing，NLP)任务中展现出了卓越性能，并为实现通用语言智能提供了可能。然而随着其应用范围的扩大，如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足，如评测任务不合理和评测结果不可解释等。同时，随着模型鲁棒性和公平性等其它能力或属性的关注度提升，对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战，总结了现有评测范式，分析了现有评测的不足，介绍了大语言模型相关的评测指标和评测方法，并探讨了大语言模型评测的一些新方向。

关键词：自然语言处理；大语言模型；模型评测

引用格式：罗文,王厚峰. 大语言模型评测综述[J].中文信息学报. 2024, 38(1): 1-23

LUO Wen, WANG Houfeng. Evaluating Large Language Models: A Survey of Research Progress[J].Journal of Chinese Information Processing. 2024, 38(1): 1-23

全文链接：点击下载

✦ 医疗领域对话系统口语理解综述

作者：任芳慧，郭熙铜,彭昕，杨锦锋

摘要：ChatGPT引发了新一轮的科技革命，使得对话系统成为研究热点。口语理解(Spoken Language Understanding, SLU)作为任务型对话系统的第一部分，对系统整体的表现具有重要影响。在最近几年中，得益于大规模语言模型的成功，口语理解任务取得了较大的发展。然而，现有工作大多基于书面语数据集完成，无法很好地应对真实口语场景。为此，该文面向与书面语相对的口语，重点关注医疗领域这一应用场景，对现有的医疗领域对话系统口语理解任务进行综述。具体地，该文阐述了医疗口语理解任务的难点与挑战，并从数据集、算法和应用的层面梳理了医疗口语理解的研究现状及不足之处。最后，该文结合生成式大模型的最新进展，给出了医疗口语理解问题新的研究方向。

关键词：任务型对话系统；口语理解；医疗领域；生成式大模型

引用格式：任芳慧,郭熙铜,彭昕,杨锦锋. 医疗领域对话系统口语理解综述[J].中文信息学报. 2024, 38(1): 24-35

REN Fanghui, GUO Xitong, PENG Xin, YANG Jinfeng. A Survey of Spoken Language Understanding in Medical Field[J].Journal of Chinese Information Processing. 2024, 38(1): 24-35

全文链接：点击下载

语言分析与计算

✦ 面向新词义原推荐的相似性判别方法

作者：白宇,田雨,王之光,张桂平

摘要：义原（Sememe）是构成《知网》（HowNet）概念描述的核心部件，新词概念描述义原的推荐是HowNet自动或半自动扩展中涉及的关键问题。面向新词义原推荐，该文提出一种融合义原注意力的预训练语言模型优化方法——SaBERT。在判别新词与HowNet词表词之间的语义相似性的过程中，该方法利用词表词已知概念描述义原序列的注意力分布，以相似性同构为目标，对基于BERT+CNN的相似性判别模型进行优化，从而为义原推荐任务提供相似概念集合。实验结果表明，采用SaBERT可以有效解决未登录词与词表词的相似性判别问题，准确率、召回率、F1值分别达到0.831 4、0.800 7和0.815 8。在基于协同过滤框架的义原推荐任务上进行的实验表明，相似性同构程度与义原推荐效果正相关，说明该文方法能够有效解决候选义原选择问题。

关键词：义原推荐；相似性同构；知网

引用格式：白宇,田雨,王之光,张桂平. 面向新词义原推荐的相似性判别方法[J].中文信息学报. 2024, 38(1): 36-44

BAI Yu, TIAN Yu, WANG Zhiguang, ZHANG Guiping. A Similarity Calculating Method for the Sememe Recommendation of New Words[J].Journal of Chinese Information Processing. 2024, 38(1): 36-44

全文链接：点击下载

✦ 子图增强的实时同名消歧

作者：韩天翼,程欣宇,张帆进,陈波

摘要：实时同名消歧旨在实时、准确地将具有歧义的作者姓名的新增论文关联到同名候选作者中的正确作者。当前同名消歧算法主要解决冷启动同名消歧问题，较少探索如何高效并有效地解决实时同名消歧问题。该文提出了子图增强的实时同名消歧模型RND-all，该模型通过高效地融合待消歧论文与候选作者之间的结构特征来提升模型的准确率。模型根据待消歧论文的属性与同名候选作者的档案分别构建子图，使用子图结构特征提取框架来计算图相关性特征，最后，通过特征工程以及文本嵌入方法计算语义匹配特征，并利用集成学习实现语义信息与结构信息的融合。实验结果表明，融入结构信息能够有效提升实时同名消歧任务的准确性，RND-all在百万级同名消歧基准WhoIsWho测试集上效果排名第一。

关键词：实时同名消歧；图神经网络；结构信息；集成学习

引用格式：韩天翼,程欣宇,张帆进,陈波. 子图增强的实时同名消歧[J].中文信息学报. 2024, 38(1): 45-56

HAN Tianyi, CHENG Xinyu, ZHANG Fanjin, CHEN Bo. Real-time Name Disambiguation with Subgraph Enhancement[J].Journal of Chinese Information Processing. 2024, 38(1): 45-56

全文链接：点击下载

✦ 探索中文预训练模型的混合粒度编码和IDF遮蔽

作者：邵云帆,孙天祥,邱锡鹏

摘要：目前大多数中文预训练语言模型采用字级别编码，因为字符级编码序列长而产生大量计算开销。词级别编码尽管能够缓解这一问题，但也会带来其他问题，如词典外词、数据稀疏等。针对中文不同粒度的编码，该文提出使用混合粒度编码的中文预训练模型。这一编码所用的词表在大规模预训练语料上得到，因此缓解了词典外词和数据稀疏问题。为了更进一步增强模型性能，该文提出了一种选择性的遮蔽语言建模训练策略——IDF遮蔽。这一策略基于词在大规模预训练语料上统计的逆文档频率。实验表明，与之前的中文预训练语言模型相比，该文所提出方法预训练的模型在多个中文自然语言数据集上取得了更好或相当的性能，并且能更高效地编码文本。

关键词：中文预训练；混合粒度编码；IDF遮蔽

引用格式：邵云帆,孙天祥,邱锡鹏. 探索中文预训练模型的混合粒度编码和IDF遮蔽[J].中文信息学报. 2024, 38(1): 57-64

SHAO Yunfan, SUN Tianxiang, QIU Xipeng. Exploring Chinese Pre-Training with Mixed-Grained Encoding and IDF-Masking[J].Journal of Chinese Information Processing. 2024, 38(1): 57-64

全文链接：点击下载

✦ 基于全局对抗负样本的图对比学习方法

作者：岑科廷，沈华伟，曹婍，徐冰冰，程学旗

摘要：图对比学习在无监督节点表示方面取得了巨大成功。该类模型旨在通过拉近同一节点对应的不同增强节点的表示(正样本)，推远不同节点的表示(负样本)的方式为每个节点学习表示。其中负样本的选择是图对比学习的一个关键。现有的方法通过随机采样或者根据一些启发式的重要性度量标准为每个节点选择对应的负样本。然而上述方法并不能准确地找到对模型关键的负样本。同时，由于需要为每一个节点选取其对应的负样本，导致高昂的时间开销。为了解决上述问题，该文提出通过对抗学习的方式，为所有节点学习一个全局共享的关键的负样本。在多个基准数据集上的实验结果证明了该方法的效率和有效性。

关键词：图表示学习；图对比学习；对抗负样本；全局负样本

引用格式：岑科廷,沈华伟,曹婍,徐冰冰,程学旗. 基于全局对抗负样本的图对比学习方法[J].中文信息学报. 2024, 38(1): 65-73,85

CEN Keting, SHEN Huawei, CAO Qi, XU Bingbing, CHENG Xueqi. Graph Contrastive Learning with Global Adversarial Negative Examples[J].Journal of Chinese Information Processing. 2024, 38(1): 65-73,85

全文链接：点击下载

✦ InstructGPT在命名实体识别任务中的表现和挑战

作者：孙瑜，颜航，邱锡鹏，王定，牟小峰，黄萱菁

摘要：当前，关于大规模语言模型，例如，InstructGPT的研究主要聚焦在自由形式生成任务上，而忽略了在结构化抽取任务上的探索。为了让未来的工作在结构化抽取任务上有一个全面的认知，该文在零样本和少样本设定下，全面分析了InstructGPT在基础的结构化抽取任务，命名实体识别上的表现。为了让结论更加可靠，该文的实验同时包含了生物医学领域和通用领域的常规和嵌套数据集。实验结果表明，InstructGPT在零样本学习上的性能只能达到微调小规模语言模型的11%～56%，增加少量样本也最多只能提升至72%。为了探究InstructGPT在命名实体识别上表现性能不佳的原因，该文通过分析模型的输出，发现接近50%的句子都存在无效生成的问题。另外，由于无效生成会同时导致“虚假错误预测”和“虚假正确预测”，解决生成无效问题并不能保证性能的提升。此外，InstructGPT抽取嵌套实体的能力还是有待提高，抽取嵌套实体的比例也偏低。因此，用InstructGPT解决命名实体识别任务，除了要保证生成的有效性，还需要更加深入地研究才能找到行之有效的方法。

关键词：大规模语言模型；命名实体识别；上下文学习；思维链

引用格式：孙瑜,颜航,邱锡鹏,王定,牟小峰,黄萱菁. InstructGPT在命名实体识别任务中的表现和挑战[J].中文信息学报. 2024, 38(1): 74-85

SUN Yu, YAN Hang, QIU Xipeng, WANG Ding, MU Xiaofeng, HUANG Xuanjing. Performance and Challenges of InstructGPT in Named Entity Recognition[J].Journal of Chinese Information Processing. 2024, 38(1): 74-85

全文链接：点击下载

✦ 融合目标词上下文序列与结构信息的框架识别方法

作者：闫智超，李茹，苏雪峰，李欣杰，柴清华，韩孝奇，赵云肖

摘要：框架识别是框架语义角色标注的重要前提，该任务是为给定句子中的目标词寻找一个可激活的框架。框架识别通常看作是针对目标词的分类问题，一般采用序列建模的方式学习融合上下文的目标词表示。该方式忽略了目标词所在上下文的结构信息，且在建模时未考虑不同词性目标词在句法和语义结构上的差异。针对这些不足，该文提出了一种融合目标词上下文序列与结构信息的框架识别方法，该方法使用BERT和GCN分别对不同词性目标词的上下文信息和融合PropBank语义角色或依存句法结构信息的目标词进行建模，然后得到融合序列和结构信息的目标词表示。另外，该文分析了不同词性目标词依存信息的结构差异，采用一种集成学习方法克服了单一模型在此方面的不足。最后，在FN1.7和CFN数据集上的实验结果表明，融合目标词上下文序列与结构信息的框架识别方法在性能上优于当前最好模型。

关键词：框架识别；语义角色；依存句法; BERT；GCN

引用格式：闫智超,李茹,苏雪峰,李欣杰,柴清华,韩孝奇,赵云肖. 融合目标词上下文序列与结构信息的框架识别方法[J].中文信息学报. 2024, 38(1): 86-96

YAN Zhichao, LI Ru, SU Xuefeng, Li Xinjie, CHAI Qinghua, HAN Xiaoqi, ZHAO Yunxiao. Integrating Contextual and Structural Information of Target Words for Frame Identification[J].Journal of Chinese Information Processing. 2024, 38(1): 86-96

全文链接：点击下载

信息抽取与文本挖掘

✦ 基于注意力与同指信息的对话级关系抽取

作者：周孟佳，李霏，姬东鸿

摘要：与传统的关系抽取任务相比，对话级关系抽取任务具有语言随意、信息密度低、人称代词丰富的特点。基于此，该文提出了一种基于注意力和同指信息的对话级关系抽取模型。模型采用TOD-BERT(Task-Oriented Dialogue BERT)和BERT预训练语言模型增强对话文本表示，通过注意力机制建模词与各种关系之间的相互影响，使模型能更多地关注有益信息。另外，该文提出的模型还融合了与人称代词相关的同指信息以丰富实体的表示。作者在对话级关系抽取数据集DialogRE上验证所提出模型的性能。结果表明，该模型在DialogRE测试集上的F1值达到了63.77%，较之于多个基线模型有明显提升。

关键词：关系抽取；注意力机制；同指信息；对话

引用格式：周孟佳,李霏,姬东鸿. 基于注意力与同指信息的对话级关系抽取[J].中文信息学报. 2024, 38(1): 97-106

ZHOU Mengjia, LI Fei, JI Donghong. Dialogue-level Relation Extraction Based on Attention and Coreference[J].Journal of Chinese Information Processing. 2024, 38(1): 97-106

全文链接：点击下载

✦ 基于篇章图模型的中文事件时序关系识别

作者：李婧，徐昇，李培峰

摘要：事件时序关系识别是信息抽取中一项十分重要且极具挑战性的任务。此前大部分工作都集中在句子级别上，忽略了篇章级别(同句、邻句和跨句)的事件时序关系识别。针对此问题，该文提出了一种基于篇章图模型的篇章级事件时序关系识别方法，该方法通过分别构造句法层次和篇章级别的图卷积神经网络将篇章中融合了句法特征的所有事件进行信息交互，以达到丰富特征的目的，进而使得模型可更好地识别篇章级时序关系。该文提出的方法在ACE2005-extended中文事件时序关系语料库上的微平均F1值达到71.81%，比最好的基准系统提升了1.76个百分点。

关键词：事件时序关系；篇章级别；图卷积神经网络

引用格式：李婧,徐昇,李培峰. 基于篇章图模型的中文事件时序关系识别[J].中文信息学报. 2024, 38(1): 107-114

LI Jing, XU Sheng, LI Peifeng. Chinese Event Temporal Relation Identification via Document-Level Graph[J].Journal of Chinese Information Processing. 2024, 38(1): 107-114

全文链接：点击下载

✦ 基于微调原型网络的小样本敏感信息识别方法

作者：余正涛，关昕，黄于欣，张思琦，赵庆珏

摘要：敏感信息识别主要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息，现有的敏感信息识别通常将其看作文本分类任务，但由于缺乏大规模的敏感信息标注数据，分类效果不佳。该文提出一种基于微调原型网络的小样本敏感信息识别方法，在小样本学习框架下，利用快速适应的微调原型网络来缓解元训练阶段通用新闻领域和元测试阶段敏感信息数据差异大的问题。首先，在元训练阶段，基于通用新闻领域的分类数据训练模型来学习通用知识，同时在训练过程中经过两阶段梯度更新，得到一组对新任务敏感的快速适应初始参数，然后在元测试阶段敏感文本数据集的新任务上，冻结模型部分参数并使用支持集进一步微调，使模型更好地泛化到敏感识别领域上。实验结果证明，相比当前最优的小样本分类模型，该文提出的快速适应微调策略的原型网络显著提升了敏感信息识别效果。

关键词：敏感信息识别；小样本学习；微调策略；原型网络

引用格式：余正涛,关昕,黄于欣,张思琦,赵庆珏. 基于微调原型网络的小样本敏感信息识别方法[J].中文信息学报. 2024, 38(1): 115-123

YU Zhengtao, GUAN Xin, HUANG Yuxin, ZHANG Siqi, ZHAO Qingjue. Few-shot Sensitive Information Recognition Based on Prototype Network Fine-tuning[J].Journal of Chinese Information Processing. 2024, 38(1): 115-123

全文链接：点击下载

情感分析与社会计算

✦ 细粒度情感和情绪分析中损失函数的设计与优化

作者：叶施仁，丁力，Ali MD Rinku

摘要：在细粒度情感分析和情绪分析数据集中，标签之间的相关性和标签分布的不均匀性非常突出。类别标签分布不均匀，标签之间存在相关性容易影响学习模型的性能。针对这一问题，该文受计算机视觉领域中的Circle loss 方法的启发，将梯度衰减、成对优化、添加余量引入损失函数来优化深度学习模型的性能。该方法可以很好地与预训练模型相结合，不需要修改骨干网络。与当前最新的经典方法相比，该方法在SemEval18数据集上Jaccard系数、micro-F1、macro-F1分别提升了1.9%、2%、1.9%；在GoeEmotions数据集上Jaccard系数、micro-F1、macro-F1分别提升了2.6%、1.9%、3.6%。实验表明，该文提出的损失函数对情感分析和情绪分析问题具有显著的提升作用。

关键词：情感分析；情绪分析；成对优化；损失函数

引用格式：叶施仁,丁力,AliMDRinku. 细粒度情感和情绪分析中损失函数的设计与优化[J].中文信息学报. 2024, 38(1): 124-134

YE Shiren, DING Li, ALI MD Rinku. Design and Optimization of Loss Function in Fine-grained Sentiment and Emotion Analysis[J].Journal of Chinese Information Processing. 2024, 38(1): 124-134

全文链接：点击下载

✦ 基于双三元组网络的易混淆文本情感分类方法

作者：徐瑞，曾诚，程世杰，张海丰，何鹏

摘要：预训练模型的快速发展使得情感分类任务得到了突破性进展，然而互联网提供的海量数据中存在着大量语义模糊、易混淆的文本，制约了当前多数模型的分类效果。针对易混淆文本对情感分类的负面影响，该文提出了一种基于双三元组网络的易混淆文本情感分类方法。该方法有效解决了传统三元组网络中同类文本特征之间仍存在明显差异的问题，改进了三元样本组合的构建方式，分别从易分类文本和普通文本中构建出两对三元样本组合，并以不同权重进行特征相似度比对，让模型深入挖掘易混淆文本和易分类文本的特征编码差异，充分学习同类别文本间的相似性和混淆类别文本间的差异性，提高了文本特征的聚类效果；同时，在训练过程中将本批次的易混淆文本加入到下一批次进一步训练，更有效地利用了易混淆文本的语义信息，以此提升模型整体的分类效果。在nlpcc2014、waimai_10k和ChnSentiCorp数据集上进行对比实验，实验结果表明，与现有的易混淆文本情感分类方法相比，该方法在准确度和F1值上具有更好的表现，其中F1值相较于基准模型提升了3.16%、2.35%和2.5%，验证了所提方法的有效性和合理性。

关键词：情感分类；三元组网络；困难样本

引用格式：徐瑞,曾诚,程世杰,张海丰,何鹏. 基于双三元组网络的易混淆文本情感分类方法[J].中文信息学报. 2024, 38(1): 135-145

XU Rui, ZENG Cheng, CHENG Shijie, ZHANG Haifeng, HE Peng. Double Triplet Network for Confusing Text Sentiment Classification[J].Journal of Chinese Information Processing. 2024, 38(1): 135-145

全文链接：点击下载

自然语言处理应用

✦ 融入法因层次结构的法因预测IHLCP模型

作者：黄思嘉，彭艳兵

摘要：该文针对当前法律智能体系可解释性差、低频易混淆法因预测效果不佳、民事纠纷研究过少的问题，设计了一种可解释性层次法因预测IHLCP模型，并将法因之间的层次依赖关系作为模型可解释性的来源进行了研究。模型首先基于案件的语义差异性对事实描述进行编码，然后通过改进的seq2seq-attention模块来预测法因路径，并利用法因内部的文本信息过滤事实描述中的噪声信息，以获得可靠的预测效果。该文设计的IHLCP模型在CIVIL、FSC和CAIL这三个大规模公开数据集上分别达到了当前最好的效果（CIVIL数据集: ACC-91.0%,PRE-67.5%,RECALL-57.9%,F1-62.3%。FSC数据集: ACC-94.9%，PRE-78.8%,RECALL-75.9%,F1-77.3%。CAIL数据集：ACC-92.3%，PRE-90.9%,RECALL-89.7%,F1-90.3%），其中ACC和F1值分别最高提升了6.6%和13.4%。实验结果表明，该设计能够帮助系统理解法因，弥补了当前法律智能体系在低频、易混淆法因预测上的不足，同时提升了模型的可解释性。

关键词：层次法因预测；可解释性；语义差异性；数据不平衡；低频类别预测

引用格式：黄思嘉,彭艳兵. 融入法因层次结构的法因预测IHLCP模型[J].中文信息学报. 2024, 38(1): 146-155

HUANG Sijia, PENG Yanbing. An Interpretable Hierarchical Legal Cause Prediction Model With Legal Cause Hierarchy[J].Journal of Chinese Information Processing. 2024, 38(1): 146-155

全文链接：点击下载

✦ 非结构化数据表征增强的术后风险预测模型

作者：王亚强，杨潇，朱涛，郝学超，舒红平，陈果

摘要：准确的术后风险预测对临床资源的规划、应急方案的准备以及患者术后风险和死亡率的降低具有积极的作用。目前，术后风险预测主要基于患者的基本信息、术前的实验室检查及术中的生命体征等结构化数据，蕴含着丰富语义信息的非结构化术前诊断的价值尚待验证。针对上述问题，该文提出一种非结构化数据表征增强的术后风险预测模型，利用自注意力机制，将结构化数据与术前诊断进行信息加权融合。基于临床数据，该文将所提出的模型与术后风险预测常用的统计机器学习模型以及最新的深度神经网络进行对比，在肺部并发症风险预测、ICU入室风险预测和心血管不良风险预测任务上的F1值平均提升了9.533%，同时预测模型还具有良好的可解释性。

关键词：术后风险预测；自注意力机制；数据表征；信息融合

引用格式：王亚强,杨潇,朱涛,郝学超,舒红平,陈果. 非结构化数据表征增强的术后风险预测模型[J].中文信息学报. 2024, 38(1): 156-165

WANG Yaqiang, YANG Xiao, ZHU Tao, HAO Xuechao, SHU Hongping, CHEN Guo. An Unstructured Data Representation Enhanced Method for Postoperative Risk Prediction[J].Journal of Chinese Information Processing. 2024, 38(1): 156-165

全文链接：点击下载

语音信息处理

✦ 基于不同单元的端到端语音识别

作者：张岩，艾斯卡尔·艾木都拉，米吉提·阿不里米提

摘要：端到端语音识别技术不需要文本和语音序列的强制对齐过程，且比传统语音识别系统有着更为简单直观的结构和更好的适应能力，它不需要精准的发音词典，在资源匮乏语言的语音识别研究中有更好的发展前景。该文在循环神经网络（RNN）和链接时序分类（CTC）的基础上，实现维吾尔语不同粒度的端到端的语音识别系统，且在较少的语料库（THUYG公开语料库）上将该方法和传统的HMM语音识别框架进行比较。单音素基础上端到端方法的表现超过传统HMM-GMM框架，CER下降10.6%，而且经过稍微减少冗余后的以单字符作为建模单元的端到端语音识别系统对比基于三音素的HMM-GMM系统CER下降2.23%。对于资源匮乏语言，粒度单元的优化方法将是提高性能的下一个研究目标。

关键词：端到端技术；语音识别；维吾尔语；链接时序分类

引用格式：张岩,艾斯卡尔·艾木都拉,米吉提·阿不里米提. 基于不同单元的端到端语音识别[J].中文信息学报. 2024, 38(1): 166-172

ZHANG Yan, Askar HAMDULLA, Mijit ABLIMIT. End-to-end ASR via Different Acoustic Unit[J].Journal of Chinese Information Processing. 2024, 38(1): 166-172

全文链接：点击下载

↑点开查看清晰大图

长按识别下图二维码

关注我们

获取中文信息处理领域

专业干货

点击|阅读原文|获取当期全文

http://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ==&mid=2247485632&idx=1&sn=20497b30be209e1bb93f415cf2b298d5

中文信息学报

于1986年创刊，是由中国科学技术协会主管，中国中文信息学会和中国科学院软件研究所合办的高水平学术期刊。被中国科技核心期刊、中国核心期刊、全国中文核心期刊等数据库收录，它及时反映我国中文信息处理的学术水平，是中文信息处理领域的重要参考资料。