↑点开查看清晰大图
综述
✦ 大语言模型评测综述
作 者:罗 文,王厚峰
摘 要:大语言模型(Large Language Models,LLMs)在多种自然语言处理(Natural Language Processing,NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。
关键词:自然语言处理;大语言模型;模型评测
引用格式:罗文,王厚峰. 大语言模型评测综述[J].中文信息学报. 2024, 38(1): 1-23
LUO Wen, WANG Houfeng. Evaluating Large Language Models: A Survey of Research Progress[J].Journal of Chinese Information Processing. 2024, 38(1): 1-23
全文链接:点击下载
✦ 医疗领域对话系统口语理解综述
作 者:任芳慧,郭熙铜,彭 昕,杨锦锋
摘 要:ChatGPT引发了新一轮的科技革命,使得对话系统成为研究热点。口语理解(Spoken Language Understanding, SLU)作为任务型对话系统的第一部分,对系统整体的表现具有重要影响。在最近几年中,得益于大规模语言模型的成功,口语理解任务取得了较大的发展。然而,现有工作大多基于书面语数据集完成,无法很好地应对真实口语场景。为此,该文面向与书面语相对的口语,重点关注医疗领域这一应用场景,对现有的医疗领域对话系统口语理解任务进行综述。具体地,该文阐述了医疗口语理解任务的难点与挑战,并从数据集、算法和应用的层面梳理了医疗口语理解的研究现状及不足之处。最后,该文结合生成式大模型的最新进展,给出了医疗口语理解问题新的研究方向。
关键词:任务型对话系统;口语理解;医疗领域;生成式大模型
引用格式:任芳慧,郭熙铜,彭昕,杨锦锋. 医疗领域对话系统口语理解综述[J].中文信息学报. 2024, 38(1): 24-35
REN Fanghui, GUO Xitong, PENG Xin, YANG Jinfeng. A Survey of Spoken Language Understanding in Medical Field[J].Journal of Chinese Information Processing. 2024, 38(1): 24-35
全文链接:点击下载
语言分析与计算
✦ 面向新词义原推荐的相似性判别方法
作 者:白 宇,田 雨,王之光,张桂平
摘 要:义原(Sememe)是构成《知网》(HowNet)概念描述的核心部件,新词概念描述义原的推荐是HowNet自动或半自动扩展中涉及的关键问题。面向新词义原推荐,该文提出一种融合义原注意力的预训练语言模型优化方法——SaBERT。在判别新词与HowNet词表词之间的语义相似性的过程中,该方法利用词表词已知概念描述义原序列的注意力分布,以相似性同构为目标,对基于BERT+CNN的相似性判别模型进行优化,从而为义原推荐任务提供相似概念集合。实验结果表明,采用SaBERT可以有效解决未登录词与词表词的相似性判别问题,准确率、召回率、F1值分别达到0.831 4、0.800 7和0.815 8。在基于协同过滤框架的义原推荐任务上进行的实验表明,相似性同构程度与义原推荐效果正相关,说明该文方法能够有效解决候选义原选择问题。
关键词:义原推荐;相似性同构;知网
引用格式:白宇,田雨,王之光,张桂平. 面向新词义原推荐的相似性判别方法[J].中文信息学报. 2024, 38(1): 36-44
全文链接:点击下载
信息抽取与文本挖掘
✦ 基于注意力与同指信息的对话级关系抽取
作 者:周孟佳,李 霏,姬东鸿
摘 要:与传统的关系抽取任务相比,对话级关系抽取任务具有语言随意、信息密度低、人称代词丰富的特点。基于此,该文提出了一种基于注意力和同指信息的对话级关系抽取模型。模型采用TOD-BERT(Task-Oriented Dialogue BERT)和BERT预训练语言模型增强对话文本表示,通过注意力机制建模词与各种关系之间的相互影响,使模型能更多地关注有益信息。另外,该文提出的模型还融合了与人称代词相关的同指信息以丰富实体的表示。作者在对话级关系抽取数据集DialogRE上验证所提出模型的性能。结果表明,该模型在DialogRE测试集上的F1值达到了63.77%,较之于多个基线模型有明显提升。
关键词:关系抽取;注意力机制;同指信息;对话
引用格式:周孟佳,李霏,姬东鸿. 基于注意力与同指信息的对话级关系抽取[J].中文信息学报. 2024, 38(1): 97-106
全文链接:点击下载
✦ 基于篇章图模型的中文事件时序关系识别
作 者:李 婧,徐 昇,李培峰
摘 要:事件时序关系识别是信息抽取中一项十分重要且极具挑战性的任务。此前大部分工作都集中在句子级别上,忽略了篇章级别(同句、邻句和跨句)的事件时序关系识别。针对此问题,该文提出了一种基于篇章图模型的篇章级事件时序关系识别方法,该方法通过分别构造句法层次和篇章级别的图卷积神经网络将篇章中融合了句法特征的所有事件进行信息交互,以达到丰富特征的目的,进而使得模型可更好地识别篇章级时序关系。该文提出的方法在ACE2005-extended中文事件时序关系语料库上的微平均F1值达到71.81%,比最好的基准系统提升了1.76个百分点。
关键词:事件时序关系;篇章级别;图卷积神经网络
引用格式:李婧,徐昇,李培峰. 基于篇章图模型的中文事件时序关系识别[J].中文信息学报. 2024, 38(1): 107-114
✦ 基于微调原型网络的小样本敏感信息识别方法
作 者:余正涛,关 昕,黄于欣,张思琦,赵庆珏
摘 要:敏感信息识别主要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,但由于缺乏大规模的敏感信息标注数据,分类效果不佳。该文提出一种基于微调原型网络的小样本敏感信息识别方法,在小样本学习框架下,利用快速适应的微调原型网络来缓解元训练阶段通用新闻领域和元测试阶段敏感信息数据差异大的问题。首先,在元训练阶段,基于通用新闻领域的分类数据训练模型来学习通用知识,同时在训练过程中经过两阶段梯度更新,得到一组对新任务敏感的快速适应初始参数,然后在元测试阶段敏感文本数据集的新任务上,冻结模型部分参数并使用支持集进一步微调,使模型更好地泛化到敏感识别领域上。实验结果证明,相比当前最优的小样本分类模型,该文提出的快速适应微调策略的原型网络显著提升了敏感信息识别效果。
关键词:敏感信息识别;小样本学习;微调策略;原型网络
引用格式:余正涛,关昕,黄于欣,张思琦,赵庆珏. 基于微调原型网络的小样本敏感信息识别方法[J].中文信息学报. 2024, 38(1): 115-123
情感分析与社会计算
✦ 细粒度情感和情绪分析中损失函数的设计与优化
作 者:叶施仁,丁 力,Ali MD Rinku
摘 要:在细粒度情感分析和情绪分析数据集中,标签之间的相关性和标签分布的不均匀性非常突出。类别标签分布不均匀,标签之间存在相关性容易影响学习模型的性能。针对这一问题,该文受计算机视觉领域中的Circle loss 方法的启发,将梯度衰减、成对优化 、添加余量引入损失函数来优化深度学习模型的性能。该方法可以很好地与预训练模型相结合,不需要修改骨干网络。与当前最新的经典方法相比,该方法在SemEval18数据集上Jaccard系数、micro-F1、macro-F1分别提升了1.9%、2%、1.9%;在GoeEmotions数据集上Jaccard系数、micro-F1、macro-F1分别提升了2.6%、1.9%、3.6%。实验表明,该文提出的损失函数对情感分析和情绪分析问题具有显著的提升作用。
关键词:情感分析;情绪分析;成对优化;损失函数
引用格式:叶施仁,丁力,AliMDRinku. 细粒度情感和情绪分析中损失函数的设计与优化[J].中文信息学报. 2024, 38(1): 124-134
全文链接:点击下载
✦ 基于双三元组网络的易混淆文本情感分类方法
作 者:徐 瑞,曾 诚,程世杰,张海丰,何 鹏
摘 要:预训练模型的快速发展使得情感分类任务得到了突破性进展,然而互联网提供的海量数据中存在着大量语义模糊、易混淆的文本,制约了当前多数模型的分类效果。针对易混淆文本对情感分类的负面影响,该文提出了一种基于双三元组网络的易混淆文本情感分类方法。该方法有效解决了传统三元组网络中同类文本特征之间仍存在明显差异的问题,改进了三元样本组合的构建方式,分别从易分类文本和普通文本中构建出两对三元样本组合,并以不同权重进行特征相似度比对,让模型深入挖掘易混淆文本和易分类文本的特征编码差异,充分学习同类别文本间的相似性和混淆类别文本间的差异性,提高了文本特征的聚类效果;同时,在训练过程中将本批次的易混淆文本加入到下一批次进一步训练,更有效地利用了易混淆文本的语义信息,以此提升模型整体的分类效果。在nlpcc2014、waimai_10k和ChnSentiCorp数据集上进行对比实验,实验结果表明,与现有的易混淆文本情感分类方法相比,该方法在准确度和F1值上具有更好的表现,其中F1值相较于基准模型提升了3.16%、2.35%和2.5%,验证了所提方法的有效性和合理性。
关键词:情感分类;三元组网络;困难样本
引用格式:徐瑞,曾诚,程世杰,张海丰,何鹏. 基于双三元组网络的易混淆文本情感分类方法[J].中文信息学报. 2024, 38(1): 135-145
自然语言处理应用
✦ 融入法因层次结构的法因预测IHLCP模型
作 者:黄思嘉,彭艳兵
摘 要:该文针对当前法律智能体系可解释性差、低频易混淆法因预测效果不佳、民事纠纷研究过少的问题,设计了一种可解释性层次法因预测IHLCP模型,并将法因之间的层次依赖关系作为模型可解释性的来源进行了研究。模型首先基于案件的语义差异性对事实描述进行编码,然后通过改进的seq2seq-attention模块来预测法因路径,并利用法因内部的文本信息过滤事实描述中的噪声信息,以获得可靠的预测效果。该文设计的IHLCP模型在CIVIL、FSC和CAIL这三个大规模公开数据集上分别达到了当前最好的效果(CIVIL数据集: ACC-91.0%,PRE-67.5%,RECALL-57.9%,F1-62.3%。FSC数据集: ACC-94.9%,PRE-78.8%,RECALL-75.9%,F1-77.3%。CAIL数据集:ACC-92.3%,PRE-90.9%,RECALL-89.7%,F1-90.3%),其中ACC和F1值分别最高提升了6.6%和13.4%。实验结果表明,该设计能够帮助系统理解法因,弥补了当前法律智能体系在低频、易混淆法因预测上的不足,同时提升了模型的可解释性。
关键词:层次法因预测;可解释性;语义差异性;数据不平衡;低频类别预测
引用格式:黄思嘉,彭艳兵. 融入法因层次结构的法因预测IHLCP模型[J].中文信息学报. 2024, 38(1): 146-155
全文链接:点击下载
✦ 非结构化数据表征增强的术后风险预测模型
作 者:王亚强,杨 潇,朱 涛,郝学超,舒红平,陈 果
摘 要:准确的术后风险预测对临床资源的规划、应急方案的准备以及患者术后风险和死亡率的降低具有积极的作用。目前,术后风险预测主要基于患者的基本信息、术前的实验室检查及术中的生命体征等结构化数据,蕴含着丰富语义信息的非结构化术前诊断的价值尚待验证。针对上述问题,该文提出一种非结构化数据表征增强的术后风险预测模型,利用自注意力机制,将结构化数据与术前诊断进行信息加权融合。基于临床数据,该文将所提出的模型与术后风险预测常用的统计机器学习模型以及最新的深度神经网络进行对比,在肺部并发症风险预测、ICU入室风险预测和心血管不良风险预测任务上的F1值平均提升了9.533%,同时预测模型还具有良好的可解释性。
关键词:术后风险预测;自注意力机制;数据表征;信息融合
引用格式:王亚强,杨潇,朱涛,郝学超,舒红平,陈果. 非结构化数据表征增强的术后风险预测模型[J].中文信息学报. 2024, 38(1): 156-165
语音信息处理
✦ 基于不同单元的端到端语音识别
作 者:张 岩,艾斯卡尔·艾木都拉,米吉提·阿不里米提
摘 要:端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景。该文在循环神经网络(RNN)和链接时序分类(CTC)的基础上,实现维吾尔语不同粒度的端到端的语音识别系统,且在较少的语料库(THUYG公开语料库)上将该方法和传统的HMM语音识别框架进行比较。单音素基础上端到端方法的表现超过传统HMM-GMM框架,CER下降10.6%,而且经过稍微减少冗余后的以单字符作为建模单元的端到端语音识别系统对比基于三音素的HMM-GMM系统CER下降2.23%。对于资源匮乏语言,粒度单元的优化方法将是提高性能的下一个研究目标。
关键词:端到端技术;语音识别;维吾尔语;链接时序分类
引用格式:张岩,艾斯卡尔·艾木都拉,米吉提·阿不里米提. 基于不同单元的端到端语音识别[J].中文信息学报. 2024, 38(1): 166-172
全文链接:点击下载
↑点开查看清晰大图
长按识别下图二维码
关注我们
获取中文信息处理领域专业干货