↑点开查看清晰大图
综述
✦ 关键词提取算法研究综述
作 者:崔洪振,张龙豪,彭云峰,邬 雯
摘 要:关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用。该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、领域知识及图谱构建中的研究方向和可能面临的挑战。
关键词:关键词提取;特征;有监督提取方法
引用格式:崔洪振,张龙豪,彭云峰,邬雯. 关键词提取算法研究综述[J].中文信息学报. 2024, 38(2): 1-14,24
CUI Hongzhen, ZHANG Longhao, PENG Yunfeng, WU Wen. A Survey for Keyword Extraction Algo5rithms[J].Journal of Chinese Information Processing. 2024, 38(2): 1-14,24
全文链接:点击下载
语言分析与计算
✦ 基于短语及依存的标注规则和短语识别算法研究
作 者:刘 广,涂 刚,李 政,刘译键
摘 要:目前,自然语言处理大多是借助于分词结果进行句法依存分析,主要采用基于监督学习的端对端模型。该方法主要存在两个问题,一是标注体系繁多,相对比较复杂;二是无法识别语言嵌套结构。为了解决以上问题,该文提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时引入短语窗口模型。该标注规则以短语为最小单位,把句子划分为7类可嵌套的短语类型,同时标示出短语间的句法依存关系;短语窗口模型借鉴了计算机视觉领域目标检测的思想,检测短语的起始位置和结束位置,实现了对嵌套短语及句法依存关系的同步识别。实验结果表明,在CPWD 数据集上,短语窗口模型比传统端对端模型F1值提升超过1个百分点。相应的方法应用到了CCL2018的中文隐喻情感分析比赛中,在原有基础上F1值提升了1个百分点以上,取得第一名成绩。
关键词:自然语言处理;标注体系;短语识别;依存分析
引用格式:刘广,涂刚,李政,刘译键. 基于短语及依存的标注规则和短语识别算法研究[J].中文信息学报. 2024, 38(2): 15-24
全文链接:点击下载
机器翻译
✦ 同源语料增强的低资源神经机器翻译
作 者:王 琳,刘伍颖
摘 要:缺少平行句对的低资源机器翻译面临跨语言语义转述科学问题。该文围绕具体的低资源印尼语-汉语机器翻译问题,探索了基于同源语料的数据增广方法,并混合同源语料训练出更优的神经机器翻译模型。这种混合语料模型在印尼语-汉语机器翻译实验中提升了3个多点的BLEU4评分。实验结果证明,同源语料能够有效增强低资源神经机器翻译性能,而这种有效性主要是源于同源语言之间的形态相似性和语义等价性。
关键词:同源语料;数据增广;低资源机器翻译;印尼语;马来语
引用格式:王琳,刘伍颖. 同源语料增强的低资源神经机器翻译[J].中文信息学报. 2024, 38(2): 54-60
全文链接:点击下载
民族、跨境及周边语言信息处理
✦ Ti-Reader: 基于注意力机制的藏文机器阅读理解端到端网络模型
作 者:孙 媛,陈超凡,刘思思,赵小兵
摘 要:机器阅读理解旨在教会机器去理解一篇文章并且回答与之相关的问题。为了解决低资源语言上机器阅读理解模型性能低的问题,该文提出了一种基于注意力机制的藏文机器阅读理解端到端网络模型Ti-Reader。首先,为了编码更细粒度的藏文文本信息,将音节和词相结合进行词表示,然后采用词级注意力机制去关注文本中的关键词,利用重读机制去捕捉文章和问题之间的语义信息,自注意力机制去匹配问题与答案的隐变量本身,为答案预测提供更多的线索。最后,实验结果表明,Ti-Reader模型提升了藏文机器阅读理解的性能,同时在英文数据集SQuAD上也有较好的表现。
关键词:机器阅读理解,注意力机制;端到端网络;藏文
引用格式:孙媛,陈超凡,刘思思,赵小兵. Ti-Reader: 基于注意力机制的藏文机器阅读理解端到端网络模型[J].中文信息学报. 2024, 38(2): 61-69
全文链接:点击下载
✦ 基于提示学习的低资源藏文文本分类
作 者:安 波,赵维纳,龙从军
摘 要:文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用提示学习实现低资源藏文文本分类,即使用不同的藏文预训练语言模型和提示模板开展藏文文本分类实验。实验结果表明,通过设计合理的提示模板等方式,提示学习能够在训练数据不足的情况下提升藏文文本分类的效果(48.3%),初步验证了提示学习在民族语言处理中的价值和潜力。但是,实验结果也反映出提示学习模型在处理部分类别时性能较差,且藏文预训练语言模型也有进一步提升空间。
关键词:藏文文本分类;预训练语言模型;提示学习;小样本学习
引用格式:安波,赵维纳,龙从军. 基于提示学习的低资源藏文文本分类[J].中文信息学报. 2024, 38(2): 70-78
全文链接:点击下载
✦ 基于生成对抗网络的越南语新闻事件共指关系识别方法
作 者:汪 翠,余正涛,梁 晨
摘 要:事件共指关系识别旨在分析事件描述之间是否从不同的角度对同一件真实事件展开论述。但是,在同一篇新闻报道中往往存在不同事件句之间具有相似上下文但不具有共指关系的噪声情况,其会对共指关系识别模型造成干扰。为解决以上问题,该文提出了基于生成对抗网络的越南语新闻事件共指关系识别方法,采用触发词的上下文信息作为事件句的最小特征表示,在生成对抗网络的基础上构建噪声数据过滤机制进行信息实例与噪声实例的区分。在越南语事件数据集和公开数据集上的实验表明,该神经网络模型能有效进行噪声数据过滤,相对于传统的事件共指关系识别方法有明显的优势。
关键词:越南语新闻;事件共指关系识别;生成对抗网络
引用格式:汪翠,余正涛,梁晨. 基于生成对抗网络的越南语新闻事件共指关系识别方法[J].中文信息学报. 2024, 38(2): 79-86
全文链接:点击下载
信息抽取与文本挖掘
✦ 面向买卖合同的词汇增强细粒度实体识别
作 者:王浩畅,郑冠彧,赵铁军
摘 要:对于合同文本中当事人信息、合同基本信息、合同条款等细粒度实体的正确提取,可以有效提升合同的审查效率,为智能合同管理赋能。然而现有的实体识别方法,难以解决合同文本中实体类型复杂和合同实体细化的问题。因此,该文提出一种新的基于词汇增强的细粒度实体识别模型BLBC-CFER,该方法通过对预训练语言模型提供的字级增强、字加词嵌入提供的词级增强以及词汇集合结构提供的词级增强进行融合并嵌入到模型输入中,然后采用深度神经网络获取最优标记序列。该文在自行构建的买卖合同细粒度实体语料集和两个不同领域的公开数据集上进行实验。实验结果表明,该方法不仅可以有效地完成合同文本的细粒度实体识别任务,而且具有较好的鲁棒性,效果优于基线模型。
关键词:词汇增强;细粒度实体识别;序列标注;合同领域
引用格式:王浩畅,郑冠彧,赵铁军. 面向买卖合同的词汇增强细粒度实体识别[J].中文信息学报. 2024, 38(2): 87-98
全文链接:点击下载
✦ 基于实体对注意力机制的实体关系联合抽取模型
作 者:朱继召,赵一霖,张家鑫,黄友澎,范纯龙
摘 要:实体关系抽取是实现海量文本数据知识化、自动构建大规模知识图谱的关键技术。考虑到头尾实体信息对关系抽取有重要影响,该文采用注意力机制将实体对信息融合到关系抽取过程中,提出了基于实体对注意力机制的实体关系联合抽取模型(EPSA)。首先,使用双向长短时记忆网络(Bi-LSTM)结合条件随机场(CRF)完成实体的识别;其次,将抽取的实体配对,信息融合成统一的嵌入式表示形式,用于计算句子中各词的注意力值;然后,使用基于实体对注意力机制的句子编码模块得到句子表示,再利用显式融合实体对的信息得到增强型句子表示;最后,通过分类方式完成实体关系的抽取。在公开数据集NYT和WebNLG上对提出的EPSA模型进行评估,实现结果表明,与目前主流联合抽取模型相比,EPSA模型在F1值上均得到提升,分别达到84.5%和88.5%,并解决了单一实体重叠问题。
关键词:知识图谱;注意力机制;实体关系联合抽取
引用格式:朱继召,赵一霖,张家鑫,黄友澎,范纯龙. 基于实体对注意力机制的实体关系联合抽取模型[J].中文信息学报. 2024, 38(2): 99-108
✦ 文档级关系抽取中的小波变换特征增强方法
作 者:杨 肖,肖 蓉
摘 要:传统的文档级关系抽取方法在特征表示的有效性和噪声消除方面存在局限,不能准确地找出证据句子和实体对的关系。为了进一步提升文档级关系抽取和证据句子抽取的准确性,该文提出了一种使用小波变换对预训练语言模型生成的文本向量进行特征提取、清洗和去噪处理的方法。首先利用预训练语言模型对文档进行编码,将得到的初始文本向量应用小波变换出更精确的特征,其次引入多头注意力机制对小波变换的数据进行加权处理,以凸显与实体对关系相关的重要特征。为了充分利用原始数据和清洗后的数据,采用残差连接的方式将它们进行融合。在DocRED数据集上对模型进行了实验,结果表明,该文所提模型能够更好地抽取实体对的关系。
关键词:文档级关系抽取;小波变换;多头注意力机制
引用格式:杨肖,肖蓉. 文档级关系抽取中的小波变换特征增强方法[J].中文信息学报. 2024, 38(2): 109-120,131
✦ 基于批数据过采样的中医临床记录四诊描述抽取方法
作 者:王亚强,李凯伦,舒红平,蒋永光
摘 要:中医临床记录四诊描述抽取对中医临床辨证论治的提质增效具有重要的应用价值,然而该任务尚有待探索,类别分布不均衡是该任务面临的关键挑战之一。该文围绕中医临床记录四诊描述抽取任务展开研究,首先构建了中医临床四诊描述抽取语料库;然后基于无标注的中医临床记录微调通用预训练语言模型实现该模型的领域适应;最后利用小规模标注数据,采用批数据过采样算法,完成中医临床记录四诊描述抽取模型的训练。实验结果表明,该文提出的抽取方法的总体性能均优于对比方法,并且与对比方法的最优结果相比,该文方法将少见类别的抽取性能F1值平均提升了2.13%。
关键词:中医临床记录;四诊描述抽取;类别分布不均衡;批数据过采样
引用格式:王亚强,李凯伦,舒红平,蒋永光. 基于批数据过采样的中医临床记录四诊描述抽取方法[J].中文信息学报. 2024, 38(2): 121-131
全文链接:点击下载
✦ 字里行间的道德: 中文文本道德句识别研究
作 者:彭诗雅,刘 畅,于 东,邓雅月
摘 要:随着人工智能的发展,越来越多的研究开始关注人工智能伦理。与英文相比,目前面向中文的道德研究开展缓慢,其中一个主要难点是数据短缺问题,且由于理论基础和思维方式等诸多差异,使得英语中的道德识别研究难以直接迁移到中文里,影响了中文道德的相关研究的发展。为解决上述问题,该文提出了面向中文的文本道德句识别任务,并从资源建设和识别方法两个角度对其进行了研究。该文首先利用人工和机器标注两种方法构建了国内首个10万级别的中文道德句数据集。其次提出中文文本道德识别任务,利用当前流行的三类机器学习方法,对中文道德句识别任务的实验表现进行了探索,并得到了对应的识别任务的基线结果。此外,还探索了利用外部知识辅助的方法,对中文道德句的识别任务进行了相关探究。
关键词:人工智能伦理;机器道德;文本道德
引用格式:彭诗雅,刘畅,于东,邓雅月. 字里行间的道德: 中文文本道德句识别研究. 中文信息学报[J].2024, 38(2): 132-141,154
情感分析与社会计算
✦ 基于多层次不真实性传播结构的社交媒体谣言检测
作 者:高 准,但志平,董方敏,张岩珂,张洪志
摘 要:当前谣言检测工作主要研究谣言传播的方向特性,而忽视了谣言传播的全局结构特性,导致不能充分挖掘谣言潜在的结构特征;此外,现有研究忽略了谣言原始传播结构中存在的不真实关系,从而限制了传播节点特征的学习。为此,该文提出一种多层次的动态传播注意力网络模型(Multi-level Dynamic Propagation Attention Networks,MDPAN)用于检测谣言。该模型通过节点级注意力学习谣言传播图中所有连接边的贡献度,动态地关注对识别谣言有用的传播关系,并基于图卷积网络分别提取谣言不同层次的传播特征、扩散特征以及全局结构特征,最后引入基于注意力机制的池化方法对这些多层次的特征进行有效融合。在公开的Twitter15、Twitter16和Weibo16数据集上的实验结果表明,该文所提出的模型对比主流基于传播结构的EBGCN模型,整体准确率分别提高了2.1%、0.7%和1.7%。
关键词:谣言检测;传播结构;节点级注意力;图卷积网络
引用格式:高准,但志平,董方敏,张岩珂,张洪志. 基于多层次不真实性传播结构的社交媒体谣言检测[J].中文信息学报. 2024, 38(2): 142-154
全文链接:点击下载
✦ 基于双记忆交互网络的领域自适应方面词提取方法
作 者:程 艳,胡建生,赵松华,罗 品,邹海锋,富 雁,刘春雷
摘 要:方面词提取是方面级情感分析中的一个核心任务,随着社交网络的不断发展,越来越多的用户倾向于根据评论文本来做决策,并且对评论文本的细节越来越关注。因此,从海量的评论文本中准确提取方面词对于用户快速决策具有重要意义。由于标注语料极其耗时耗力,成本高,所以当前公开的方面词数据集相对较少,从而影响了神经网络模型的有效训练。为了缓解这一问题,有研究者使用了领域自适应策略,该策略通过使用方面词和意见词之间的共同句法关系来弥补不同领域之间的差距,但这高度依赖于外部语言资源。针对上述问题,该文使用无监督领域自适应的方法,通过从粗粒度方面类别任务的丰富资源源域学习到的知识,来提高细粒度方面词任务的低资源目标域的学习能力。为了缓解领域间粒度不一致和特征不匹配问题,该文提出了一种双记忆交互网络,该网络通过将每个单词的局部记忆与全局方面词和方面类别记忆进行交互,不断迭代获得每个单词的相关向量,进而得到方面词与方面类别之间的相互联系,以及方面词或方面类别本身之间的内部相关性。最后为了验证方法的有效性,该文方法在Laptop、Restaurant和Device数据集上分别进行了实验。实验结果表明,与多个基线模型相比,该文提出的方法性能更优。
关键词:方面词提取;无监督学习;领域自适应;序列标注
引用格式:程艳,胡建生,赵松华,罗品,邹海锋,富雁,刘春雷. 基于双记忆交互网络的领域自适应方面词提取方法[J].中文信息学报. 2024, 38(2): 155-168
全文链接:点击下载
↑点开查看清晰大图
长按识别下图二维码
关注我们
获取中文信息处理领域专业干货