点击蓝字/关注我们
一种多方法融合的藏语情感词典构建方法
才让东知1,2,3,4 尼玛扎西*1,2,3,4 达瓦追玛1,2,3,4 道吉扎西1,2,3,4
(1.西藏大学信息科学技术学院 西藏拉萨 850000
2.西藏大学西藏自治区藏文信息技术人工智能重点实验室 西藏拉萨 850000
3.西藏大学藏文信息技术教育部工程研究中心 西藏拉萨 850000
4.西藏大学西藏信息化省部共建协同创新中心 西藏拉萨 850000)
摘要:深度学习在藏语情感分析领域备受关注,相较于传统机器学习方法其表现更出色。然而,构建藏语情感词典仍面临着挑战,如词汇量不足、过度依赖机器翻译系统、词典匹配源单一、缺少口语情感词典等。为解决上述问题,文章提出了一种多方法融合的藏语情感词典构建方法。首先,统计并分析已有情感词标注规则后提出了一种藏语情感词的标注规则作为情感词分类的主要依据;其次,提出了一种多词典匹配的藏语情感词典构建方法构建了藏语基准情感词典,为了扩大基准情感词典的规模,利用SO-PMI和基于word2vec词向量相似度扩充方法对基准词典进行词汇扩充,并且利用藏语3大方言的口语词典经人工筛选后构建了藏语口语情感词典;然后,将基准词典和扩充词典合并去重后得到了《藏语书面语与口语情感词典》;最后,为了证明本文方法的可行性和所构建词典的可用性而进行了藏语情感词典性能评估实验;实验中准确率、召回率、F值分别为60.80%、90.31%、72.67%,达到了较好的应用水平,验证了多方法融合的藏语情感词典构建方法的可行性。
关键词:藏语;SO-PMI;情感词典;多词典匹配;扩充词典
基金项目:科技创新2030——新一代人工智能重大项目(2022ZD0116101);西藏大学研究生高水平人才培养计划项目(2021-GSP-S129)。
第一作者简介:才让东知,男,藏族,甘肃甘南人,西藏大学信息科学技术学院硕士研究生,主要研究方向为自然语言处理。
通讯作者简介:尼玛扎西,男,藏族,西藏拉萨人,中国工程院院士,主要研究方向为藏语计算语言学、藏语自然语言处理。
中国高校特色科技期刊
中国高校优秀科技期刊
中国科学引文数据库(CSCD)来源期刊
科技期刊世界影响力指数(WJCI)来源期刊
扫码关注我们
查看更多精彩内容