【藏文信息处理】基于藏文音节结合BiLSTM-CRF的藏语语义组块分类标注

文摘   2024-07-27 10:21   西藏  




点击蓝字/关注我们

基于藏文音节结合BiLSTM-CRF的藏语语义组块分类标注

旦正吉1,2,3 华却才让*1,2,3 完么措1,2,3 白颖1,2,3

(1.青海师范大学计算机学院 青海西宁 810008

2.青海师范大学藏语智能信息处理及应用国家重点实验室 青海西宁 810008

3.青海师范大学藏文信息处理教育部重点实验室 青海西宁 810008


摘要针对藏语句子语义分析中语义种类繁多且广泛存在歧义的难点,提出了基于藏文音节向量和BiLSTM-CRF混合模型相结合的藏语语义组块识别方法。首先制定了13种语义组块标注规范,其次构建了13 211句语义组块标注语料库,在此基础上采用TS-BiLSTM-CRF方法训练了藏语语义组块识别和分类模型。综合测试实验结果表明,该模型精确率为75.03%,召回率为76.52%,F1值为75.77%。各类语义组块识别中,指示类(INS)识别的测评结果远高于其他几类语义组块,精确率为90.87%;组织类(ORG)的测评结果偏低于其他类型,精确率为66.67%。文章研究证实了TS-BiLSTM-CRF模型在藏语语义组块识别分析任务中具有较好的性能。

关键词:藏语;语义组块识别;TS-BiLSTM-CRF模型;标注规范


基金项目:国家自然科学基金项目(62166034);藏语智能信息处理及应用国家重点实验室项目(2020-ZJ-Y05);青海省基础研究计划项目(2020-0301-ZJC-0042);青海省应用基础研究计划项目(2021-ZJ-727).

第一作者简介:旦正吉,女,藏族,青海尖扎人,青海师范大学计算机学院硕士研究生,主要研究方向为藏语智能信息处理。

通讯作者简介:华却才让,男,藏族,青海化隆人,青海师范大学计算机学院教授,主要研究方向为藏语智能信息处理。

中国高校特色科技期刊

中国高校优秀科技期刊

中国科学引文数据库(CSCD)来源期刊

科技期刊世界影响力指数(WJCI)来源期刊

扫码关注我们

查看更多精彩内容

西藏大学期刊中心
西藏大学期刊中心公众号,主要推送《西藏大学学报》社会科学版、藏文版和《高原科学研究》优秀文章。
 最新文章