【藏文信息处理】基于RoBERTa-BiLSTM-CRF的藏文新闻要素识别

文摘   2025-01-20 09:31   西藏  




点击蓝字/关注我们


基于RoBERTa-BiLSTM-CRF的藏文新闻要素识别

香前1,2,3 才藏太*1,2,3 李措1,2,3

1.青海师范大学计算机学院 青海西宁 810016 

2. 藏文信息处理教育部重点实验室 青海西宁 810008

3.省部共建藏语智能信息处理及应用国家重点实验室 青海西宁 810008


摘要:新闻要素识别是从新闻文本中提取时间、地点、人物、组织机构、事件等关键信息实体的过程,是新闻内容分析的基础。文章将藏文新闻要素分类细化为10类,并提出一种基于RoBERTa-BiLSTM-CRF的藏文新闻要素识别方法。该方法首先通过RoBERTa预训练语言模型对藏文新闻文本进行编码,然后通过BiLSTM和自注意力机制进行特征提取,最后采用条件随机场进行序列标注,完成对新闻要素的识别和分类。在自建数据集(Tibetan news)上进行实验后F1值达到88.8%

关键词:藏文;新闻要素;识别;深度学习;RoBERTa



中国高校特色科技期刊

中国高校优秀科技期刊

中国科学引文数据库(CSCD)来源期刊

科技期刊世界影响力指数(WJCI)来源期刊

扫码关注我们

查看更多精彩内容


西藏大学期刊中心
西藏大学期刊中心公众号,主要推送《西藏大学学报》社会科学版、藏文版和《高原科学研究》优秀文章。
 最新文章