点击蓝字/关注我们
基于RoBERTa-BiLSTM-CRF的藏文新闻要素识别
香前1,2,3 才藏太*1,2,3 李措1,2,3
(1.青海师范大学计算机学院 青海西宁 810016
2. 藏文信息处理教育部重点实验室 青海西宁 810008
3.省部共建藏语智能信息处理及应用国家重点实验室 青海西宁 810008)
摘要:新闻要素识别是从新闻文本中提取时间、地点、人物、组织机构、事件等关键信息实体的过程,是新闻内容分析的基础。文章将藏文新闻要素分类细化为10类,并提出一种基于RoBERTa-BiLSTM-CRF的藏文新闻要素识别方法。该方法首先通过RoBERTa预训练语言模型对藏文新闻文本进行编码,然后通过BiLSTM和自注意力机制进行特征提取,最后采用条件随机场进行序列标注,完成对新闻要素的识别和分类。在自建数据集(Tibetan news)上进行实验后F1值达到88.8%。
关键词:藏文;新闻要素;识别;深度学习;RoBERTa
中国高校特色科技期刊
中国高校优秀科技期刊
中国科学引文数据库(CSCD)来源期刊
科技期刊世界影响力指数(WJCI)来源期刊
扫码关注我们
查看更多精彩内容