【藏文信息】基于领域术语词典和句式框架的藏汉机器翻译领域数据增强方法研究

文摘   2024-10-24 11:20   西藏  




点击蓝字/关注我们

基于领域术语词典和句式框架的藏汉机器翻译领域数据增强方法研究

格桑加措1,2,3,4 尼玛扎西*1,2,3,4 嘎玛扎西1,2,3,4 次仁白玛1,2,3,4 步寅硕1,2,3,4

(1.西藏大学信息科学技术学院 西藏拉萨 850000

2.西藏大学西藏自治区藏文信息技术人工智能重点实验室 西藏拉萨 850000

3.西藏大学藏文信息技术教育部工程研究中心 西藏拉萨 850000

4.西藏大学西藏信息化省部共建协同创新中心 西藏拉萨 850000)


摘要:藏汉机器翻译系统在新闻、时政等领域已经取得了显著的翻译效果,这主要归功于建立了相对充足的双语句对。然而,现有藏汉双语语料中存在较大的领域偏差问题,藏医、佛学等领域的数据极度稀缺,导致藏汉翻译模型在处理这些低资源领域句对时面临着领域词汇稀缺和翻译困难的挑战。为了解决这一问题,充分利用现有领域术语双语词典,提出了一种基于词典结合特定领域上下文语义关系的翻译质量提升方法,并应用于传统藏医药领域。首先,收集并建立了包含9 166对词条的藏医领域术语双语词典,并利用该词典扩充低资源领域的数据,以提高翻译系统对于特定领域术语的覆盖率;其次,将词典中的词对直接添加到已有句对中、领域词典中的词来替换原有句对中的词两种方式进行数据扩充,以验证词典扩充的领域翻译性能;最后,考虑到领域特定句式信息对于翻译的重要性,通过分析特定领域的语境和语义关系,提出引入特定领域上下文句式框架来优化特殊领域的翻译性能,在传统藏医药领域进行测试。实验结果表明,在利用词典进行数据扩充后,传统藏医药领域的BLEU值从0提升到4.59,且文章提出的领域句式框架方法,仅构造5条句式框架,就能使BLEU值最高提升至6.32,这为解决低资源领域翻译问题提供了新的思路和方法。

关键词:藏汉机器翻译;领域数据不平衡;领域句式框架;术语双语词典


中国高校特色科技期刊

中国高校优秀科技期刊

中国科学引文数据库(CSCD)来源期刊

科技期刊世界影响力指数(WJCI)来源期刊

扫码关注我们

查看更多精彩内容


西藏大学期刊中心
西藏大学期刊中心公众号,主要推送《西藏大学学报》社会科学版、藏文版和《高原科学研究》优秀文章。
 最新文章