近日,《Expert Systems with Applications》(中科院一区Top期刊,IF:8.5) 刊发了我院助理研究员闫超文、副教授王勇团队联合四川大学、西南大学在佛教文献自然语言处理领域的文章 “A novel masking model for Buddhist literature understanding by using Generative Adversarial Networks”(《基于生成对抗网络的佛教文献理解掩码模型)。
网络版链接https://www.sciencedirect.com/science/article/abs/pii/S0957417424021080
该论文聚焦于中国佛教文献语料(具体包括佛教译经和禅宗文献)自然语言处理任务所面临的难题,充分利用对虚词和佛教词汇的理解,提出了一种新颖的模型——生成对抗网络掩码模型(GAN-MM)。构建并公开发布了一个大规模佛教文献数据集以支持模型的预训练。GAN-MM 使用创新的半监督学习算法进行训练。实验表明,GAN-MM 在两个佛教文献理解任务中优于通用的掩码语言模型(MLM),并超越了其他方法。此外,该论文评估了在佛教数据集上预训练的 BERT 模型在两个公开可用的古汉语理解任务上的泛化能力,实验结果表明它们的表现相当。在 GAN-MM 训练过程中,最终遮掩样本的选择耗费了一定时间,但它为 BERT 模型的预训练提供了两个显著优势。其一,GAN-MM 在佛教数据集上大约在 10 个 epoch 内实现了快速收敛;其二,GAN-MM 仅使用 5 层的 Transformer 块即可有效运行。ChatGPT 等大模型在全球范围内引发了广泛关注,但理解古汉语仍然面临巨大的挑战。本文旨在为古代汉语大模型的开发进行一些有益的探索,提出的 GAN-MM 方法用于佛教数据集上对 BERT 模型进行预训练,是解决古汉语文本理解的一种较为新颖的研究范式。
作者简介
闫超文,四川大学文学博士。四川师范大学中华传统文化学院助理研究员,四川师范大学简帛与石刻文字研究中心副主任,学院“中华优秀传统文化讲师团”成员、四川历史名人文化普及基地专职研究员。主要研究方向为汉语词汇史、禅宗文献语言等。在《汉语史集刊》等刊物上发表多篇论文;主持四川省社科规划项目、成都市社科规划项目以及厅级项目4项。
王勇,四川大学博士、北京语言大学博士后。四川师范大学副教授、博士生导师。现任四川师范大学中华传统文化学院副院长,四川省语言学会秘书长。四川省传承发展中华优秀传统文化专家库青年专家兼专家库秘书处成员,学习贯彻习近平总书记来川视察重要指示精神省委宣讲分队成员。主要研究方向为训诂与汉语词汇史、汉语方言等。已出版专著6部(独著3部);发表论文20余篇;主持国家社科基金项目2项,国家语委科研项目3项,中国博士后科学基金面上资助项目、四川省社科规划项目各1项;获四川省社会科学优秀成果奖三等奖1次。
编 辑 | 王 旭
审 核 | 王 勇
终 审 | 阳家全
安身立命·敬业乐群
四川师范大学中华传统文化学院
微信公众号ID:scsdzhctwhxy