缅文依词释的数字化及语料初步分析 (三):缅文依词释简介

文摘   文化   2024-09-10 20:00   云南  
点击上方巴利献研究,关注我们。巴利文献研究主要发布与巴利语文献相关的研究成果,欢迎研究者和学习者共同交流


前言
缅文依词释(Nissaya)是古代及现代的高僧大德撰写的对于巴利语文献的逐词解释的著作。依词释涉及的巴利语文献涵盖了全部的根本,大部分义注和少量复注。这些参考资料为巴利文献的教学,翻译,研究提供了很有价值的指导作用。依词释的成书时间跨度很长。以前是记录在棕榈叶上,近代出现了铅字排版的纸质依词释,现代又有了少量电脑排版的纸质书。一方面棕榈叶和纸质书保存及再版非常不便,同时也无法适应当前信息时代电脑检索、网络传播、电子出版等研究和出版手段。因此将这些文献数字化,有助于保存和进一步研究、利用这些珍贵的古代文献。

三、我们的项目

为了能够方便的检索和解决非缅语人群使用上的不便。我们在2022年2月策划并实施了“数字依词释项目”。在项目的初期我们制定了如下项目目标:
• 通过人工录入现有的纸质依词释,实现资料的 Unicode 编码的文本化。为检索、复制、分析统计提供数据格式基础。
• 通过在录入时逐句对照第六次圣典结集的巴利语文本,实现依词释以句为单位的碎片化。与巴利原文无缝对接。无需额外检索操作。
• 通过在线录入流程,实现资料的实时共享。方便使用和项目管理。
• 以特定格式录入,进一步碎片化,颗粒度达到单词级别。实现巴利脚本的自动转码,支持罗马巴利、泰文、新哈拉文等,并方便后期的语料统计研究。
• 通过缅文语尾识别功能,方便不熟悉缅文的使用者也能获取依词释包涵的重要语法信息。
1.资料选择
在上述资料中,某些巴利原文有多个不同的依词释版本,我们优先选择当代西亚多的著作。因为当代作品会使用较现代的缅文解释,更容易理解。而且书籍的印刷质量较好,便于录入。其次,我们会选择现代出版的较新的依词释。特别一提的是缪提版(缅语:မိုးထိ 罗马转写 miuthi)。虽然该版本印刷较早,个别页字迹不清,但行文严谨,基本上是以单词为单位解释,很少出现以词组为单位的解释,公认在教学上有较高的参考价值。
一期工程我们最终选定了174本书共计80807页。具体类别和页数如下表所示:
表3 所选书籍表
2.项目管理
面对超过八万页的文本需要数字化,必然要考虑以下问题:
- 多人同时工作任务调配
- 录入进度管理
- 任务流程控制
随着项目的开展,一期工程最多的时候有四十多人同时在线录入。为了实现项目有序的开展,避免任务的重复安排,优先安排重要任务,以及方便的查看目前进度,经过比较筛选,我们引入了GitHub Project作为项目管理工具。
GitHub Project,也称为项目板(Project Boards),是GitHub平台上的一项功能,旨在帮助用户更好地组织、管理和跟踪项目中的任务、问题和拉取请求(Pull Requests,简称PRs)。它类似于一个可定制的电子表格或看板,允许用户通过拖放、排序和分组来管理项目中的各项事务。
GitHub Project 包含如下功能对依词释项目很有帮助:
• 用户可以根据自己的需求自定义项目板的工作流,通过添加不同的列来表示任务的不同状态,如“待办事项”、“进行中”、“已完成”等。
• 每个列可以包含多个卡片,每张卡片代表一本书。
• 可以轻松地通过拖放操作来重新排序卡片,或者将卡片从一个列移动到另一个列,以反映任务的当前状态或优先级。
GitHub Project的看板(Boards)和带有状态筛选的列表合适作为本项目的管理工具。相比电子表格,GitHub Project允许将筛选条件制作成视图(View)方便查看。比如:我们想要查看与义注有关的书。不需要每次都筛选义注。只需将筛选条件设置为“label:"aṭṭhakathā"”并创建视图。以后选择“义注视图”就能查看相关信息。
 
使用视图简化筛选操作
项目管理页面:https://github.com/orgs/iapt-platform/projects/6/views/1
2.1.状态管理
为了使录入工作更加有序,我们使用了Github Project的状态列功能管理书籍的录入状态。状态列允许用户设置自定义状态,通过表格修改状态,也可以通过看板拖放改变状态。拖放方式操作更加方便直观。我们设置了五大类状态(冻结、需要录入、进行中、已完成和校对中),其中需要录入的书籍被细分为从困难到容易的四个子状态。总共8中状态。
1. Blocking(冻结) 暂时不录入的文本。不录入的原因是该书有多个版本,我们通常选择专业人士推荐的最佳版本或者印刷比较清晰的版本。在这方面,拥有法师(dhammācariya)头衔的U Tejañāṇālankara给予了我们很大的帮助,指导我们选择适当的版本。
2. 需要录入 
1. Difficulty(困难) 书的印刷质量(或PDF)较差;部分文字缺失笔画到无法辨识的程度。
2. Medium(中等)印刷(或PDF)质量一般。能够辨识,但是有些字母容易辨识错误。
3. Paperbook-Clear(纸版书清楚)纸版书印刷清楚;容易录入。
4. PDF Clear(PDF文件清晰)PDF文件清晰,优先录入。
3. In Progress(进行中)正在录入,可以通过详情页面查看录入进度和已经录入的文本。
4. Done(初稿完成) 等待校对。
5. Review(校对中)
下图可以清晰的看出,设置状态后,可以通过看板了解和管理每本书的状态。
 
2.2.标签
值得一提的是,因为有很多书有多个版本,所以为了进行区分,我们使用了开头为"ver:"的标签进行区分。使用Github Project的标签筛选,而已方便的选择需要的查看的内容。比如pārājikakaṇḍapāḷi nissaya这本书有mūla、vinaya、pdf、ver:bhurākrī-ဘုရားကြီး 这几个标签。其中ver:bhurākrī-ဘုရားကြီး 是版本名称标签。当我们选择此标签时,凡是ဘုရားကြီး 版本的书都会列出来。如下图所示:
 
2.3.分类与编号
由于项目涉及到的书籍较多,且有些书名较长。为了项目组内部沟通和项目管理方便,有必要将每本书进行编号。我们参考了Masoyin e-Libaray 的收藏的编号方式。使用字母+数字的编号方式。字母采用巴利文缩写。其中包括巴利、义注、复注三个分类。分别用 p,a,t 表示:
• p = pāḷi
• a = aṭṭhakathā
• t = ṭīkā
如 [a-002]代表义注的第二本 pārājikakaṇḍa aṭṭhakathā nissaya(2)
2.4.实时查看录入进度
为了了解项目的进展情况,特别是某本书的目前录入进度。我们找出每本书对应的巴利原文的起止位置。使用程序扫描数据库。根据每句巴利原文的字符数和已经录入的句子,可以计算出每日的录入量。用录入的字符数和每页大约的字符数,就可以计算出每日的录入页数。下图是《中部·根本五十》依词释的录入进度。其中Book Id 是我们对于录入书籍的编号。Title是罗马巴利和缅文巴利的书名。PDF Page number 是本书的页数。点击PDF Link 后面的链接,可以在线阅读该书的电子版。方便校对的人找到该书。Link是wikipali平台链接,点击后可以打开网页查看录入结果。Progress是目前已经录入的页数,是用上述算法计算的大致页数。下面折线图表示了最近十天的录入进度。横轴是日期,纵轴是每天的录入页数。从该表可以直观的了解书籍目前的录入情况。
 
3.进度统计
专门开发的后台程序,可以通过扫描数据库生成每个月的录入量,已经录入总量,可以及时了解项目的进展情况。下图中,横轴是时间轴,从2022年2月项目开始到现在。蓝色的柱状图是每个月录入的量。可以看出最高录入速度是一千四百万字符/月,五万句/月。橙色的线则是总进度。
 
 
截至2024年8月13日,共计录入1.45亿字符,55万个句子
下表展示了已录入的依词释在每个分类的语料覆盖度。(截至2024年8月13日)
表4 已录入部分的语料覆盖度

.为项目开发的功能
我们使用自主研发的巴利语翻译与研究平台Wikipali作为本项目的工作平台。该平台包含逐句的缅甸第六次结集巴利原文。可以方便的录入与巴利原文逐句对照的文本。便于以后研究人员查找和使用。
4.1.巴利文自动转码
如上文所述,依词释的格式是一个巴利原文单词后面加上缅文解释。为了能够实现巴利原文电脑自动转码、缅文解释语尾识别和语法信息的自动提取和展示,我们对原有的程序进行了修改,以便支持依词释的特别格式。
• 每行一个单词
• 巴利文和缅文之间用 = 分隔
• 将脚注插入到原文正确的位置
虽然录入的时候都是缅文。修改后的程序可以自动将缅文字母拼写的巴利文显示为罗马体,并且可以将缅文表示格位的语尾高亮。增加语尾所代表的格位提示。
录入及显示样例:
录入:
မေ= တပည့်တော် အာနန္ဒာသည်။
(ဣဒံ သုတ္တံ= ဤကန္ဒရကသုတ်ကို။)
ဧဝံ= သို့။
သုတံ= (နာခံမှတ်သား) ဆောင်ထားအပ်ပါပြီ
```
ဤ၌ ဧဝံ-နိဒဿန၊ မေ-တတိယာကတ္တား၊ သုတံ-ဥပဓာရဏတ္ထ၊ ကမ္မရုပ်ပြန်ဆိုသည်။ ဧဝံ၊ ဤသို့သော အခြင်းအရာအားဖြင့် အာကာရတ္ထ။ ဧဝံ၊ ဤသို့သာ-ဟု အဝဓာရဏတ္ထလည်း ပြန်ဆိုနိုင်သည်။ မေ-ကို ဆဋ္ဌျန္တသမ္ဗန်အနက် ယောဇနာသော် သုတံ- ကို ဥပဓာရဏတ္ထ ဘာဝရုပ်ကြံ၍ ယောဇနာလေ။
```
ဧကံ= တပါးသော။
သမယံ= အခါ၌
显示效果:
 
Majjhimapaṇṇāsapāḷi/1. Gahapativaggo/1. Kandarakasuttaṃ 
该范例的链接: https://www.wikipali.cc/pcd/article/para/165-6?mode=edit&book=165&par=6&channel=&focus=165-6-2-25
如图所示,录入的缅文巴利被程序自动转换为罗马巴利。根据用户设置,也可以转换为泰文、新哈拉文、傣文等不同的脚本。
4.2.缅文语尾自动识别
“语法关系”被用来描述巴利语句子中两个单词之间的修饰关系。如:时间状语是某个变格词修饰动词,代表动作的发生时间,我们称之为DEF,相当于汉语的“当……时”。准确判断语法关系,对于理解经文意思是至关重要的。语法关系通常需要在学习后,通过大量的练习和翻译实践才能熟练掌握和准确判断。缅文依词释中的缅文单词语尾就包涵了语法关系的信息。我们将关系语法手册和缅文语尾录入数据库。基于这些数据,程序可以自动识别缅文解释中的语尾,并显示语法信息。这使得不精通缅文的使用者,也能从依词释中受益。
表5 关系语法数据表

全表224行,此处为节选
在上表中,每行是一条语法规则。“名称”列是某个语法关系的名称缩写。来源是修饰词的特征,如主格(nom),宾格(acc)等。连接到是被修饰词,多数情况下是动词。分类是将不同的匹配规则分组。如:SV是某词连接到动词做施动者,被连接词可能是主动动词或者被动动词。应该分为两组,即SV active verb 和 SV passive verb 。分组后,同组语法规则会在给用户展示的缅文语尾提示表中被折叠,必要时展开,方便查阅。
使用缅文语尾表,使得程序能够知道某个缅文语尾拼写与哪些语法关系相关,然后从上表中筛选相关的语法规则,并在软件界面中弹窗展示可能的语法列表。比如:语尾က 代表这个词和动词构成ASV关系,也就是说这个词在句子中是施动者,即主语。下表为缅文语尾表的节选:
表103行,此处为节选
自动识别显示效果 
如图所示,被识别出的缅文语尾被标记为蓝色。当鼠标移动到语尾上,显示气泡弹窗,展示该语尾可能的语法信息。通过这些语法信息可以帮助读者准确的判断某个格位的实际用法。如:单数工具格有多种用法,有时代表动作的方式,有时表达伴随,而在被动句中工具格是施动者。此处缅文依词释明确地指出了工具格单词的用法。
5.数字化带来的好处
• 便于复制和传播:可以方便复制到电子邮件,博客甚至是即时通讯软件中。
• 修订容易:发现错误不必等待下一次印刷。容易进行迭代升级。即使是原来的纸质书也会有些许错误,而以纸质版本流通,更正这些错误成本很高。
• 计算机搜索:全部的依词释文本将超过10万页。计算机查找将使得研究工作变得更容易。
• 大数据统计:通过计算机处理后,诸如某个单词的不同解释在三藏中的分布等信息将将更容易获得。
• 提升公众及佛教研究者对这些缅文资料的了解和重视程度。

(未完待续)


作者:清净喜 善巧

公众号排版:谢叶婷

翻译平台:wikipali






点个“在看”,及时获取最新资讯


巴利文献研究
本号发布与巴利语文献相关的研究成果,欢迎研究者和学习者共同交流。
 最新文章