缅文依词释的数字化及语料初步分析（三）:缅文依词释简介

文摘文化 2024-09-10 20:00 云南

点击上方巴利文献研究，关注我们。巴利文献研究主要发布与巴利语文献相关的研究成果，欢迎研究者和学习者共同交流

前言

缅文依词释(Nissaya)是古代及现代的高僧大德撰写的对于巴利语文献的逐词解释的著作。依词释涉及的巴利语文献涵盖了全部的根本，大部分义注和少量复注。这些参考资料为巴利文献的教学，翻译，研究提供了很有价值的指导作用。依词释的成书时间跨度很长。以前是记录在棕榈叶上，近代出现了铅字排版的纸质依词释，现代又有了少量电脑排版的纸质书。一方面棕榈叶和纸质书保存及再版非常不便，同时也无法适应当前信息时代电脑检索、网络传播、电子出版等研究和出版手段。因此将这些文献数字化，有助于保存和进一步研究、利用这些珍贵的古代文献。

三、我们的项目

为了能够方便的检索和解决非缅语人群使用上的不便。我们在2022年2月策划并实施了“数字依词释项目”。在项目的初期我们制定了如下项目目标：

• 通过人工录入现有的纸质依词释，实现资料的 Unicode 编码的文本化。为检索、复制、分析统计提供数据格式基础。

• 通过在录入时逐句对照第六次圣典结集的巴利语文本，实现依词释以句为单位的碎片化。与巴利原文无缝对接。无需额外检索操作。

• 通过在线录入流程，实现资料的实时共享。方便使用和项目管理。

• 以特定格式录入，进一步碎片化，颗粒度达到单词级别。实现巴利脚本的自动转码，支持罗马巴利、泰文、新哈拉文等，并方便后期的语料统计研究。

• 通过缅文语尾识别功能，方便不熟悉缅文的使用者也能获取依词释包涵的重要语法信息。

1.资料选择

在上述资料中，某些巴利原文有多个不同的依词释版本，我们优先选择当代西亚多的著作。因为当代作品会使用较现代的缅文解释，更容易理解。而且书籍的印刷质量较好，便于录入。其次，我们会选择现代出版的较新的依词释。特别一提的是缪提版（缅语：မိုးထိ 罗马转写 miuthi）。虽然该版本印刷较早，个别页字迹不清，但行文严谨，基本上是以单词为单位解释，很少出现以词组为单位的解释，公认在教学上有较高的参考价值。

一期工程我们最终选定了174本书共计80807页。具体类别和页数如下表所示：

表3 所选书籍表

2.项目管理

面对超过八万页的文本需要数字化，必然要考虑以下问题：

- 多人同时工作任务调配

- 录入进度管理

- 任务流程控制

随着项目的开展，一期工程最多的时候有四十多人同时在线录入。为了实现项目有序的开展，避免任务的重复安排，优先安排重要任务，以及方便的查看目前进度，经过比较筛选，我们引入了GitHub Project作为项目管理工具。

GitHub Project，也称为项目板（Project Boards），是GitHub平台上的一项功能，旨在帮助用户更好地组织、管理和跟踪项目中的任务、问题和拉取请求（Pull Requests，简称PRs）。它类似于一个可定制的电子表格或看板，允许用户通过拖放、排序和分组来管理项目中的各项事务。

GitHub Project 包含如下功能对依词释项目很有帮助：

• 用户可以根据自己的需求自定义项目板的工作流，通过添加不同的列来表示任务的不同状态，如“待办事项”、“进行中”、“已完成”等。

• 每个列可以包含多个卡片，每张卡片代表一本书。

• 可以轻松地通过拖放操作来重新排序卡片，或者将卡片从一个列移动到另一个列，以反映任务的当前状态或优先级。

GitHub Project的看板(Boards)和带有状态筛选的列表合适作为本项目的管理工具。相比电子表格，GitHub Project允许将筛选条件制作成视图（View）方便查看。比如：我们想要查看与义注有关的书。不需要每次都筛选义注。只需将筛选条件设置为“label:"aṭṭhakathā"”并创建视图。以后选择“义注视图”就能查看相关信息。

使用视图简化筛选操作

项目管理页面：https://github.com/orgs/iapt-platform/projects/6/views/1

2.1.状态管理

为了使录入工作更加有序，我们使用了Github Project的状态列功能管理书籍的录入状态。状态列允许用户设置自定义状态，通过表格修改状态，也可以通过看板拖放改变状态。拖放方式操作更加方便直观。我们设置了五大类状态（冻结、需要录入、进行中、已完成和校对中），其中需要录入的书籍被细分为从困难到容易的四个子状态。总共8中状态。

1. Blocking(冻结) 暂时不录入的文本。不录入的原因是该书有多个版本，我们通常选择专业人士推荐的最佳版本或者印刷比较清晰的版本。在这方面，拥有法师（dhammācariya）头衔的U Tejañāṇālankara给予了我们很大的帮助，指导我们选择适当的版本。

2. 需要录入

1. Difficulty(困难) 书的印刷质量(或PDF)较差；部分文字缺失笔画到无法辨识的程度。

2. Medium(中等)印刷(或PDF)质量一般。能够辨识，但是有些字母容易辨识错误。

3. Paperbook-Clear(纸版书清楚)纸版书印刷清楚；容易录入。

4. PDF Clear(PDF文件清晰)PDF文件清晰，优先录入。

3. In Progress(进行中)正在录入，可以通过详情页面查看录入进度和已经录入的文本。

4. Done(初稿完成) 等待校对。

5. Review(校对中)

下图可以清晰的看出，设置状态后，可以通过看板了解和管理每本书的状态。

2.2.标签

值得一提的是，因为有很多书有多个版本，所以为了进行区分，我们使用了开头为"ver:"的标签进行区分。使用Github Project的标签筛选，而已方便的选择需要的查看的内容。比如pārājikakaṇḍapāḷi nissaya这本书有mūla、vinaya、pdf、ver:bhurākrī-ဘုရားကြီး 这几个标签。其中ver:bhurākrī-ဘုရားကြီး 是版本名称标签。当我们选择此标签时，凡是ဘုရားကြီး 版本的书都会列出来。如下图所示：

2.3.分类与编号

由于项目涉及到的书籍较多，且有些书名较长。为了项目组内部沟通和项目管理方便，有必要将每本书进行编号。我们参考了Masoyin e-Libaray 的收藏的编号方式。使用字母+数字的编号方式。字母采用巴利文缩写。其中包括巴利、义注、复注三个分类。分别用 p,a,t 表示：

• p = pāḷi

• a = aṭṭhakathā

• t = ṭīkā

如 [a-002]代表义注的第二本 pārājikakaṇḍa aṭṭhakathā nissaya(2)

2.4.实时查看录入进度

为了了解项目的进展情况，特别是某本书的目前录入进度。我们找出每本书对应的巴利原文的起止位置。使用程序扫描数据库。根据每句巴利原文的字符数和已经录入的句子，可以计算出每日的录入量。用录入的字符数和每页大约的字符数，就可以计算出每日的录入页数。下图是《中部·根本五十》依词释的录入进度。其中Book Id 是我们对于录入书籍的编号。Title是罗马巴利和缅文巴利的书名。PDF Page number 是本书的页数。点击PDF Link 后面的链接，可以在线阅读该书的电子版。方便校对的人找到该书。Link是wikipali平台链接，点击后可以打开网页查看录入结果。Progress是目前已经录入的页数，是用上述算法计算的大致页数。下面折线图表示了最近十天的录入进度。横轴是日期，纵轴是每天的录入页数。从该表可以直观的了解书籍目前的录入情况。

3.进度统计

专门开发的后台程序，可以通过扫描数据库生成每个月的录入量，已经录入总量，可以及时了解项目的进展情况。下图中，横轴是时间轴，从2022年2月项目开始到现在。蓝色的柱状图是每个月录入的量。可以看出最高录入速度是一千四百万字符/月，五万句/月。橙色的线则是总进度。

截至2024年8月13日，共计录入1.45亿字符，55万个句子

下表展示了已录入的依词释在每个分类的语料覆盖度。(截至2024年8月13日)

表4 已录入部分的语料覆盖度

.为项目开发的功能

我们使用自主研发的巴利语翻译与研究平台Wikipali作为本项目的工作平台。该平台包含逐句的缅甸第六次结集巴利原文。可以方便的录入与巴利原文逐句对照的文本。便于以后研究人员查找和使用。

4.1.巴利文自动转码

如上文所述，依词释的格式是一个巴利原文单词后面加上缅文解释。为了能够实现巴利原文电脑自动转码、缅文解释语尾识别和语法信息的自动提取和展示，我们对原有的程序进行了修改，以便支持依词释的特别格式。

• 每行一个单词

• 巴利文和缅文之间用 = 分隔

• 将脚注插入到原文正确的位置

虽然录入的时候都是缅文。修改后的程序可以自动将缅文字母拼写的巴利文显示为罗马体，并且可以将缅文表示格位的语尾高亮。增加语尾所代表的格位提示。

录入及显示样例：

录入：

မေ= တပည့်တော် အာနန္ဒာသည်။

(ဣဒံ သုတ္တံ= ဤကန္ဒရကသုတ်ကို။)

ဧဝံ= သို့။

သုတံ= (နာခံမှတ်သား) ဆောင်ထားအပ်ပါပြီ

```

ဤ၌ ဧဝံ-နိဒဿန၊ မေ-တတိယာကတ္တား၊ သုတံ-ဥပဓာရဏတ္ထ၊ ကမ္မရုပ်ပြန်ဆိုသည်။ ဧဝံ၊ ဤသို့သော အခြင်းအရာအားဖြင့် အာကာရတ္ထ။ ဧဝံ၊ ဤသို့သာ-ဟု အဝဓာရဏတ္ထလည်း ပြန်ဆိုနိုင်သည်။ မေ-ကို ဆဋ္ဌျန္တသမ္ဗန်အနက် ယောဇနာသော် သုတံ- ကို ဥပဓာရဏတ္ထ ဘာဝရုပ်ကြံ၍ ယောဇနာလေ။

```

။

ဧကံ= တပါးသော။

သမယံ= အခါ၌

显示效果：

Majjhimapaṇṇāsapāḷi/1. Gahapativaggo/1. Kandarakasuttaṃ

该范例的链接: https://www.wikipali.cc/pcd/article/para/165-6?mode=edit&book=165&par=6&channel=&focus=165-6-2-25

如图所示，录入的缅文巴利被程序自动转换为罗马巴利。根据用户设置，也可以转换为泰文、新哈拉文、傣文等不同的脚本。

4.2.缅文语尾自动识别

“语法关系”被用来描述巴利语句子中两个单词之间的修饰关系。如：时间状语是某个变格词修饰动词，代表动作的发生时间，我们称之为DEF，相当于汉语的“当……时”。准确判断语法关系，对于理解经文意思是至关重要的。语法关系通常需要在学习后，通过大量的练习和翻译实践才能熟练掌握和准确判断。缅文依词释中的缅文单词语尾就包涵了语法关系的信息。我们将关系语法手册和缅文语尾录入数据库。基于这些数据，程序可以自动识别缅文解释中的语尾，并显示语法信息。这使得不精通缅文的使用者，也能从依词释中受益。

表5 关系语法数据表

全表224行，此处为节选

在上表中，每行是一条语法规则。“名称”列是某个语法关系的名称缩写。来源是修饰词的特征，如主格（nom），宾格（acc）等。连接到是被修饰词，多数情况下是动词。分类是将不同的匹配规则分组。如：SV是某词连接到动词做施动者，被连接词可能是主动动词或者被动动词。应该分为两组，即SV active verb 和 SV passive verb 。分组后，同组语法规则会在给用户展示的缅文语尾提示表中被折叠，必要时展开，方便查阅。

使用缅文语尾表，使得程序能够知道某个缅文语尾拼写与哪些语法关系相关，然后从上表中筛选相关的语法规则，并在软件界面中弹窗展示可能的语法列表。比如：语尾က 代表这个词和动词构成ASV关系，也就是说这个词在句子中是施动者，即主语。下表为缅文语尾表的节选：

表103行，此处为节选

自动识别显示效果

如图所示，被识别出的缅文语尾被标记为蓝色。当鼠标移动到语尾上，显示气泡弹窗，展示该语尾可能的语法信息。通过这些语法信息可以帮助读者准确的判断某个格位的实际用法。如：单数工具格有多种用法，有时代表动作的方式，有时表达伴随，而在被动句中工具格是施动者。此处缅文依词释明确地指出了工具格单词的用法。

5.数字化带来的好处

• 便于复制和传播：可以方便复制到电子邮件，博客甚至是即时通讯软件中。

• 修订容易：发现错误不必等待下一次印刷。容易进行迭代升级。即使是原来的纸质书也会有些许错误，而以纸质版本流通，更正这些错误成本很高。

• 计算机搜索：全部的依词释文本将超过10万页。计算机查找将使得研究工作变得更容易。

• 大数据统计：通过计算机处理后，诸如某个单词的不同解释在三藏中的分布等信息将将更容易获得。

• 提升公众及佛教研究者对这些缅文资料的了解和重视程度。

（未完待续）

作者：清净喜善巧

公众号排版：谢叶婷

翻译平台：wikipali

巴利文献研究

本号发布与巴利语文献相关的研究成果，欢迎研究者和学习者共同交流。

最新文章

法句义注23| 双品—4. 黑母亚卡的故事

法句义注22| 双品—3. 帝思长老的故事

wikipali介绍（十）：总结与展望：巴利语的“小”和“大”

法句义注21| 双品—2. 光滑耳环的故事02

wikipali介绍（九）：基于网站的已有翻译与教学实例

法句义注20| 双品—2. 光滑耳环的故事01

wikipali介绍（八）：三藏根本与注释书的对照和穿插混排

法句义注19 | 双品—1.护眼长老的故事04

wikipali介绍（七）：不同版本译文的对照阅读

法句义注18 | 双品—1.护眼长老的故事03

wikipali（云台）译经团队参加第21届吴越佛教学术研讨会

缅文依词释的数字化及语料初步分析（五） :结语

wikipali介绍（六）：整个三藏的全变格模糊搜索

法句义注17 | 双品—1.护眼长老的故事02

缅文依词释的数字化及语料初步分析（四）:对于已经录入的资料的初步分析

wikipali介绍（五）：词汇关系进行图形化的语法分析

法句义注16 | 双品—1.护眼长老的故事01

缅文依词释的数字化及语料初步分析（三）:缅文依词释简介

wikipali介绍（四）：4 性、数、格的计算机辅助逐词解析

法句义注15 | 序言

缅文依词释的数字化及语料初步分析（二）:现有的依词释数字化成果

wikipali介绍（三）：现有巴利词典的索引整合

法句义注14 | 绪论—《法句义注》中的沙格(Sakka)天帝

缅文依词释的数字化及语料初步分析（一）:缅文依词释简介

wikipali介绍（二）：巴利语料的汇集与多文种展示

法句义注13 | 绪论—《法句义注》中的大近事女维萨卡(Visākhā)

wikipali——在线巴利语料库及翻译工具的搭建（一）

法句义注12 | 绪论—《法句义注》中的给孤独(Anāthapiṇḍika)富翁

法句义注11 | 绪论—《法句义注》中的王后

法句义注10 | 绪论—《法句义注》中的国王

法句义注09 | 绪论—《法句义注》中的比库尼大弟子

法句义注08 | 《法句义注》中的上首比库尼弟子

法句义注07 | 绪论—《法句义注》中的出佛身血与分裂僧团者——迭瓦达德(Devadatta)

法句义注06 | 绪论—《法句义注》中的比库大弟子—02

法句义注05 | 绪论—《法句义注》中的比库大弟子—01

法句义注04 | 绪论—《法句义注》中的佛陀与上首双贤弟子

法句义注03 | 《法句义注》的内容主题

法句义注02 | 绪论—《法句义注》的注释特色

法句义注 01| 绪论—《法句义注》的由来

关于菩萨降生的十点说明和澄清（四）

关于菩萨降生的十点说明和澄清（三）

关于菩萨降生的十点说明和澄清（二）

关于菩萨降生的十点说明和澄清（一）

2024年巴利语学习班招生简章

天宫事义注 | 船天宫第三

天宫事义注 | 船天宫第二

发趣总说手册14 | 发趣之义

天宫事义注 | 船天宫第一

发趣总说手册13 | 于色聚之诸缘协力法

发趣总说手册12 | 不善心与美心生起之诸缘协力法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

缅文依词释的数字化及语料初步分析 （三）:缅文依词释简介

缅文依词释的数字化及语料初步分析（三）:缅文依词释简介