wikipali介绍（四）：4 性、数、格的计算机辅助逐词解析

文摘文化 2024-09-07 20:39 云南

wikipali——在线巴利语料库及翻译工具的搭建

摘要

关键词

1 巴利语料库的建立初衷

2 巴利语料的汇集与多文种展示

3 现有巴利词典的索引整合

4 性、数、格的计算机辅助逐词解析

5 词汇关系进行图形化的语法分析

6 整个三藏的全变格模糊搜索

7 不同版本译文的对照阅读

8 三藏根本与注释书的对照和穿插混排

9 基于网站的已有翻译与教学实例

10 总结与展望：巴利语的“小”和“大”

参考文献

摘要

wikipali网站是笔者所在团队原创开发的一个巴利翻译综合工具，这是一个用于服务教学、翻译和研究的巴利语料库互联网平台（Corpus platform of pāli language）。Wikipali平台整合了尽可能全面的巴利词典资源，实现了计算机辅助巴利的逐词解析，对巴利语料中的词汇关系进行图形化的语法分析，研发了对巴利圣典的高效搜索和相似句的汇合，支持模糊搜索，可以从三藏根本（original text）、义注（commentary）复注（sub-commentary）等大量资料中，将相关资料原文与注释书内容的穿插混排展示。以上这些功能，将有力支持巴利语的教学、翻译和经典研究工作。

关键词

巴利语，巴利语料库，翻译，三藏，义注，复注

4 性、数、格的计算机辅助逐词解析

巴利语不同于汉语，其最大的特点是，每个名词、动词等实词，会有很多变化。从大的方面有以下三类：

1、性。名词、代词、形容词等在语法上具有不同性别特征，一般分阳性、阴性、中性三类。

2、数。名词、代词、形容词、动词等，根据其所关联的含义是单数对象还是复数对象，

3、格。名词、代词等在句子中起到不同作用时，会有八种格位的变化，即主格、呼格、宾格、工具格、来源格、属格、目的格、位置格。

上述的性、数、格三种变化，其表现形式是对巴利语单词本身进行词末的变形。比如，已经确定为阳性词的purisa（男人），对于单数和复数、八种格位的组合中，就有以下超过二十种拼写：

表2 purisa的变格表

可见，对于每个名词而言，至少有2数（单、复）乘以8格位，即16种变化。对于三性词而言，则要再乘以三，也即是48种变化。而这些变化，除非已经将各种变形规则烂熟于心，否则很难直观地判断出来单词的原型与其性数格。

因此，可以说，巴利的翻译并非是以词为最小单位，而是以“带有性、数、格信息的变化的词”为最小单位。正因为巴利语的复杂性在于其词汇具有丰富的形态变化，这使得翻译工作更加具有挑战性。

因此，我们开发了“神奇字典”。神奇字典功能可以记录用户对特定形态的巴利词语的查询和标注，这样，当同一形态在其他经文再次出现时，无论是同一用户还是其他用户，都能够直接获得之前的结果，翻译者只需要进行核对和检查，而不用从头开始判断，从而显著提高翻译效率。

比如说，只要曾经有人对purisehi标记过其原型是阳性名词purisa，是复数的工具格。那么在之后的翻译者遇到这个词时，就可以直接展示出来purisa、阳性、复数、工具格，甚至展示出推荐的译语。这不仅提高了个人的翻译效率，也促进了整个社区的知识积累和共享。

例如，下面这句经文出自《小部义注·本生义注·止恶法本生注释》：

图14

当使用神奇字典功能时，wikipali语料库平台会根据之前的数据提供如下的逐词译拆分及信息：

图15

可见，神奇字典功能会将Haṃso拆分成为haṃsa+[o]，其中haṃsa含义为“天鹅”，其为阳性名词，词尾的[o]在这里是a结尾的阳性名词的单数、主格，也即是说Haṃso在这句话中含义为“天鹅”，在句子中作用为主格。

第二个字sakkharasaddaṃ，被系统识别为合成词，应当拆分为sakkhara和saddaṃ。其中前者含义为“碎石”，是阳性名词。后者含义为“声音”，具体来说，是sadda+[ṃ]的组合，sadda为“声音”，[ṃ]为a结尾的阳性名词的单数、宾格。因此，这整个词语含义为“碎石的声音”，在句子中作用为宾格。

第三个字sutvā，被系统识别出这是一个动词的变形，即suṇāti+[tvā]。其中前者含义为“听闻”，后者[tvā]为动词绝对式，含义为“某动作之后”。因此，这个词的整体含义即为“听到……之后”。

在检查这三个字的拆分和含义都正确以后，这句话的含义就很清楚，即为“天鹅听到碎石的声音之后”。如果翻译者发现系统提供的拆分和含义数据有错，可以手动调整，之后并提交到网站数据库，便可为后来的翻译者对同一个词的拆分提供更准备的参考。

神奇字典最初是为巴利翻译设计的，但随着技术的发展，它已经能够支持缅文，已经投入到使用当中，并有潜力在未来支持更多语言文字。这种扩展性极大地提升了翻译工作的效率和准确性，同时也促进了知识的共享和社区的发展。而且，当用户提交数据的量达到一个比较大的数量之后，可以进行大数据统计。这对语料库语言学的研究是有参考价值的。

（未完待续）

作者：达摩难陀尊者清净喜尊者善巧尊者

公众号排版：谢叶婷

翻译平台：wikipali

封面制作：法月贤友

巴利文献研究

本号发布与巴利语文献相关的研究成果，欢迎研究者和学习者共同交流。

最新文章

法句义注23| 双品—4. 黑母亚卡的故事

法句义注22| 双品—3. 帝思长老的故事

wikipali介绍（十）：总结与展望：巴利语的“小”和“大”

法句义注21| 双品—2. 光滑耳环的故事02

wikipali介绍（九）：基于网站的已有翻译与教学实例

法句义注20| 双品—2. 光滑耳环的故事01

wikipali介绍（八）：三藏根本与注释书的对照和穿插混排

法句义注19 | 双品—1.护眼长老的故事04

wikipali介绍（七）：不同版本译文的对照阅读

法句义注18 | 双品—1.护眼长老的故事03

wikipali（云台）译经团队参加第21届吴越佛教学术研讨会

缅文依词释的数字化及语料初步分析（五） :结语

wikipali介绍（六）：整个三藏的全变格模糊搜索

法句义注17 | 双品—1.护眼长老的故事02

缅文依词释的数字化及语料初步分析（四）:对于已经录入的资料的初步分析

wikipali介绍（五）：词汇关系进行图形化的语法分析

法句义注16 | 双品—1.护眼长老的故事01

缅文依词释的数字化及语料初步分析（三）:缅文依词释简介

wikipali介绍（四）：4 性、数、格的计算机辅助逐词解析

法句义注15 | 序言

缅文依词释的数字化及语料初步分析（二）:现有的依词释数字化成果

wikipali介绍（三）：现有巴利词典的索引整合

法句义注14 | 绪论—《法句义注》中的沙格(Sakka)天帝

缅文依词释的数字化及语料初步分析（一）:缅文依词释简介

wikipali介绍（二）：巴利语料的汇集与多文种展示

法句义注13 | 绪论—《法句义注》中的大近事女维萨卡(Visākhā)

wikipali——在线巴利语料库及翻译工具的搭建（一）

法句义注12 | 绪论—《法句义注》中的给孤独(Anāthapiṇḍika)富翁

法句义注11 | 绪论—《法句义注》中的王后

法句义注10 | 绪论—《法句义注》中的国王

法句义注09 | 绪论—《法句义注》中的比库尼大弟子

法句义注08 | 《法句义注》中的上首比库尼弟子

法句义注07 | 绪论—《法句义注》中的出佛身血与分裂僧团者——迭瓦达德(Devadatta)

法句义注06 | 绪论—《法句义注》中的比库大弟子—02

法句义注05 | 绪论—《法句义注》中的比库大弟子—01

法句义注04 | 绪论—《法句义注》中的佛陀与上首双贤弟子

法句义注03 | 《法句义注》的内容主题

法句义注02 | 绪论—《法句义注》的注释特色

法句义注 01| 绪论—《法句义注》的由来

关于菩萨降生的十点说明和澄清（四）

关于菩萨降生的十点说明和澄清（三）

关于菩萨降生的十点说明和澄清（二）

关于菩萨降生的十点说明和澄清（一）

2024年巴利语学习班招生简章

天宫事义注 | 船天宫第三

天宫事义注 | 船天宫第二

发趣总说手册14 | 发趣之义

天宫事义注 | 船天宫第一

发趣总说手册13 | 于色聚之诸缘协力法

发趣总说手册12 | 不善心与美心生起之诸缘协力法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉