缅文依词释的数字化及语料初步分析 (四):对于已经录入的资料的初步分析
文摘
文化
2024-09-17 20:43
云南
点击上方巴利文献研究,关注我们。巴利文献研究主要发布与巴利语文献相关的研究成果,欢迎研究者和学习者共同交流
缅文依词释(Nissaya)是古代及现代的高僧大德撰写的对于巴利语文献的逐词解释的著作。依词释涉及的巴利语文献涵盖了全部的根本,大部分义注和少量复注。这些参考资料为巴利文献的教学,翻译,研究提供了很有价值的指导作用。依词释的成书时间跨度很长。以前是记录在棕榈叶上,近代出现了铅字排版的纸质依词释,现代又有了少量电脑排版的纸质书。一方面棕榈叶和纸质书保存及再版非常不便,同时也无法适应当前信息时代电脑检索、网络传播、电子出版等研究和出版手段。因此将这些文献数字化,有助于保存和进一步研究、利用这些珍贵的古代文献。上文的进度统计图看出,目前已经录入了52万句的依词释。我们尝试用计算机对这些数据进行分类汇总统计,从而知道单词的意思和某些语法显现出现的频率和规律,有可能对今后的巴利语教学产生指导意义。具体来说,首先用程序在数据库中提取包涵书号和内容在内的信息,然后将内容按照单词拆解,每个单词建立一条记录,然后把巴利文罗马化。利用wikipali平台的系统变格词典找到巴利文语尾,再通过上述缅文语尾表找到缅文语尾。下面的表格为原始数据:由于一个缅文单词有可能有多个语尾,比如,复数的单词有可能有“复数”和“用法”两个语尾。我们将包涵多个缅文语尾的单词拆分为词头相同的两条记录,便于统计。再通过书号就能得知该词的分类标签,如经藏、律藏等。将巴利文语尾和缅文语尾合并后,就可以进行分类汇总。没有查到巴利语语尾和缅文语尾的数据将被丢弃,不进行统计。我们以第二行为例,可以看出是ā结尾的单词和သည် 搭配。根据上文所述的缅文语尾表,可以找到သည်的用法表如下:1. 名化,(合)与其他名词组成名词,意为:……者、身为……的人我们知道ā语尾只有主格和来源格两种可能。那么根据依词释。在此就只有主格这一种可能。也就是主格做主语。当然,主格在被动语态是做受动的。在这里,我们使用依词释确定了此处的用法。使用这张表,我们对分类标签和巴缅语尾进行分类汇总。就可以找出格位的用法的出现概率。以及在三藏中的分布。因为总数据超过300万条。如此庞大的数据超过了Excel的处理能力。我们将数据导入PostgreSQL中进行分类汇总。304万条数据经过分类汇总后的结果为22064条数据,在此展示一部分的数据如下:由于依词释是针对每个单词的解释,换个角度来说依词释同时也是一个带有格位并基于实际语料的词典。并可以进一步对格位的用法进行统计。比如,目的格和属格的拼写是一样的,但具体是哪个格位?哪种用法?这是值得去研究的。目前,通过统计可能是属格或目的格的单词有178,355个,其中属格有10,2101个,目的格有7,6254个,属格偏多。其中,最多的情况是属格作从属关系的统计结果有84117条,占总样本数的47.16% 其次是目的格作对象的统计结果有54979条,占总样本数的30.83%通过语料分析,或可对今后的巴利语教材编写及教学活动起到一定的辅助作用。作者:清净喜 善巧
公众号排版:谢叶婷
翻译平台:wikipali