钟书能|数字人文范式下机器学习文本分类应用于翻译研究的路径探索——以翻译汉语句法特征研究为例

文摘   2024-08-29 18:57   上海  

作者简介|PROFILE

钟书能,华南理工大学外国语学院教授。


杨立汝,华南理工大学外国语学院博士研究生。

摘要:文本分类等大数据挖掘技术的应用是数字人文范式下翻译研究的主要特征之一。翻译语言特征研究是翻译研究的基础领域。本研究提出机器学习文本分类应用于翻译语言特征研究的“五步法”研究路径,包含文本分类数据远观、贡献度排序特征中观、随机选择文本细读、语言规律总结和规律成因阐释等五个步骤。本研究依循该路径考察了翻译汉语的句法特征,发现翻译汉语相比原创汉语的最显著特征是数词在“数词+作名词的量词”表名词短语、习语、“数词+量词+名词”表模糊义等范畴边缘成员上的负使用,其认知成因在于译者倾向于忽略语义网络中突显程度较低的范畴边缘成员。案例研究表明,引入机器学习文本分类算法能够提升语言宏观描写层面的全面性、客观性与科学性,基于数据结论随机选择文本开展语例细读则有助于深入挖掘形式数据背后隐含的更细颗粒度的语言规律。本研究旨在为数字人文范式下的翻译研究提供新的方法与思路。

关键词:数字人文;机器学习;文本分类;翻译语言特征研究;五步法


全  文

引 言

数字人文已成为一种新的学术范式。文本分类等大数据挖掘技术的应用是数字人文翻译研究的主要特征之一。机器学习是新一代人工智能技术的核心,随机森林、支持向量机、朴素贝叶斯等经典机器学习算法是支持语言数字人文研究的主要数字技术。以机器学习为技术内核的文本分类(以下简称“文本分类”)旨在将一篇文本由机器学习算法自动地归属到一个或多个预定义的类别中,如翻译或原创、新闻或小说、积极情感或消极情感等。文本分类可为数字人文翻译研究者在建构与管理大型语料库、提取与比较多层级语言特征、识别与发现语言规律等方面提供坚实的技术支撑。

翻译语言特征研究是翻译研究的基础议题,翻译共性研究、译者风格研究、翻译文本传播研究和翻译教学研究等其他翻译研究领域均离不开对翻译语言特征的分析与归纳。自Baroni & Bernardini首次应用文本分类探究翻译意大利语是否在词性等形态句法层面存在不同于原创意大利语的普遍性特征以来,许多学者借助单语类比语料库考察翻译共性(translation universals)和源语言是否对翻译文本产生影响。绝大多数研究结果表明,文本分类不仅能够有效识别翻译文本与原创文本,还可启发性地发现一些人类几乎无法捕捉的语言模式。然而,这些研究多见于自然语言处理和计算机算法领域,这与彭青龙观察到的当前数字人文研究领域总体上存在的学科结构与学术背景不平衡现象是一致的。这导致现有文本分类方法在翻译研究中的应用存在以下两方面不足:一是仅沿用自上而下的研究路径验证简化、显化、源语渗透效应等已有的翻译共性理论假设,多关注文本分类准确率等宏观数据,未能充分发挥大数据挖掘技术的优势,依循自下而上的研究思路深入挖掘更细颗粒度的翻译语言特征,遑论立足大数据发现新的翻译语言规律。大部分研究以翻译文本作为实验语料来检验和对比各种机器学习算法在文本分类任务处理中的有效性与稳定性,其研究关注点在于机器学习算法对文本分类的正确率,就连少数发表于语言学和翻译学期刊的研究聚焦的也是译者身份判定、直接翻译与间接翻译识别等宏观分类问题。这些研究均止步于探讨算法能否有效区分文本的数据远观阶段,未能结合语言实例进一步聚焦值得关注的翻译语言特征从而更深入地描写归纳翻译语言规律。二是数据的罗列远多于语言现象的归纳解释,现有研究多将重点放在大量数据的呈现上,对于语言呈现的数据规律的成因缺乏深入阐释,未能运用认知语言学、社会翻译学等语言学理论贯通语言现象描写和阐释两个阶段,并建立起有效的解释框架或自下而上地分析归纳出关于翻译语言的一般理论模型。

可见,文本分类应用于翻译研究的有效性与可行性尚未得到充分检验。本研究提出,文本分类在翻译研究中的应用可依循自下而上(bottom-up)的数据驱动研究路径,按照文本分类数据远观、贡献度排序特征中观、随机选择文本细读、语言规律总结和规律成因阐释等五个研究步骤(简称“五步法”),由宏观层面探索性分析文本逐渐聚焦到微观层面针对性细读文本,实证性描写与经验性阐释相结合,系统挖掘翻译语言的普遍性规律。

本研究拟以翻译汉语的句法特征研究为例,探索上述“五步法”研究路径应用于翻译语言特征研究的可行性与有效性,并结合案例厘析该研究路径的特点与优势。自语料库翻译学发轫伊始,翻译汉语特征研究成果丰硕,但多集中在词汇层面,较少探讨翻译汉语的句法特征,仅有的研究成果也局限于句子长度等表层现象。近年来,自然语言处理技术的发展正逐渐突破对大规模语料实施自动句法分析的障碍,句法的量化实证研究涌现了许多成果,其中较有代表性的是依存句法研究。依存句法可以探测到短语成分语法无法测量到的语言特征,依存句法分析的是每一组两个词之间非对称的二元关系,其中一个词为支配词,另一个为从属词,支配词会支配从属词。比如,在“我们一起画幅图”一句中,从属词“我们”以“名词主语”的依存关系依存于支配词“画”,从属词“一起”与支配词“我们”则存在“副词修饰”的依存关系。依存句法正受到越来越多学者的关注,然而,它在翻译研究中尚未得到足够重视。当前,翻译学在依存句法方面的研究主要集中在依存距离和依存方向上,较少深入探究翻译语言的具体依存关系特征。本研究拟从反映句法浅层特征的词性入手,结合挖掘句法深层结构的依存句法关系,探究翻译汉语的句法特征。

综上所述,本研究拟采用随机森林(random forest)机器学习算法,以“词性(POS)”和“依存句法关系+支配词词性+从属词词性”为语言形式参数,依循文本分类“五步法”研究路径,系统挖掘翻译汉语相较于原创汉语的句法特征,并运用认知语言学理论解释其成因,最后结合研究案例总结剖析该研究路径的特点。本研究拟回答以下三个研究问题:

(1)随机森林算法能否分别依凭“词性”与“依存关系+支配词词性+从属词词性”两个特征集有效且稳定地区分翻译汉语与原创汉语?

(2)若能,翻译汉语在句法使用上最突出的特征是什么?其背后的认知成因是什么?

(3)文本分类“五步法”研究路径的特点是什么?


一、研究方法

(一)研究语料

本研究自建语料库,选取334本翻译汉语文本和300本原创汉语文本作为研究对象,语料库总字符数达136333422字。为保证两类文本的可比性,两个子库语料的文本体裁和创作年代一致,均为选自《中国现代文学史》《俄罗斯文学史简编》《日本文学史》等文学教材的20世纪严肃文学小说作品。选择高质量经典小说作为研究语料源自以下四个理由:(1)在此前应用文本分类考察翻译语言特征的研究中,尚无研究基于文学作品考察翻译汉语特征。(2)小说文本的语言具有更强的异质性(heterogeneity),更能反映翻译语言的普遍性规律。虽然强异质性的语言会在一定程度上削弱两个子语料库的可比性,且相比该领域常用的EUROPARL语料库、某本期刊或报刊等风格上更加同质的文本,应用文学作品作为语料无疑将增大训练和测试分类模型的难度,但在该情况下训练得到的分类器(classifier)可能具有更强的泛化能力,也即更能推广到其他未经训练的数据集上,其实验结果具有更强的鲁棒性(robustness),换言之,从异质性强的语料中得出的研究结论将更具备代表性与普遍性。(3)文本的元数据,如作者的创作时间、翻译文本的源语言、译者信息、出版信息等,较容易查找与考证,为设计实验时控制相关变量提供了极大的便利。(4)可在一定程度上保证翻译子语料库的文本质量。首先,经典著作获得高水平出版社出版的概率更高,一般而言,高水平出版社对译者翻译素养的考察以及对译本审校的流程相对严格。本研究中翻译子语料库的文本尽量选择高水平出版社出版的译本,其中,近一半译本来自上海译文出版社(18.8%)、人民文学出版社(9.3%)、外国文学出版社(8.7%)、译林出版社(6.9%)、作家出版社(3.1%)等国内著名文学出版社,其余译本也分别来自中央编译出版社、中国文联出版社等专精文学作品出版的出版社。其次,相比新闻、畅销新书、科普作品等讲求时效性的体裁,经典文学作品容许译者拥有更多翻译时间、投入更多精力打磨文本。

语料库中同一作者或同一译者的作品至多不超过3本,避免作者和译者个人创作风格影响语言特征的普遍性。此外,考虑到翻译文本可能受源语影响,本研究共选取5种不同语种的源语言的翻译文本,以此考察翻译汉语句法跨源语言的普遍性特征。语料库具体数据如表1所示。

(二)句法标注工具

本研究选取Stanford Parser为文本进行分词、词性标注和依存句法关系标注。刘鼎甲和张子嬿比较了当前3种主流句法分析工具Stanford Parser,Mate Parser和Malt Parser用于英、汉语言依存句法自动分析的准确性,考察了它们在语言研究中的实际应用,研究结果显示,Stanford Parser分析信效度最好,且该自动句法分析工具已满足用于开展语言实证研究的基本需求,具有较高的适用性。

(三)语言参数

本研究选取“词性”和“依存关系+支配词词性+从属词词性”等两个形式参数作为考察翻译汉语句法特征的语言指标。前者反映浅层句法特征,后者挖掘深层依存句法关系,两者结合既可由浅及深地系统考察翻译汉语句法特征,也可作数据结果互证。

Stanford Parser共提供34种汉语词性标注,本研究全部采用构成词性特征集。

依存句法是一种用词与词之间的依存关系作为句法分析手段的句法理论,该理论框架下的依存关系具有以下三个基本特征:(1)依存关系描述的是两个词之间的二元关系;(2)依存关系具有不对称性,在构成关系的两个词中,一个处于支配地位,另一个则相对地处于从属地位,这是依存句法树层级体系的基础;(3)一种语言具有各种不同的依存关系,在句法树中这些关系都应当被标识出来。基于上述三个属性,依存句法树可以如图1所示标识一个句子中所有依存句法关系:

 

在图1所示的依存句法树中,每一对依存关系中都有一个词为支配词,另一个为从属词,词上方为词性标注,箭头上方的“nsubj(名词主语)”“advmod(状语修饰)”“dobj(直接宾语)”等为依存关系类型标注,箭头由支配词指向从属词。以图1例句中的“图”和“幅”为例,“图”和“幅”之间由一个从“图”指向“幅”且标注有“nummod(数量修饰)”的箭头相连接,这表明,“图”的词性为“NN(普通名词)”,“幅”的词性为“M(量词)”,在这个句子中,“幅”这一从属语言单位充当“图”这一支配语言单位的修饰性量词,其“依存关系+支配词词性+从属词词性”参数形式表征为[nummod, NN, M]/[数量修饰,普通名词,量词]。

需要特别指出的是,经Stanford Parser提取显示,语料库所有文本共包含6847组“依存关系+支配词词性+从属词词性”句法关系。为适当减少实验的复杂度,节省实验时间,本实验只采用标准化频率排名前200的“依存关系+支配词词性+从属词词性”构成文本分类实验所用的特征集,它们的频率总和占全体的96.2%,已可很大程度反映研究对象的依存句法关系分布特点。所以,本研究分类实验所用的“依存关系+支配词词性+从属词词性”特征集是一个200维的多元数据集。

(四)数据分析工具——随机森林算法

随机森林是一种有监督机器学习算法,作为数据挖掘的一项核心技术,旨在使算法通过分析大量数据,自动学习数据的特征与规律,从数据中发现潜在的模式和关系,并据此建构数据模型,再利用模型对新的数据集进行预测。本研究拟运用随机森林算法基于“词性”与“依存关系+支配词词性+从属词词性”等两个特征集分别进行两次翻译汉语文本与原创汉语文本的二分类任务,下文将以“词性”特征集为例概述本研究中文本分类实验的基本操作步骤。

文本分类实验的整个流程包括准备数据、预处理数据、选择与提取特征、训练模型、评估模型等五个步骤。(1)首先进行数据准备,由研究者人工标注输入数据所对应的输出标签,即手动标注语料库中每个文本的所属类别——翻译文本或原创文本,再按9∶1的比例将语料数据集随机划分为训练集(training set)和测试集(test set)。(2)数据预处理的步骤与传统语料库方法中的语料处理环节基本相仿,本研究运用Stanford Parser对语料数据进行降噪、断句、分词、词性标注、依存句法标注、标准化等预处理。(3)选择与提取特征(feature)是至关重要的一环,文本分类通常采用由多个特征组成的特征集(feature set)进行多元分析(multivariate analysis),比如,本分类实验所用的词性特征集即包含34种词性(动词、名词、形容词等)。换言之,本实验所用的词性特征集共包含34个词性特征,提取的特征数据则是各类词性在每个文本中的标准化使用频率。(4)训练模型是该实验的核心步骤,算法以训练集中翻译文本和原创文本的词性特征数据作为输入数据,探索分析各特征之间的相互作用以及对文本类别的影响并据此训练模型,模型由此习得两类文本中词性使用的总体分布规律与模式。(5)评估模型是指运用此前训练所得的模型,依据测试集中各个文本的词性特征数据对测试集文本进行分类,模型自动判别测试集的各个文本分属翻译文本还是原创文本,并基于分类结果计算模型的性能评价指标——准确率(accuracy),即分类正确样本占所有测试样本的比例,准确率越接近1,模型分类性能越好。此外,为了充分利用语料数据集检验建模效果,本研究采用十折交叉验证法(ten-fold cross validation)进一步评估模型的稳定性。十折交叉验证法指的是将数据集随机分为10个子集,每次将其中一个子集作为测试集,剩下9个子集作为训练集训练模型,每次训练都会得到一个测试准确率结果,求10次准确率的平均值,即该模型的最终准确率,用于评价模型精度。若模型在词性特征集上的平均分类准确率高,则认为翻译文本和原创文本在词性特征上具有稳健的(robust)规律性差异。

在分类任务的基础上,随机森林算法可进一步依据特征贡献度对特征集展开特征分析,挖掘庞大数据中隐藏的具有规律性及强解释力的语言形式以提高模型的语言学解释力。分类实验用于训练模型的词性特征集包含34个词性特征,而每个特征对于模型的贡献度是不同的,即每种词性对模型执行分类任务时的影响力高低不一。特征的贡献度越高,对模型的性能影响越大,也即对于翻译文本和原创文本的区分度越高,说明该词性在这两类文本中的分布模式差异越显著,对分类结果的解释力越强。贡献度最高的特征即是两类文本中分布差异最显著(discriminative)的特征。

(五)研究步骤——“五步法”

本研究使用自建可比小说语料库,通过随机森林算法的文本分类任务和特征分析,考察翻译汉语相对于原创汉语的句法使用特征,针对最显著句法特征随机展开文本细读,并探讨其成因。研究主要步骤如下:

(1)数据远观:文本分类任务。运用随机森林算法分别基于“词性”特征集和“依存关系+支配词词性+从属词词性”特征集展开两次翻译文本与原创文本的二分类任务(文本分类任务具体流程详见上一小节),检验翻译汉语是否在词性和依存句法关系上存在不同于原创汉语的稳定性差异;

(2)特征分析中观:特征贡献度排序。若文本分类实验结果表明两类文本的确存在差异,则由随机森林算法分别依据两个特征集中各特征对分类模型的贡献度展开排序,筛选出贡献度排名前10%的特征,探索性分析翻译汉语相较原创汉语具体存在哪些显著性句法差异;

(3)文本细读:针对最显著句法特征展开文本细读。为最大程度保证文本细读材料选择的客观性,进而保证研究结论的客观性,须随机从实验语料库中分别选择一个翻译文本和一个原创文本,并只以其第一章作为细读文本,因为本研究假定,作为翻译汉语相对原创汉语的最显著句法特征,应当在相当长度的随机文本中得到体现。选定文本后,针对前一步骤特征分析筛选出的两类文本最显著句法差异,结合文本语言实例展开细读,进一步分析可供机读的句法形式参数反映的语言规律;

(4)总结语言规律:前三个步骤由宏观聚焦至微观、由抽象到具体逐渐深入挖掘翻译汉语的句法特征,在认知语言学理论框架下总结翻译汉语相对于原创汉语的显著句法特征;

(5)解释规律成因:运用认知语言学理论解释翻译汉语句法使用规律的潜在成因。


二、研究结果及讨论

(一)数据远观与特征分析中观

随机森林算法根据词性特征集对翻译汉语文本和原创汉语文本的十折交叉平均分类准确率为91.01%,远超过随机水平,说明两类文本在词性特征上存在整体性显著差异,其中,十次实验的分类准确率均高于84.38%(如图2所示),表明翻译文本相较原创文本体现的词性使用规律具有稳定性与一贯性。词性特征集共包含34个词性特征,算法根据各个特征对分类结果的贡献程度进行重要性排序(如表2所示),其中,贡献度数值最高是数词(CD),为0.1752,也即该词性对本次分类实验的单独贡献度是17.52%,这表明相较其他词类,数词对算法甄别两类文本的影响更大,对分类结果的解释力更强。换言之,翻译汉语与原创汉语在数词使用上的差异大于其他词性的使用。数词在所有文本中的标准化总体频率为1.66%,在翻译文本中的频率为1.34%,原创文本中为2.02%,翻译文本中数词使用频率显著低于原创文本(p<0.001)。可见,在词性分布方面,翻译汉语相对原创汉语的最显著特点是数词的负使用。同时,量词(M)在特征贡献度排序中位列第四,数值为0.0879,对分类结果的贡献度为8.79%,在翻译文本中的使用频次亦显著低于原创文本(p<0.001),数词和量词在重要性和频率上趋势一致,符合现代汉语数量词系统“数不离量,量不离数”的“联盟式”结合关系的基本特征。

在“依存关系+支配词词性+从属词词性”特征集上,算法模型对翻译文本和原创文本的十次分类结果如图3所示,在十折交叉验证实验中,分类准确率最高为100%,最低为84.1%,平均准确率高达94.1%,误判率仅为5.9%,说明翻译汉语在依存句法关系分布上存在相异于原创汉语的规律性显著差异。

前文分析显示,翻译汉语在词性分布上最显著特征是数词的负使用,理论上说,词性分布的规律在句法关系上应当有所反映。随机森林算法对“依存关系+支配词词性+从属词词性”特征集的200个特征展开贡献度排序,贡献度居前10%的20个特征如表3所示。其中,包含数词的依存句法关系共四个,分别为[无法识别,普通动词,数词]、[无法识别,普通名词,数词]、[标记:量词,数词,量词]、[数量修饰,普通名词,数词],涵盖了数词与动词、名词、量词等其他词类之间的各类依存关系,较全面地反映了数词的句法分布特征。上述四个与数词相关的依存句法关系对翻译汉语文本和原创汉语文本分类的贡献度总和为0.1729/17.29%,与数词贡献值0.1752这一数据相吻合。同时,这四个依存句法关系在翻译文本中的使用频率均显著低于原创文本(p<0.001),进一步验证了前文对词性分布的远观结论:数词的负使用是翻译汉语的显著特点之一。

然而,上述这一结论与前人研究不符。秦洪武和王克非、肖忠华、Xiao & Dai等的研究结果均显示数词在汉语译文中使用频率高于原创汉语,其中,肖忠华的研究结果显示数词并非翻译汉语的关键/显著词类。朱一凡和李鑫考察新闻体裁翻译汉语的语言使用量化特征,认为翻译汉语在数词使用上与原创汉语没有显著差异。此外,我们注意到,与数词相关的依存句法关系中,最能有效区分翻译汉语与原创汉语的两个依存句法关系均为“无法识别”的句法关系。换言之,自动句法标注软件仅能识别支配词(动词和名词)和从属词(数词)之间存在依存关系,但无法具体识别是哪类依存关系,这很不利于描写归纳数词的句法使用规律。这两个问题均有待通过文本细读得到解答。

(二)文本细读、规律总结与成因阐释

机器学习文本分类实验和特征分析的结果显示,翻译汉语最显著的特征是数词的负使用,进一步反映在依存句法关系上则是数词与动词和名词的未能识别依存关系以及与量词和名词的修饰依存关系的负使用。本节将针对上述这些翻译汉语句法的最显著特征展开文本细读,深入挖掘隐藏其中的语言规律,并在认知语言学框架下进行总结与阐释。

如前文所述,本研究从实验所用语料库中随机挑选两个文本的第一章作为文本细读语料,随机选中的翻译文本为《飘》、原创文本为《白鹿原》。本节所用语例均来自此两个文本的第一章,之后不再标明语料出处。

在与数词相关的依存句法关系中,翻译汉语相比原创汉语最显著的两个句法关系是[无法识别,普通动词,数词]、[无法识别,普通名词,数词],均为无法识别的依存关系。此前刘鼎甲和张子嬿、秦洪武和周霞、Hu & Kübler等同样探究汉语依存句法关系的研究并未报告出现大量“无法识别的依存关系”的情况,通过细读文本各句的依存句法树也较少发现数词标注错误的现象,如例句(1)(2)(3)中的“鹿三”“一早”“缓一缓”均包含形式似为数词但实为其他词性的词语,自动句法标注工具并未机械地根据它们的字面形式将其标注为数词,而是根据句内语义关系正确地分词并分别标注为“普通名词”“时间名词”“副词”。因此可暂时排除出现“无法识别依存关系”是出于因词性标注错误而无法进一步识别依存关系的原因。

(1)母亲又喊鹿三。

(2)母亲说她准备明天一早回娘家去。

(3)他劝母亲暂缓一缓。

细读两个文本发现,数词与其他词类无法识别的依存关系存在一定的规律性,主要为两类情况,一是数词与可直接作为名词的量词单独组合充当名词短语,二是数词存在于习语中。

(4)终于积聚到崩溃的一步。

(5)在他行医的二十多年里……

(6)前边四个都只穿了三件。

(7)草了的程度比前边四位有所好转。

(8)他心里开始产生了一种负罪感。

(9)他用杨木板割了一副棺材,穿了五件衣服。

(10)前头五个女人潜留给他的晦暗心理。

上述例句中,(4)(5)(6)中包含数词与动词的无法识别依存关系,例句(6)(7)中包含数词与名词的无法识别依存关系。句(4)—(7)中的“一步”“二十多年”“四个”“三件”“四位”均为“数词+量词”的组合,这些数量短语之后再未添加名词,在句法功能上,它们在小句中分别充当被关系小句修饰的宾语、谓语动词的宾语、介词之后的宾语等,换言之,上述数量短语充当的是名词短语的成分。现代汉语存在许多量词,它们本身就是名词或是由名词语法化而来,可以直接与数词组合而不要求其后再添名词就能完成语义自足,这类量词处于与名词范畴的边界模糊地带,学界对它们的分类与归属也多有争议,有些学者称其为“准量词”,列为量词的一个小类,有些则称它们为“单位名词”,认为应归属名词之下。本研究使用的句法自动标注工具将这类词语短语标注为“数词+量词”,这一标注形式无法体现其名词语义,继而难以进一步甄别数词与其他句子成分的具体依存关系,因此标注为“无法识别依存关系”。与之相对的,“数词+量词+名词”这类数量短语范畴中的原型成员,如句(8)—(10)中的“一种负罪感”“一副棺材”“五件衣服”“五个女人”等,其句子内部的语法关系则能够被清晰标注,不会出现“无法识别”的情况。

(11)不孝有三无后为大。

(12)全都是一个毬样又是百毬不一样。

(13)三下五除二就扒光了衣裤。

(14)有个再一再二没有再三再四。

(15)十里八乡凡经过他救活性命的幸存者和许多纯粹是仰慕医德的乡里人送来的金字匾额和挽绸挂满了半条街。

现代汉语中数词常在四字格短语、俗语和成语等习语中出现。习语是人们长期以来习用的、简洁精辟的定型词组或短句,内部语素之间常有简略,如一些成语中数词常和名词直接连用而省略量词,语素与语素、词与词之间的组合结构亦十分复杂,习语的形义配对具有不可推测性及整合性,有些连学界专家都难以厘清其内部语法结构,遑论基于规则的句法自动标记工具,因此,对于句(11)—(15)中“不孝有三”“百毬不一样”“三下五除二”“再一再二”“十里八乡”等习语,数词与其他句法成分之间的依存句法关系实难被清楚标记,因而出现“无法识别依存关系”的情况。

显著性位居第三和第四的两个与数词相关的依存关系分别是[标记:量词,数词,量词]和[数量修饰,普通名词,数词],细读文本发现,这两个依存关系高频同现,联系紧密,组合形式为前文提及的数量短语范畴的中心成员“数词+量词+名词”。数词的原型语用是表达精确的数值概念,如句(16)—(18)中的“五个女子”“两个孪生兄弟”“两匹高头大马”,另一方面,现代汉语中数词本身的词义及其在语用中又另有模糊性的特点,这种模糊性具有特殊的修辞功能,如夸张、对比、层递、借代、强调等,如句(19)中的“一百个医生”表夸张,句(20)中的“一个人”和句(22)中的“一丝褐色”表强调,句(21)中“三四个乡党”这类相邻两个的数词连用则产生语用模糊。翻译文本中较少使用这类数词的模糊性表达,细读文本发现仅有1例,即句(22)。

(16)木匠卫老三养下五个女子。

(17)在这些猎犬、马匹和两个孪生兄弟之间,有着一种比通常更亲密的关系。

(18)那是两匹高头大马,毛色红得像主人的头发。

(19)那副模样使患者和家属坚信即使再换一百个医生即使药王转世也是莫可奈何。

(20)母亲一个人在上房里屋,他一个人在厦屋,长工鹿三一个人在马号里。

(21)再派三四个帮忙的乡党到水磨上去磨面。

(22)她那双淡绿色的眼睛纯净得没有一丝褐色。

至此,可以尝试讨论本研究关于数词分布情况的结论迥异于前人的原因:最大的可能性是研究所用语料体裁不同所致。前人研究采用的是新闻体裁语料库或多种体裁混合的平衡语料库,而本研究所用的是严肃文学小说语料。小说语体的书面程度低于新闻等语体,更接近口语,而本研究显示,翻译汉语小说少使用习语和少使用数词表达模糊义。习语本身具有鲜明的口语倾向,汉语数词的模糊性语用则在文学作品中使用最多,这两个特点均符合小说语体的语言特征,因而原创汉语小说中数词使用频率高于翻译汉语。相反,新闻等体裁则讲究精确性,表达精确数量意义的数词的翻译策略通常是如实翻译,因此数词频次没有在翻译新闻语体中体现出非常显著的差异。这也从侧面反映了不同翻译语体之间可能存在规律性差异。

综上所述,翻译汉语相较原创汉语最显著的浅层句法特征是数词的负使用,进一步考察依存句法关系发现,数词使用差异具体体现在数词与动词和名词的无法识别依存关系及数词与量词和名词的修饰关系上,针对上述显著特征深入细读文本发现,相比原创汉语,在翻译汉语中数词较少与可作为名词的量词组合充当名词短语,少出现在习语中,也少用于表达模糊义。可作为名词的量词处于量词与名词范畴的交界,相比“数词+量词+名词”的原型用法,“数词+量词”充当名词短语属于数量短语范畴的边缘成员;习语这类半规则或不规则语言现象是语言中典型的边缘现象;相对于表精确义,数词表模糊义也是数词范畴中的边缘语用。可见,翻译汉语存在负使用数词范畴边缘成员的整体倾向性特征。

认知语法理论将语义结构看作是一个复杂动态的、由符号单位通达的图式网络,网络中某些节点和关联比其他节点更为显著和重要,在语言使用中,突显的语义项或结构更容易被选择和使用,而反过来,语言结构的固化程度,也即被激活的频率又会很大程度决定某一节点突显程度。范畴的原型成员是范畴的最典型成员,集合了范畴的重要特征或最能表征范畴的特征,是范畴的典型实例,它在认知活动中作为认知参照点起核心作用,突显基本层次范畴的独有特征,范畴中的边缘成员的突显程度通常弱于原型成员。在翻译过程中,源文本的词汇和语法结构激活一个语义网络,这个语义网络也包含目标语语言的词汇和语法结构,在对目标语言项目的认知搜索中,具有高突显性或高频率的目标语言结构更容易吸引译者,从而被译者选择,低突显的边缘成员容易被译者忽略,从而形成译者对范畴边缘成员的负使用倾向。


三、机器学习文本分类“五步法”研究路径特点

本研究提出了文本分类应用于翻译研究的“五步法”研究路径,包含文本分类数据远观、贡献度排序特征中观、随机选择文本细读、语言规律总结和规律成因阐释等五个步骤(如图4所示)。该研究路径遵循自下而上的数据驱动研究方法,由机器学习算法文本分类实验在宏观层面探索性考察文本在指定特征集上的整体性表现,再通过算法计算特征集中每个特征对文本分类实验的具体贡献度数值,从多维特征集中快速筛选出最具显著性也即最具解释力的语言特征,并聚焦这些语言特征随机选择文本展开深入细读,依托语言实例,以更具针对性的微观视角挖掘语言形式数据背后蕴藏的语言模式,在认知语言学(或其他语言学理论)框架下进一步概括语言规律及阐释规律背后的潜因。

通过案例考察可见“五步法”研究路径有两个主要特点。一方面,机器学习文本分类提升了语言描写的全面性、客观性与科学性。它与传统语料库范式下的翻译研究具有天然的亲缘性,两者均以两类或多类文本的描写性定量对比为基本研究思路,但与后者相比,它具有全面描写文本、多元分析数据、探索性与验证性分析并作、便捷泛化结论的优势,更有利于满足数字人文背景下语言研究更加重视全面描写解释语言事实的要求:(1)区别于聚焦局部数据集合的传统语料库分析,文本分类方法追求田野调查式描写语言,能够快速地全面提取并统计文本的语言特征,如本研究中对文本的200组依存句法关系进行了分析描写,这拓展了翻译语言特征研究的语言内容参数,创造了观察文本语言宏观面貌的鸟瞰式新视角;(2)文本分类方法往往以特征集为单位进行整体性的多元分析,把一个特征集包含的多维数据(如本研究所用词性特征集中的34个词性特征)视为一个复杂系统,探索分析诸多语言特征(如动词、名词、形容词等各类词性)之间动态的互动关系与相关性,克服单一变量的片面性,深入理解语言特征的综合分布模式以及对文本整体风格的贡献,可以有效弥补“语料库翻译学在统计方法上比较缺乏多因素、多维分析”的不足;(3)机器学习算法通过计算特征贡献度的方法快速从复杂的高维数据(如本研究的依存句法关系特征集就包含高达200维的特征)中迅速捕捉到最具显著性也即具有研究价值的语言特征作为切入点展开进一步深入探究,既开展了探索性分析也使用了验证性分析,而传统通过主观甄选出某一语言观察项(如“把”字句等特定句型)并进行显著性统计检验的方法仅是一种验证性分析;(4)机器学习方法的一大优势在于其推广(generalization)能力,即它能够对新的未知数据集做出预测,随着翻译研究中语料类型和数据来源逐步多样化,数据间交叉验证成为数据阐释的关键,文本分类方法允许研究者使用业已在一种数据上训练好的算法模型处理另一种全新来源的语料数据集,以便捷、直接地探索性检验两种数据间的差异,开展不同类数据的交叉验证,后来研究者也可运用这一方法对前人研究结论开展准确性或推广性验证,例如,本研究发现小说体裁和新闻体裁的翻译汉语文本在数词使用上可能存在差异,那么在后续研究中就可运用本研究依据小说体裁文本建立的算法模型,跨语料库验证新闻体裁的翻译汉语文本,考察两类翻译体裁之间是否存在差异。

另一方面,文本细读有助于更深入地挖掘语言形式数据背后的语言模式,搭建数据与理论的深度对话桥梁。计算机提取的语言数据通常是概括性且具有高度抽象性的形式参数,往往难以完全反映自然语言系统的复杂性,通过细读与形式参数对应的语言实例,有利于发现文本更细微的语言规律。而且,对于计算机自动分析无法识别的语言关系,通过具体语言实例剖析发现是“可以识别”的。比如,本研究中数据分析显示翻译汉语的显著特征之一是相对原创汉语较少使用“数词+量词+名词”这一语言形式,仅凭该形式参数的数据性结论我们很难进行准确深入的理论阐释,只有通过剖析大量语言实例,我们才能发掘翻译汉语较少运用“数词+量词+名词”表达模糊义这一更细颗粒度的语言规律,并基于此进一步运用语言理论进行归纳与解释。


结  语

本研究提出了数字人文范式下机器学习文本分类应用于翻译研究的“五步法”研究路径,为数字人文视域下的翻译语言特征研究提供新的方法论视角。“五步法”以机器学习算法提升语言宏观描写层面的科学性与客观性,再基于数据结论开展文本细读,深入挖掘形式数据背后隐含的更细颗粒度的语言规律,并运用语言学理论阐释规律成因,构建“大数据→算法模型→文本实例→语言规律→语言学理论→大数据→……”的路径循环。本研究依循该路径,考察翻译汉语的句法特征,发现翻译汉语相较原创汉语最显著的整体性特征是数词在“数词+作名词的量词”、习语、“数词+量词+名词”表模糊义等范畴边缘成员上的负使用,其认知成因可能在于译者倾向于忽略语义网络中突显程度较低的范畴边缘成员。

将文本分类等大数据挖掘领域中较为成熟精密的研究方法和工具引入翻译研究,开展探索性与验证性并举的多元定量统计分析,可提升翻译研究手段的科学化与研究结果的精确性,突破传统语料库翻译学研究范式所面临的技术瓶颈,拓展数字人文翻译研究的方向和空间,结合基于语言实例的文本细读定性分析,有助于从海量语言数据中充分挖掘翻译文本更细颗粒度的语言模式与规律,并基于数据回答语言提出的真正问题,实现形式数据与语言理论的深度对话,体现数字技术与翻译研究的协作与互动。本研究的翻译汉语句法考察仅作为案例检验文本分类应用于翻译研究的可行性与有效性,并以此展现基于文本分类的“五步法”相较于传统语料库途径的优势,且因篇幅有限,因此仅从最具显著差异的数词切入展开深入分析。未来若要更全面考察翻译汉语句法特征,可扩充语料库规模、语料时间跨度和文本类型,展开历时研究和翻译语体特征研究;也可继续分析其他同样具有显著分布差异的词性和句法关系。


扫码阅读全文


原文数字人文范式下机器学习文本分类应用于翻译研究的路径探索——以翻译汉语句法特征研究为例刊于《上海交通大学学报(哲学社会科学版)》2024年第8期(第1-17页)。

————————

编辑:黄艺聪

审校:孙启艳


上海交通大学学报哲学社会科学版
上海交通大学主办的CSSCI来源期刊,综合性人文社科期刊,每月出版。
 最新文章