学术观点丨李洋、邓轶:口译中语块频率效应的语料库研究

学术   2024-11-10 00:01   江西  

摘  要:本研究基于学生汉英交替传译PACCEL语料库,共提取186个4词高频语块,累积频率3393,根据成分词之间的共现概率,发现不含或含有1-2个可变性插槽的强度和中度原型分布最为广泛,而含有3-4个的弱度原型仅有7个语块,整体原型的分布呈现幂律趋势。由于中强度原型的语块频率效应较强,语块的固着度较高,整体存储和提取较为容易,所以学生倾向于将语块作为无标记的口译策略、重构源语信息有效的翻译方法和缓解口译认知压力的手段。


关键词:语块;频率效应;汉英交替传译语料库;学生


1. 引言

语块在语言习得与加工中一直是方兴未艾的研究话题:研究对象从母语者扩大到二语者;研究内容从分类、功能拓展到语音、语义、构型等加工特点;研究方法也从主观判断、在线判断延伸到语料库语言学范式,然而基于语料库提取语块的频率和索引行等数据探究语块的心理现实性问题仍有待发展(Schmitt et al 2004;易维、鹿士义 2013)。

目前,已有研究发现在语言学习的初始阶段,频率对二语者影响较大,频率越高,语块的加工速度越快(Jiang & Nekrasova 2007;Ellis et al. 2008;张建琴 2013)。然而,现阶段的语块研究主要是总结语块的使用特征,缺少对其使用过程及影响因素的探索(周丹丹、徐燕 2014)。另一方面,鲜有研究关注语块的在线产出特征和加工机制,一般只涉及离线产出(如书面语、口语),特别是忽略了口译这种认知负荷程度高的语言在线双语转换活动(黄四宏、詹宏伟 2011;李洋 2016)。因此,本研究将基于二语学习者汉英口译语料库PACCEL,根据语块内部填充词的频率数据考察语块原型的分布及特点,及其在口译过程中对双语转换的影响。


2. 研究背景

语言的表征通过“形式—意义—功能”在使用中反复不断地出现,产生的频率效应是决定母语习得和二语习得的关键因素之一,总体而言输入与输出的频率越高,词汇被习得和使用的可能性越大(Ahmadian & Tavakoli 2011;Eckerth & Tavakoli 2012;周丹丹 2006;龚兵 2009)。无论是在语音、语义、句法层面上,还是在语篇层面上,频率效应有助于学习者分析所有输入的语言结构与规则的分布特征,进而总结语言规则(Ellis 2002)。

语块的使用表现。已有研究发现,口语水平与语块的形符或频率高、中度相关,水平越高,使用语块的频率越高,口语流利性和地道性也越高,但口语水平与语块的类型(如话语组织类、指示参照类)相关程度不同,甚至不相关(Nekrasova 2009;张建琴 2004;胡元江 2011)。在同一类语块内部,受“开放选择原则”(Open-choice Principle)(Sinclair 1991)的影响,具有聚合关系的填充词因频率不同而表现出不同的使用特征。Caines(2012)基于BNC口语语料库提取了零助动词的进行体疑问句语块(如You talking to me? / You been exercising?),在连续影子复述实验中发现与第一人称相比,第二人称为主语的语块由于频率和固着度较高,使其接受程度更高、使用错误率更低,证明了语块的频率效应。在口译研究方面,受语料库发展滞后的影响,仅有个别研究探索了口译中语块使用频率与产出质量之间的关系,发现口译学习者在口译中语块使用能力不强,语块频率与口译成绩存在显著正相关,语块使用越多,口译成绩也越高,并把语块的使用作为一种口译策略,以保持口译的流利性(王文宇、黄燕 2011、2013;李洋、赵毅慧 2019)。

语块的语义和语音加工。语块比非语块的加工速度更快,频率和互信息(Mutual Information)对高、低水平二语者在线判断语块都有显著影响,语块频率越高加工时间越短,互信息值越大加工时间越长。总体而言,语块加工的优势来自频率效应,语块使用越频繁,越能提高语言自动化处理的程度,因为与非语块相比,语块的结构固着度更高,语义透明度也更高(Arnon & Snider 2010;Huang et al. 2012;李红、缪道蓉 2009;詹宏伟 2012;张建琴 2013;周榕、李丽娟 2013;桑紫林、张少林 2013;许莹莹、王同顺 2015a、b)。

综上,相关研究都证实了频率是影响语块识别、加工和使用的重要因素之一,也将语料库作为确定语块频率的可靠来源。这为本研究讨论语块的频率效应提供了理论和分析依据。


3. 研究设计

3.1 工作定义

已有的语料库语言学和心理语言学研究发现4词连续语块的研究价值较大(Biber 2009;Eskildsen & Cadierno 2004;Arnon & Snider 2010)。何安平(2011:26)指出“会话中的四词语块绝大多数连接着两个结构单位:语块开头通常呈现小句或短语的边界,并且‘勾起’了下一个结构单位,起着‘话语锚(anchor)’的提示作用或引领功能”。这表明4词语块不仅具有整体存储和提取的意义,还具有句法组合和聚合关系的形式。据此,本研究中语块的工作定义是:在汉英交替传译中,共现频率高且具有句法形式的4词连续性词汇单位。


3.2 语块的原型

Biber(2009)基于语料库数据驱动的研究范式,依据“开放选择原则”的聚合关系统计了4词语块每一个插槽的填充词百分比,并分为可变性插槽(variable slots,VS)和固定性插槽(fixed slots,FS),体现了语块结构的整体性和内部的可分析性。具体而言,语块的原型为1234,逐一统计每一个插槽中填充词与其他三个成分词之间的共现概率,并将50%设定为切割点,大于50%为FS,小于50%为VS。例如,利用Collocate(Barlow 2016)统计语块I don’t know if(1=I,2=don’t,3=know,4=if)中第4位插槽(I don’t know _4_)所有填充词共现的形符和类符,如if, whether, what, how,若if频率占所有填充词总频率的12%,则_4_被描写为VS,用*表示;若为57%,则_4_被描写为FS,用4表示。之后,若其他3个成分词的百分比都高于50%,则该语块的原型为123*(或1234)。

语块的原型一方面能揭示频率效应对填充词固着度的影响,体现了语块内部结构的可分析性;另一方面能反映出频率效应对语块提取难易程度的影响,若原型中VS越少,FS越多,需要调用的认知资源越少,其作为一个词条被整体存储和提取的可能性越大,体现了语块外部结构的整体性。


3.3 语料来源及修正

本研究采用PACCEL的2003-2007年汉英交替传译子库(文秋芳、王金铨 2008),并对原始语料中出现的问题进行了三方面的人工修正:1)剔除缺考、录音失败或空白样本,如05-84-28.txt和07-102-31.txt。2)更改原文件中错误的头信息,如“07-102-全部文件”中改为。3)标注的错误,如06-116-06.txt中“(听不清)”改为“<听不清>”。最后,通过Wordsmith统计共获得927个样本,形符数为150722,类符数为4734。


3.4 语块提取与过滤

本研究利用Antconc的N-gram设定语块提取的基本参数,N最大、最小值均为4,最低频率为5,且至少分布在2个不同的年份(李洋 2016)。

语块4个成分词之间的连接强度不同,“在整体表征的同时,有些语块的成分词可能被激活,有些语块的成分词则可能完全不被通达”(易维、鹿士义 2013:2114)。因此,本研究利用Collocate提取互信息大于3的语块,保证语块的整体表征和程式性。其次,过滤下列三类结构(王文宇、黄燕 2013):1)含有口译不流利的副语言er,因为它影响了语块在心理词库中提取时的整体性,如would like to er和attention to the er;2)口译产出的自我修复,如welcome to the to和to the to the;3)受机切语料算法影响所提取的跨句结构,如city it has a和of years it is。

最后,纳入研究范围的语块类符为186,形符为3393。


3.5 研究问题

基于PACCEL统计语块成分词的频率,本研究拟探索以下研究问题:

1)语块原型的分布情况如何,表现出何种规律?

2)不同原型的语块产生的频率效应对学生汉英口译策略有何影响?

3)在口译过程中,语块填充词的频率如何影响口译的双语转换过程?


4. 数据分析

4.1 原型分布

原型中含有可变性插槽(VS)越多语块结构的开放性越高,需要的认知资源越多,据此可将语块原型分为强、中、弱三种。强度原型不含或仅含有1个VS,中度原型含有2个VS,弱度原型含有3或4个VS。表1显示在PACCEL中,强度原型的频率最高,累计形符为2767。



可变性插槽的填充词虽然需要消耗一定的认知资源,但依靠其与固定性插槽(FS)成分词共现的频率效应,仍可确定语块作为一个整体被存储和提取。这为分析语块的频率效应及其对口译认知压力的缓解作用提供了重要的依据,也为发现学生口译时语块使用的特点提供了新的途径。例如,弱度原型仅包含7个语块,形符仅为67,占总数的2%。其中,****型仅存在1个语块and development of the,显然学生在提取语块时在development前漏填充了定冠词the。这表明弱度原型有助于发现学生错误使用语块的特点。

下文集中描写强度和中度原型语块的双语转换情况,探讨高频语块对学生汉英口译策略的影响。


4.2 强度原型

强度原型在PACCEL中分布最广,共包括五种原型。


4.2.1 1234型

1234型语块成分词之间的固着对最高,不需要进行内部结构和语法分析即可整体提取并产出,如:


(1)同时,我们关注着变化中的世界,关注着整个世界在经济、社会、文化等各个方面取得的发展进步。(2005)

At the same time ... we also paid attention to the changing world. The world economic, social, and cultural ... development as well as the achieved and development ... that ... we have ... got.


例(1)中学生采用直译将“同时”和“与”译为介词-名词类语块at the same time和as well as the。与meanwhile,meantime和and the比较,两个语块的使用是拉长衔接词的口译策略,为后续译语的组织与计划赢得更多的时间,同时译语之间的逻辑关系更明晰。此外,as well as the中定冠词the可为目的语编码加工多争取1个单元的认知资源,缓解工作记忆的压力,形成无标记的翻译单位(李洋 2016:252),又如:


(2)首先请允许我代表宏业高科技有限公司董事会和全体员工,/……/(2007)

S1: First, please allow me to, on behalf of the board of Hongye High Techni..., High Technology Corporation, Ltd, /…/

S2: First of all, please allow me to express our warmest welcome /…/ here on behalf of the board of directors and all staff of Hongye Highly Tech Corporation and on behalf of myself.


(3)在此,ø 我代表市委、市政府对各位专家的辛勤劳动表示衷心的感谢。(2004)

S3: So, now please allow me to represent our city and our community to thanks you for your hard working.

S4: And hereby permit me on behalf of the city government, I would like to extend my great thanks to all the experts for your hard working.


上述两例中,学生S2将1234型on behalf of the改造为*234型here on behalf of,直译“代表”。S1和S2都用语块please allow me to直译“请允许我”,但S3用之增译了委婉语气表达please allow,转换了源语信息“我”。与S1相比,S4连接使用了*234型permit me on behalf和1234型on behalf of the,形成更长的多词表达。值得注意,S4在后续译语组织时重复了源语信息“我”,使用了1234型I would like to,既增译了情态表达would like to,传递委婉语气,又增加了口译产出的单位。可见,学生会同时提取多个语块,有一定的语块运用意识,实施拉长产出的口译策略。四位同学的语料转写反映出含有语块的译语,局部或整体产出较为流利,又如:


(4)同时 ø 也为广大热爱音乐的朋友们提供一个咨询、选购所需产品和服务的契机。(2003)

S5: At the same time, we also offer a good opportunity for the music lovers to consult, to select, er, the, the music instrument they need and, er, service they need.

S6: At the same time, we hope that we can provide a good opportunity for the people who, for the friends who love music very much, hm, to, hm, hm, to, ah, ask for the information of our instruments and ask for the services and choices of the hm, purchase.

S7: er, at the same time, we are looking forward to provide an opportunity to our ... friends, who loves the instruments, and to ... and ... to ... advice them ... the product.


例(4)中,三位学生把“同时”直译为at the same time。但在增译源语缺失信息“ø”时,S5使用了单词we。S6连接了2个1234型语块we hope that we和hope that we can,形成了更长的5词表达。相似地,S7连接了1234型we are looking forward和*234型are looking forward to,其中后者的第1位插槽除填充are之外,还有and和we,说明少数学生会在编码时产出语法错误的4词结构we looking forward to。


4.2.2 123*型和*234型

123*型和*234型由3个连续的FS构成,一般是固定搭配、短语或框架(frame)。例如,在转换例(2)和(3)中的“代表”时,学生采用了直译,提取了*234型的me on behalf of, here on behalf of, to on behalf of和123*型的on behalf of our, behalf of the government。图1显示了部分索引行:



显然,在含有behalf的语块原型中,搭配on behalf of和框架behalf of the构成了FS。它们彼此连接既可形成固着度最高的1234型on behalf of the,亦可搭配VS形成更长的5至6词结构*234*(*),包括me on behalf of our / the, here on behalf of the和to on behalf of the government等。然而,构型具有“家族相似性”的the behalf of the (11)却是**34型,是一个语法错误型语块。受此影响,在behalf之前填充词the的固着度或泛用程度提高,进而与高频的1234型on behalf of the (168)结合,出现了另外一个语法错误的1234型on the behalf of (19),甚至扩展形成了更长的结构on the behalf of the government。


4.2.3 12*4型和1*34型

12*4型和1*34型的FS主要由封闭词构成,形符为218,占69.4%,包括封闭的框架,如the * and the, and * is the, of our * and和to the * and,以及含有the *_N of类联接的框架,如:


(5)在过去的一年里,我们向世界报道了中国在现代化进程中取得的成就,向世界展现了一个大踏步前进的中国。(2005)

S8: In the past one year, we have broadcasted ...... the achievement ... that ... um, we have, we Chinese have ... got and showedthat the development of our Chinese to the world.


(6)我们的产品开发和工艺完善等工作,就是由有经验的工程师带领年轻工程师共同完成的。(2007)

S9: The development of our products and the perfect of our techniques in producing are co-complete, co-completed by our experienced engineers and together with our young engineers.

S10: The development of our products and the improvement of our um...work skills is um...is em achieved by the um...experienced workers. Experienced workers, en guide the younger workers.


在上述两例中,学生使用了具有名物化特征的语块,既能使口译语篇传递更多的信息,亦能对事物发展过程的概括更全面和明确,使译语产生正式、客观、凝练的效果(肖建安、王志军 2001;杨信彰 2006;徐新宇 2011)。例(5)的“大踏步前进的中国”可直译为China that is making big progress,例(6)的“产品开发”可直译为(to) develop our products。学生在口译中提取了名物化的语块有效地保持了汉英之间的句序,更好地遵循了“顺句驱动”的口译原则。同时,根据PACCEL的语料转写,含有语块的意群产出流利、语言准确,而其他部分容易出现修正showed、有声停顿um和en、无声停顿…的不流利形象。

当口译出现双语转换的困难时,学生提取语块以避免将源语信息重构为结构相对复杂的定语从句或产出单位较少的动词短语,利用语块的高频率效应,作为一种无标记的口译策略,提高口译自动化产出的程度,既为编码争取更多的时间,有助于降低脑部消耗的认知资源避免精力透支,又保证了口译的流利性并避免冷场或译不出。


4.3 中度原型

与五种强度原型相比,中度原型含有2个VS,所以连续性和整体性都较低。中度原型共有六种,分为两类,外部含有VS的连续性框架12**、**34、*23*型和内部含有VS的间断性框架1*3*、*2*4、1**4型。

由于第1个VS中填充词的频率低,所以使其他插槽上的填充词与之共现的概率降低,随即出现第2个VS,这就导致中度原型整体的频率较低。但是,中度原型和强度原型之间存在具有“家族相似性”的语块,如1**4、1*3*型的the people of the和the number of the与1*34型的the scale of the,1*3*、*23*型的and it is the和it is the largest与123*型的and it is a和it is the most。

本研究分别统计了填充中、强度原型所有语块FS的实词和功能词[1]频率,发现分布差异性显著(χ2 = 45.2,df=1,p<0.01)。图2显示两种强度原型中FS主要由功能词填充,分别占中度原型的81.5%和强度原型的67.8%。已有的心理语言学、神经语言学和电生理学研究发现,受频率因素的影响,功能词的提取与加工速度比实词更快(Neville et al. 1992;Pulvermuller 1999;Segalowitz & Lane 2000;Bell et al. 2009)。这种现象可能是由于两种词类所承载“新旧”信息意义的差异所导致。与功能词相比,实词的“新颖性”加工需要人投入更多的精力(鲍刚 2005:231)。另外,事件相关电位(ERP)研究发现,实词的加工可能涉及两个大脑半球的相关脑区,而功能词的加工则可能只涉及大脑左半球的某些脑区。这证明与实词相比,功能词的提取与加工在一定程度上消耗脑部更少的认知资源(郭桃梅、彭聃龄 2005:66-68)。因此,语块加工特征是随着4词结构中VS的增加,原型强度减弱,FS需填充更多的功能词以够缩框架的提取时间(如* home and abroad, this city is *, the * of *, * the * world),减少精力的消耗量。在脑部认知资源总量不变的条件下,译员能调配更多的精力填充VS,提高语块加工的自动化程度,保证了语块整体的加工优势,顺利完成目的语的编码。



5. 讨论

本研究主要发现了三点高频率语块对口译在线双语转换产生的不同效应。

第一,高频语块能作为一种无标记的口译策略。基于使用的语言习得观(Usage-based Approach)认为输入频率的分布特征对语言(如屈折变化词素、语义搭配和句法组合与聚合等)在二语者心理词库中固着成较为稳定的预制表征形式有重要影响,大脑可根据语法结构的频率特征逐渐建立起语言规则的系统。在接受口译训练初期,学生为节省认知资源的消耗,倾向于使用频率较高的强度和中度原型语块,替换结构复杂或产出单位较少的目的语重构方式,既能拉长译语长度,为双语加工赢取时间,又利用语块高频率效应所产生的自动化提取效应,提高口译的自动化程度,保证了译语的流利性和准确性。

第二,高频语块能作为一种解决口译中源语和目的语之间“多对一”语义关系的方法。语块的结构表现为内部的分析加工和外部的整体加工两种模式。分析加工将插槽分为可变性和固定性,根据填充词的频率提取原型,其优势是在不同语境中生成新的语块。例如,**3*型语块people in the world中含有被泛用的高频3词语块in the world,通过变化替换第1位插槽的填充词,可直译“国际合作”为cooperation with other countries in the world,可增译“(报道了一些令人遗憾的冲突、动荡和)ø灾难”为… disasters in the world,“ø不同国家”为different countries in the world,也可意译“(技术之新)都是前所未有的”为never appeared in the world。另一方面,整体加工将具有“家族相似性”的语块连接成较长的语言单位,其优势是提高产出的流利性和语言的信息量,如图2中学生倾向于连接使用含有behalf的强度和中度原型,提高译语的自动化程度和产出长度。语块的频率效应实现了两种模式的辩证统一,体现了语块本质的二元特征,既可被看作词汇中不可分析的单位,又可依靠句法规则生成语言,从而保证语言的发展(陈万会 2008)。

第三,高频语块能作为一种缓解口译认知压力的手段。原型通常被认为是范畴内的最佳成员或典型代表,它是范畴核心的、图式化的心理表征,是对共同基本特征的一种概括和抽象(余绮川 2008:195)。学生在交替传译中表现出了一种约定俗成的语块使用和加工方式,体现了对语块某些共性特征的心理意识认同。已有研究表明高频率语块在L2学习者(特别是二语水平较低的学习者)脑中具有明显的心理现实性(Schmitt et al. 2004;Ellis et al. 2008;张建琴 2013;周丹丹、徐燕 2014)。受频率效应的作用,语块能减轻学生在线双语转换时从心理词库提取词条的认知负荷程度,通过对原型可以推断出范畴中其他成员的特点或预测其他构型的可能性,因此原型具有记忆优势和认知启发的作用。

根据Zipf法则(Zipf 1949),越长的词在自然语言中被使用的频率越低。这被称为“省力原则”(the Principle of Least Effort),即在言语使用中说话人在保证交际效果的前提下,会尽可能少地消耗脑力资源和节省体力。相似地,本研究按照频率统计了三种强度中连续性相近的原型,如123*和*234、12**和**34,结果发现随着原型中FS的减少和VS出现在原型内部,语块的连续性降低、整体性变弱且累积频率呈现幂律分布趋势(见图3)。这表明学生在口译中更频繁地使用强度原型的语块,将其作为无标记的口译策略缓解所面临的工作记忆压力。所以,强度原型的语块可作为较好的翻译单位,通过直译和增译的方法提高双语转换的浅层加工速度,流利地产出译语。口译过程中无标记的双语转换越多,学生便有更多的精力进行有标记的翻译,处理更多的源语信息,提高口译质量。



6. 结语

本研究借鉴语料库语言学家对语言使用中语块趋向的共识和心理语言学家对语言加工中语块优势的证实,探索在翻译学中发现不同频率的语块对提高口译效率和质量的证据。本研究虽然局限于高频率的4词语块,但解决了不同频率、不同完整性的语块分类混杂的难点,更容易论证频率是体现语块原型的一个决定性因素,分析语块的频率效应对交替传译的缓解作用,特别是针对口译能力有限的学生,语块既能提高目的语编码的自动化程度,形成无标记的口译策略,亦能彼此连接产出语流更长的译语。因此,语块的频率效应能减轻“重构话语表达的句法负担,从而使总反应时缩短,在时间性、流利性方面,至少提高了语速、音速和发声时间比”(胡元江 2011:56)。至于口译语块加工的反应时和脑电变化,还有待通过心理语言学和神经语言学的研究来验证,用数据或fMRI说明语块对口译双语加工的影响程度。最后,PACCEL只是反映了学生在口译测试中的表现,没有涉及职业译员在真实口译环境中的表现,有待后续研究进一步发现两者语块使用特点的异同。

作者简介

李洋,大连海事大学教授,广东外语外贸大学翻译学博士,西挪威应用科技大学博士后。研究方向:语料库口译研究、口译教学与实践。

邓轶,厦门大学外文学院副教授,广东外语外贸大学翻译学博士。研究方向:口译教学与实践研究、 计算机辅助口译技术研究。

文献来源:文章原载《中国翻译》 2022年第4期,第147-155页,参考文献及注释从略。引用请以原载期刊为准,转发请注明“浙大译学馆”。


翻译研究动态
2.8万用户关注!发布外语和翻译类期刊目录、学术论文、学术会议、学术讲座、学术著作、英语竞赛等资源。
 最新文章