张莲 | 大语言模型在外语教师教育与发展研究中的应用探索

文摘   2024-10-30 00:01   上海  

大语言模型在外语教师教育与发展研究中的应用探索

张莲

北京外国语大学


摘要


摘要:

随着生成式人工智能技术的快速迭代,大语言模型凭借强大的语言理解、生成和处理能力,在包括外语教师教育与发展研究在内的人文社科研究中的应用潜力和价值日益显现。本研究简要介绍大语言模型应用于自然语言处理任务的特点、优势和外语教师教育与发展研究的主要论题及特点,然后探讨大语言模型在外语教师教育与发展研究中的课堂话语分析、教学支架功能分析等方面的具体应用,最后讨论了大语言模型实际应用可能面临的挑战和问题。

关键词:

大语言模型;外语教师教育与发展;探索案例;

文献来源:张莲.大语言模型在外语教师教育与发展研究中的应用探索[J].外语界,2024(5):25-32.


01

引言

随着生成式人工智能(artificial intelligence, AI)技术的快速迭代,大语言模型(large language models, LLMs)以其强大的语言理解、生成和处理能力及智能的交互方式,正在深度塑造人类的生活、工作和理解世界的方式(如Grossman et al. 2023;肖峰 2023;程鹏等 2024),逐渐显现出在科学研究和知识生产中的潜力与应用价值。我国外语界部分学者已从不同视角就生成式AI应用于知识生产展开了探讨(如秦洪武,周霞 2024)。外语教师教育与发展研究是人文社科领域重要的次领域,相关知识生产事关外语教育理论和实践创新发展,直接影响外语教师队伍建设这一重大基础性工作。如何将LLMs应用于外语教师教育与发展研究具有理论价值和现实意义,值得深入探讨。

02

关键概念及相关研究综述

2.1 大语言模型和知识生产

从各种信息源可以发现,目前LLMs的定义主要包括三方面信息:LLMs的本质(一种AI系统深度学习算法或技术)、构建方式(受训于海量文本数据/参数)、功用或价值(具备理解和生成自然语言的能力)(如Rytting et al. 2023;Van Noorden & Perkel 2023;肖峰 2023)。2023年,全国科学技术名词审定委员会联合多家机构将LLMs定义为:基于海量文本数据训练的深度学习模型;它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如摘要写作、问答、翻译等。

LLMs应用于学术研究和知识生产的相关研究目前主要涉及两方面内容。其一,探讨LLMs自身技术发展和优化,比如算法优化、数据和算力提升及性能评估(Bengio et al. 2021;Chang et al. 2024)。其二,探索如何将LLMs应用于学术研究,具体围绕三个问题展开:(1)论证AI工具驱动科学研究的基本原理及其与人类知识生产模式之间“内在联系的机理”(张越等 2024);(2)报告LLMs应用于各类学术研究和知识生产场景的案例及其效果,比如在特定学科专业领域的文献整理、数据标注、编码和分析等(Rytting et al. 2023;Rasheed et al. 2024;苏祺 2024);(3)LLMs应用可能存在的问题、挑战和风险,涉及学术研究和知识生产主体性、隐私保护、数据安全等法律伦理问题(Farquhar et al. 2024;程鹏等2024)。三个问题内里彼此关联,但第一个问题是核心,即以LLMs为代表的生成式AI和人类智能(human intelligence, HI)有什么异或同,以至于它能够或很大程度上参与学术研究和知识生产。

AI是机器(计算机)模仿或模拟HI产生的智能。那么,HI的基础是什么?蔡曙山(2020,2024)认为,HI是人类在神经、心理、语言、思维、文化五个层级的认知能力,其中语言既是人类认知和非人类动物认知的分野,又是人类认知的基础。虽然Chomsky(1968)、Vygotsky(1978)、Pinker(1994)等对人类语言的本质及其与HI关系的看法多有不同,但相通且相同的是,他们都认为二者之间的关系天然、深刻且密切。LLMs之所以被视作AI的革命,正因其在人类自然语言处理(NLP)方面的突破(蔡曙山2024)。再者,语言在学术研究和知识生产过程中扮演主要角色,文献归纳或数据标记、编码和分析都是对人类自然语言文本的处理(Rytting et al. 2023)。正是这种能力使得LLMs在知识生产领域具有巨大的应用潜力。

2.2 人工智能视域下外语教师教育与发展研究

外语教师教育与发展研究旨在探究教师个体或群体学习与发展的本质和规律,以及如何应用研究成果指导和规划教师学习与发展实践(王蔷等 2022)。这一领域的研究虽起步较晚,但已历经多次范式转向(Zhang 2022)。学者们从不同理论视角聚焦各种具体问题,从教师行为(包括言语和非言语)到教师认知(如知识、信念、决策、学习),从教师学习的社会文化取向到教师的身份、角色、能动性、情感体验(Borg 2009;Johnson 2009),以及复杂动态系统视角的教师认知(Cochran-Smith et al. 2014)等。

从研究方式上看,无论聚焦部分的还原式研究还是涵盖全貌的系统性研究(Davis & Sumara 1997),数据和资料的主体及原型都是语言文本,比如课堂言语或非言语行为的实录及转写、访谈文本、反思日志等。事实上,这也是多数人文社科领域研究基本的数据和资料原型。数据和资料的分析过程之本质亦是NLP,包括语言文本含义的理解、归纳、分类、生成等。由此可见,外语教师教育与发展研究领域的学术研究和知识生产的基本原理与LLMs的机理具有“适配性”(蔡曙山 2020;王涛 2024)。

笔者在中国知网和Web of Science数据库中检索了2014年至今人工智能背景下的外语教师教育与发展研究文献。文献计量分析和高被引重点文献细读均显示,该领域目前仍以形而上的研究为主,多围绕AI赋能外语教育和教师发展的价值与意义展开思辨式论证探讨,少见具体展示如何开展研究的实证案例。

03

外语教师教育与发展研究的LLMs应用案例

LLMs应用于外语教师教育与发展研究案例的选取基于两个原则。(1)选用笔者相对熟悉的研究场景和数据类型,便于评估LLMs生成内容的准确性(Abdurahman et al. 2024),或者辨识LLMs固有的“幻觉”(hallucination)现象,即生成“无意义或不忠实于源数据的内容”(Farquhar et al. 2024: 625)。可能的情况下,尽量选取经人工标注的数据类型和片段,并将其作为“基准真值”(ground truth)和LLMs生成的内容进行对比,以检验人—机协同(human-LLMs alignment)效果(Abdurahman et al. 2024)。(2)基于LLMs构建方式和特点,选用经典理论和概念的探索应用为主,利于确认LLMs应用的适切性和有效性。当前LLMs的使用中,特别是处理垂直领域任务时,会用检索增强生成技术(retrieval augmented generation, RAG),以避免或缓解“幻觉”、信息更新不及时与黑匣子现象(Gao et al. 2023;Zhao et al. 2024)。RAG技术在LLMs的基础上引入并检索外部知识库的信息来增强LLMs的生成能力,从而提高模型的准确性和相关性。经典理论和概念相关文献历时积累量大,不仅能为LLMs提供丰富的专业词汇和语境,也能借助更多的先验知识提升LLMs的应用性能。基于上述原则,笔者选取外语教师教育与发展研究领域两个常见数据场景,分别为课堂话语(classroom discourse)分析和教学支架(instructional scaffolding)功能分析。

3.1 LLMs应用于课堂话语分析的基础标注和编码

课堂话语指教学过程中师生为特定教育教学目的而开展的言语和非言语交流与互动(Cazden 2001)。课堂话语研究不仅揭示学生学习、认知过程,而且帮助教师反观、检视自身知识与经验,成为认识、理解教师学习和发展本质与规律的重要方式(张莲 2016,2022;张莲,王艳 2014)。Hymes(1972:xviii)指出,研究课堂中的语言是真正意义上的基础研究,理解课堂中的语言方面取得的进步就是语言学理论的进步。课堂话语的所指范围显然大于“课堂中的语言”,其研究意义自然厚重和深远。

基于文献分析和实证案例研究经验,笔者提出了课堂话语“多重标注与分析方案”的建议(张莲 2016,2022)。“多重标注与分析方案”是指研究者综合相关概念框架和话语分析方法、技巧与手段,实现目标课堂话语单位多角度切分,多次定义、分析和解释的方法或系统,力求全面、准确描述课堂话语与学习的关系,实现教师有效反思和学习(Rymes 2009;张莲2016,2022),其基础是经典的课堂话语标注和规模计量工具IRF(Initiation-Response-Feedback)序列模型(Sinclair & Coulthard 1975)。研究者在量化标注基础上对序列中每一话步的教学功能进行质性标注,建立话步与认知、学习的关系(张莲 2022),为教师理解和反思教学奠定扎实的量—质分析基础。当课堂话语数据量较大时,多重标注和分析费时费力,而LLMs的应用似乎带来了提质增效的机会。

课堂话语分析案例选用的LLMs是当前广泛使用的LLMs-a和LLMs-b(均为假名),必要时采用LLMs-c以核验编码有效性(Farquhar et al. 2024)。按照案例选用原则,笔者选用两个英语专业精读课堂片段(片段1、片段2)示例LLMs应用过程。LLMs应用的第一步是设计和改进提示词(prompt)。笔者仔细比对人机对话结果,不断修改完善提示词,整个过程持续近两个月。表1是先后六个版本(V1—V6)中改动较大的三个版本的提示词,其中V6是最终采纳生成结果所用的提示词。因篇幅有限,本文仅止步于案例数据的标注和编码,数据挖掘和分析将另文探讨。

应用过程显示,提示词确实会影响对话结果。改进提示词的过程是给LLMs提供更多“定点搜索或检索”(grounded search or retrieval)的机会(Farquhar et al. 2024:625),也为使用RAG技术时更精准定位并启动外部知识库提供优质线索(Gao et al. 2023;Zhao et al. 2024)。表2、表3分别呈现两个课堂话语片段的标注和编码结果及其隐含的互动结构特征,所有案例片段均为笔者手动标注、编码的课堂话语样本。

从表3可以看出,LLMs从不同方面概括了两个片段的师生话语互动特征,包括教师中心、学生参与、语码转换(或双语教学)、语言关注、文化敏感、课堂动态、学习氛围、思辨能力发展等,回应了课堂话语分析的各个层面(Cazden 2001;张莲2022)。LLMs能就具体互动情形作出较为精细且有区别性的定性概括,认为两个课堂都是“Teacher-Centered Instruction”,但对片段1的定性描述是“The session is predominantly led by the teacher”,而对片段2的描述则是“The teacher guides the discussion, frequently posing questions to elicit student participation; maintains control over the lesson flow”。由此可见,LLMs能够较好完成类似文本处理任务。需要指出的是,上述过程的多个阶段也是人机协同对齐(alignment)的过程,即研究者将LLMs生成的结果和基于人类手动标注分析的结果反复比对的过程(Abdurahman et al. 2024)。

3.2 LLMs应用于教学支架功能分析的基础标注和编码

支架概念用于描述学习或解决难题情境中,教师(或一个能力更强的伙伴)给学生(或一个能力稍弱的伙伴)提供的支持和帮助(Wood et al. 1976;Swain 2000;Li & Zhang 2022)。Wood et al.(1976)提出的教学支架功能框架尤为常用,细节如表4所示。

语言学习情境中,教师提供有效支架的关键在于准确判断。首先,教师需评估学生的真实水平,以提供恰当的支架。其次,教师需准确判断何时逐步“撤回”支架,使学生更好地开展自主学习。最后,教师需懂得如何组织小组活动,促成组内“社会互动”,便于学生相互提供支持(Swain 2000)。如此,学生学习的问题转化为教师学习和发展的问题,研究的焦点随之转向对教学支架及其功能的分析,而分析的前提是对教学支架进行标注和编码。按照案例选用原则,笔者选取语言学专业“话语分析”和“认知语言学”课的两段课堂话语片段3、片段4进行支架标注和编码,其中前者为主案例,后者为辅助案例,以形成对比校验。以片段3为例,终版提示词如下所示:

As an experienced researcher on instructional scaffolding, analyze the following excerpt of a classroom interaction from a discourse analysis session with MA students in linguistics and applied linguistics. Using the six scaffolding functions framework by Wood, Bruner, and Ross (1976), identify, tag, and label all instances of scaffolding provided by the teacher in the excerpt. Note that there may be multiple scaffoldings within a single line.

支架识别和标注牵涉复杂的语义判断和上下文逻辑推理,所以研究者一般会邀请2—3名编码员核验编码一致性,确保编码准确率。在LLMs应用语境中,核验方法是将同一数据放入不同LLMs中生成结果或同一LLMs中多次生成结果,既观察LLMs的有效性和适用性,也初步判断数据处理的准确性和稳定性。表5呈现了片段3的LLMs支架标注和编码结果。

笔者从表5归纳出三点。第一,LLMs处理案例数据的结果喜忧参半。在提示词清晰、恰当且一致的前提下,不同LLMs的表现存在差异。LLMs-a似乎能更有效处理案例数据类型,其生成结果和人工结果具有明显一致性。课堂话语研究实践中,降低自由度(RDF)和标记显著特征(MCF)两个支架类别的确较难区别定性,人工识别时也常令研究者举棋不定。独立生成结果时,LLMs-a和LLMs-b各自表现稳定,且重复生成结果一致性高。从LLMs评估视角来看,这一点对LLMs个案是有价值的(Abdurahman et al. 2024;Chang et al. 2024)。第二,两个LLMs生成结果差异较大,可能与LLMs受训数据不同有关,这给数据分析和后续研究结果带来不确定性和风险(如Rytting et al. 2023)。根据相关文献建议,笔者采用LLMs-c进行核验,发现LLMs-c和LLMs-a的生成结果高度一致。当然,此种情况不排除LLM-c和LLMs-a属于同一LLMs系列产生的一致性。第三,整个LLMs应用探索过程中,人机协同或者研究主体多元协同始终在场(Rasheed et al. 2024),在基于LLMs的学术研究和知识生产中可能都是必选项。笔者使用辅助案例片段4重复相同LLMs应用过程,结果也支持上述发现。

04

结语

以LLMs为代表的AI应用于学术研究和知识生产渐成普遍现象。本研究基于相关概念和现有文献梳理,实证探索了LLMs在外语教师教育与发展研究中的应用,拟提出如下看法。首先,外语教师教育与发展研究和LLMs的方法应用,特别是数据标记、编码之间具有一定的逻辑合理性,问题焦点与数据类型及其处理之间具有较好的适切性,且大规模数据处理具备高效、经济的预期。其次,通用LLMs在外语教师教育与发展研究领域的应用表现存在差异。第三,LLMs用于数据标记和编码仍有偏误和失误,会因研究领域和问题不同而出现不稳定的处理结果,人机协同或多元主体协同应是必选项。最后,研究者应用LLMs的技巧有待学习和优化,但错误和失误的风险并不会降低或消失(Van Noorden & Perkel 2023),不谨慎的使用和应用可能带来错误的知识生产和危害。

AI是对HI的模拟,但作为AI基础的语言不只是一些字词和语句及其统计或概率计算,而是一种文化和传统、一个文化或文明共同体的历史。人类语言表达的是人与真实世界之间的关系,在应用模拟HI的语言模型认识、理解世界之时,所有谨慎都不为过。

编者按

参考文献略,欢迎查阅《外语界》2024年第5期纸质原文。

本文编辑:孙雨  同济大学

郑重声明:本公众号推送的文章不能代表本公众号立场。本公众号推送的学术会议、博士招生不负责对接解释。有任何疑问请按照推送内容的官方联系方式对接!如果学术会议、博士招生有任何官方调整,责任不在我方。我们优先推广免费的学术会议、讲座、研修等项目。

语言治理

欢迎关注

Language Governance Alliance

球分享

球点赞

球在看

语言治理
发布最前沿的语言研究信息,发现平淡生活里语言的奥秘。
 最新文章