獨家特稿 | 袁毓林教授談ChatGPT語境下語言學的挑戰和出路

文摘 2024-08-24 00:00 中国澳门

转载于澳大“RSKTO”公众号

教授簡介

袁毓林，1990年獲北京大學博士學位。曾任北京大學中文系教授，博士生導師，現為澳門大學人文學院中國語言文學系主任。主要研究理論語言學和漢語語言學。在《中國社會科學》《中國語文》《當代語言學》和《中文資訊學報》等刊物發表論文100餘篇，出版《語言的認知研究和計算分析》等10餘部著作。多次獲得教育部“高校科學研究優秀成果獎”，入選教育部長江學者特聘教授，國家“萬人計劃”哲學社會科學領軍人才。

引

言

ChatGPT（全名：Chat Generative Pre-trained Transformer），是OpenAI研發的一款聊天機器人程序，於2022年11月30日發佈。ChatGPT是人工智能技術驅動的自然語言處理工具，它能夠基於在預訓練階段所見的模式和統計規律，來生成回答，還能根據聊天的上下文進行互動，真正像人類一樣來聊天交流，甚至能完成撰寫論文、郵件、腳本、文案、翻譯、代碼等任務。

ChatGPT在語言理解和生成方面的成功，對語言學有關傳統觀念提出了挑戰。2024年7月，《現代外語》第47卷第4期刊登了我校中國語言文學系主任袁毓林教授《ChatGPT語境下語言學的挑戰和出路》一文，袁毓林教授就怎樣看待 ChatGPT等大模型生成的語言、語言學家怎樣為人工智慧提供語義學支援及語言學家跟ChatGPT等大模型協作的三種模式等問題提出了自己深刻的見解。下文，我們跟隨袁毓林教授一起探索ChatGPT語境下語言學的挑戰和出路。

ChatGPT語境下語言學面臨的挑戰

2022年底人工智能聊天機器人ChatGPT横空出世，以其超強的、接近人類水平的語言理解與生成能力，外加知識學習與常識推理能力，一下子火爆全網；同時也無意中把語言学推到了歷史的十字路口，挑戰了語言學既有的一系列傳統觀念。比如：1) 語言是人類獨有的現象，只有人類大腦才能產出自然語言；2)人類語言具有遞歸性(recursion)，所以無法用基於統計的概率模型來刻畫；

還向語言學人提出了一系列棘手的問題，比如：1) ChatGPT等大模型生成的語言是不是人類自然語言？為什麽？2)語言符號具有任意性(arbitrary，即形式和意義沒有必然的關係)，那麽語言模型是怎樣跨越這種語義鴻溝的？3)目前的語言學理論在多大程度上揭示了人腦中實際的語言機制？4)現代大型語言模型的成功有沒有影響到語言學作為一門學科的存在？語言大模型在自動翻譯方面的成功會不會影響到外語專業的存在？

袁毓林教授關於ChatGPT語境下語言學的解答

怎樣看待ChatGPT等大模型生成的語言？

我們先來討論第一個問題：ChatGPT等大模型生成的語言是不是人類自然語言？這個問題的回答，取決於怎樣來定義“人類自然語言”。如果規定只有人類(大腦)產出的語言才能叫“人類自然語言”，那麼ChatGPT等大模型生成的語言就不能算作人類自然語言。但是，這可能會有問題，因為語言大模型通過海量文本的訓練，已經基本學會了人類自然語言的句法、語義和語用模式，在人類使用者合適的提示(prompt，包括問題或命令)的指引下，能夠生成類似於人類自然語言的文本。

如果把這種機器從人類文本中學來的、並且人們可能也會這麼說/寫的文本，排斥在“人類自然語言”之外，可能是一種短視和狹隘的做法。這有點兒像不承認醫院的輔助生殖科在實驗室裡培育出來的試管嬰兒是“人類嬰兒”一樣，不近情理。其實，務實的人工智慧社區已經把機器生成的語言當作“人類自然語言”，來快速有效地擴大訓練語料的規模，並且有效地規避使用真正的“人類自然語言”文本可能帶來的版權風險。

不過，話要說回來。如果承認機器生成的語言(簡稱“機造語言”)是“人類自然語言”，那麼語言學家在收集語料、提取語法規則時，能不能使用這種“機造語言”來歸納“人類自然語言”的語法規律？更何況，這種“機造語言”可能良莠不齊，有時可能存在語法錯誤。就像二語習得者產出的“中介語”(interlanguage)是語言學的一個重要的研究物件一樣，“機造語言”(machine language)可能會成為未來語言學研究和工程應用的一個重要的研究領域。

語言學家怎樣為人工智能提供語義學支援？

接著，我們來討論第二個問題：ChatGPT等大模型是怎樣跨越語言符號的音義任意性這種語義鴻溝的？

大家知道，人類自然語言是一種象徵性的符號系統，語言符號音義之間的聯繫是由社會成員在歷史的長河中約定俗成的。對於語言學習者來說，這種沒有邏輯必然性的音義關係，是他們在一定的文化和語言環境下，通過具身認知，把某種語言符號跟有關的外部世界和內心體驗結合起來，日積月累而逐步習得的。

對於機器而言，上述這種指稱論語義學(Denotational Semantics)不好使了，因為機器沒法理解詞典釋義式的離散性語義表達。於是，怎樣對語言符號的意義進行可計算的連續性的數值表達，就成為自然語言處理(natural language processing, NLP) 的難題。好在人工智慧專家在“意義即用法”、“意義相近的詞語有著相近的分佈”等語言學思想的指導下，根據詞語出現的各種上下文，把詞語的意義表示成高維向量(vector)。粗略地說，這是用某個詞的各種上下文來表示這個詞的意義和用法。

現代大型語言模型的詞向量動輒成千上萬個維度，相當於在用每一個詞的成千上萬種語境資訊來表示這個詞的意義和用法。因為意義相近的詞語往往出現在相似的上下文中，所以它們的向量值也相近；或者說，它們在高維的語義空間中挨得很近，並且相關詞語的向量之間有一種平行的推導關係。正是這種基於分散式語義學(distributional semantics)的詞語意義的向量化嵌入表達(embeddings)，為大模型注入了語義；並且，在大規模訓練資料、轉換器(transformer)的注意力機制、把在少量樣本上學習到的知識遷移到其他領域的能力、在上下文中學習等各種預訓練技術的加持下，使得語言模型能夠跨越語言符號的語義鴻溝。

事實上，對於人工智能應用來說，以詞向量為核心的分佈語義學只是在數字世界(digital world)中解決了意義的表達和計算問題；但是，語言符號沒有跟物理世界建立聯繫，即跟外部環境是脫節的。而語言是交際工具，語言符號最終要在人類生活的物理世界(physical world)中跟有關事物發生指涉和綁定關係。這就是所謂的“符號接地問題”(the symbol grounding problem)，即讓語言符號的語義解釋從人腦或機器中投射到物理世界中，跟語境中有關的事物、事件或狀態建立指稱關係。

比如，一台載入了語言大模型的家用機器人，雖然能夠聽懂主人的指令“把桌子上的大蘋果裝進禮品袋裡！”的意義，但是實際操作起來必須把“桌子”、“大蘋果”和“禮品袋”等符號跟當下環境中的有關物體建立一一對應關係。這裡面，涉及到機器人對物品的識別和對語言符號的指稱歧義的消解等，是一系列複雜的多模態感知和語義理解問題。這種符號接地問題不解決，人工智能就不能實現“具身智慧”(embodied AI)，最終無法進入人們的日常生活。而恰恰是在指稱消歧和語義理解這一方面，語言學家的語義學知識和智慧是不可缺少的。可見，在人工智慧時代，怎樣把指稱論語義學和分散式語義學有機地結合起來，解決機器人的語言符號的意義和指涉問題，是語言學家和人工智慧專家共同的課題。

語言學家跟ChatGPT等大模型協作的三種模式

2024年初，人工智能晶片公司英偉達的總裁黃仁勳說：“這是一個令人驚歎的時代，因為我們正處於一場新的工業革命的開始，過去蒸汽機、電力、PC和互聯網帶來了資訊革命，現在是人工智能。”OpenAI首席執行官Sam Altman稱人工智能將“像手機一樣”改變世界，徹底顛覆教育、醫療和科學研究等領域；將成為人類建設未來的強大工具，賦予我們表達創造性想像力和意志的能力。他鼓勵年輕一代積極利用人工智能工具，實現個人的願景，創造前所未有的價值。是的，本輪人工智慧也開啟了一個學術創新、研究範式轉變的偉大時代。

站在這個新時代的門口，我們語言學人也應該積極擁抱人工智能。一方面要思考怎樣更深刻地揭示人類自然語言的結構和功能，為人工智能的自然語言處理提供知識資源。另一方面要考慮怎樣更好地利用ChatGPT等現代大型語言模型，來輔助我們的語言教學和語言學研究。在這裡，我們首先要瞭解和考慮人機協同的三種可能的模式：

1) 嵌入(embedding)模式，即語言學家通過跟ChatGPT等大模型交談，使用提示詞語來設定具體目標，讓人工智能系統協助我們完成研究或教學工作中的某一項或幾項任務；然後，語言學家自主地結束工作。

2)副駕駛(copilot)模式，即語言學家跟ChatGPT等大模型形成夥伴關係，共同參與到研究工作的流程中，從提出研究計畫、收集相關例句、總結有關規律，到編撰論文提綱、寫作論文的有關段落，都是人機協同，並且讓人機各自發揮自己的作用。

3)智慧體(agent)模式，即語言學家提供目標和必要的資源(比如，特定的文獻和語料、比較明確的觀點、結論或立場評價上傾向性)，讓ChatGPT等大模型獨立完成某項任務(比如，寫作某種科普性的通俗文章)，由語言學家監督進程和評估最終結果。

結

語

在一次採訪中，著名語言學家、哲學家喬姆斯基對ChatGPT的興起以及它對教育的影響發表觀點，他表示，ChatGPT是一種高科技的剽竊方式，對教育毫無益處，只能成為學生們逃避學習的“幫手”。但是，技術本身並不具有道德性，它的應用是否正確、合法、道德取決於使用者。

對於ChatGPT，我們需要以一種負責任的方式應用它，確保它在創造價值和促進人類進步方面發揮正面的作用，或許袁毓林教授對以上問題的解答給我們提供了一種新的思考方式。

文章來源 │ 本文內容來源於2024年7月《現代外語》第47卷第4期《ChatGPT語境下語言學的挑戰和出路》一文，並徵得作者同意在本公眾號轉發。

最新文章

多人谈 | 袁毓林：这是语言统计技术的胜利，也是语言天生理论的失败

中国语言学报｜王为民：民族融合与北方标准汉语音系特征的演变（长摘要）

讲座预告｜井茁：临界事件：否定的情感逻辑

中国语言学报｜史皓元：赵元任的《方音调查表格》及其在汉语方言研究历史上所扮演的角色（长摘要）

讲座预告｜史皓元：“儿”缀和粤语 “变音”现象在音系和形态上的深层历史联系

讲座预告｜郭熙：新世纪以来的华语研究及理论演进

讲座预告｜郭利霞：晋语区“可”的音义关联和互动

讲座预告｜陈振宇：再说预期认知模型中的“条件”和“概率”

刊讯｜《中国语言学报》（JCL）2024年第3期论文中文摘要

镜海心得#36｜徐杰：成功实现由知识奴隶至知识主人的转型升级才是读博成功的关键指标

讲座预告｜Prof. Heiko Narrog：语法化的单向性与辖域

讲座预告｜朱冠明：“析断”动词的语义演变

镜海心得#35｜徐杰：刊物之于论文的作用酷似店铺之于产品的功能

讲座预告｜袁毓林：如何测试ChatGPT的语义理解与常识推理水平——兼谈大语言模型时代语言学的挑战与机会

论文推介｜徐杰、张帆：否定类型及与此相关的句法语义问题（概要及全文）

镜海心得#34｜徐杰：在学术问题上有错误的看法远胜没有看法

论文推介｜袁毓林：ChatGPT等大模型的语言处理机制及其理论蕴涵

獨家特稿 | 袁毓林教授談ChatGPT語境下語言學的挑戰和出路

澳大-南师语料库与数字人文暑期学院在中国澳门成功举行

澳大-南师语料库与数字人文暑期学院顺利闭幕

澳大-南師語料庫與數字人文暑期學院特約報道之三

澳大-南師語料庫與數字人文暑期學院特約報道之二

讲座预告｜王东波：荀子古籍多模态大语言模型的开发与应用

讲座预告｜沈威：语言研究中的统计方法

讲座预告｜卢达威：正则表达式的语料库应用

论文推介 | 徐杰：自然语言交际中的语码解读和知识匹配

讲座预告｜唐旭日：搭配自动抽取与可视化分析

澳大-南师语料库与数字人文暑期学院开幕

讲座预告｜龙从军：民族语言OCR文字识别最新进展与应用

讲座预告｜胡韧奋：浅探语言智能技术驱动的人文研究

讲座预告｜袁毓林：如何测试ChatGPT的语义理解与常识推理水平

澳大-南師語料庫與數字人文暑期學院日程表（3號通知）

境外语言学著作文摘｜2024年第1期

会议｜“第一届国际语法研究学术研讨会”征稿启事

录取通知｜致“澳大—南师语料库与数字人文暑期学院”报名者（2号通知）

成果速递｜李华斌：论贵州罗甸方言的归属

报告回顾｜徐杰教授：语言学理论的两种嬗变模式与新旧理论之间的关系

成果速递｜田早慧、邵则遂：西南官话“跟到”的多功能用法及其演变

成果速递｜陈宝贤：福建漳平溪南方言反身代词的连读变调

澳大-南师语料库与数字人文暑期学院（1号通知）

成果速递｜陆方喆、曾君：汉语体标记“了”的语体特征及其自由隐现的语体差异

成果速递｜方清明：NP隐含与“X（的）那种”句式的动态生成

成果速递｜崔四行等：汉语“动+名+动量”结构的韵律及语体制约

刊讯｜《中国语言学报》（JCL）2024年第2期论文中文摘要

袁毓林：语言与思维的可分性和图灵测试的局限性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉