袁毓林,1990年獲北京大學博士學位。曾任北京大學中文系教授,博士生導師,現為澳門大學人文學院中國語言文學系主任。主要研究理論語言學和漢語語言學。在《中國社會科學》《中國語文》《當代語言學》和《中文資訊學報》等刊物發表論文100餘篇,出版《語言的認知研究和計算分析》等10餘部著作。多次獲得教育部“高校科學研究優秀成果獎”,入選教育部長江學者特聘教授,國家“萬人計劃”哲學社會科學領軍人才。ChatGPT(全名:Chat Generative Pre-trained Transformer),是OpenAI研發的一款聊天機器人程序,於2022年11月30日發佈。ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠基於在預訓練階段所見的模式和統計規律,來生成回答,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫論文、郵件、腳本、文案、翻譯、代碼等任務。
ChatGPT在語言理解和生成方面的成功,對語言學有關傳統觀念提出了挑戰。2024年7月,《現代外語》第47卷第4期刊登了我校中國語言文學系主任袁毓林教授《ChatGPT語境下語言學的挑戰和出路》一文,袁毓林教授就怎樣看待 ChatGPT等大模型生成的語言、語言學家怎樣為人工智慧提供語義學支援及語言學家跟ChatGPT等大模型協作的三種模式等問題提出了自己深刻的見解。下文,我們跟隨袁毓林教授一起探索ChatGPT語境下語言學的挑戰和出路。
2022年底人工智能聊天機器人ChatGPT横空出世,以其超強的、接近人類水平的語言理解與生成能力,外加知識學習與常識推理能力,一下子火爆全網;同時也無意中把語言学推到了歷史的十字路口,挑戰了語言學既有的一系列傳統觀念。比如:1) 語言是人類獨有的現象,只有人類大腦才能產出自然語言;2)人類語言具有遞歸性(recursion),所以無法用基於統計的概率模型來刻畫;還向語言學人提出了一系列棘手的問題,比如:1) ChatGPT等大模型生成的語言是不是人類自然語言?為什麽?2)語言符號具有任意性(arbitrary,即形式和意義沒有必然的關係),那麽語言模型是怎樣跨越這種語義鴻溝的?3)目前的語言學理論在多大程度上揭示了人腦中實際的語言機制?4)現代大型語言模型的成功有沒有影響到語言學作為一門學科的存在?語言大模型在自動翻譯方面的成功會不會影響到外語專業的存在?我們先來討論第一個問題:ChatGPT等大模型生成的語言是不是人類自然語言?這個問題的回答,取決於怎樣來定義“人類自然語言”。如果規定只有人類(大腦)產出的語言才能叫“人類自然語言”,那麼ChatGPT等大模型生成的語言就不能算作人類自然語言。但是,這可能會有問題,因為語言大模型通過海量文本的訓練,已經基本學會了人類自然語言的句法、語義和語用模式,在人類使用者合適的提示(prompt,包括問題或命令)的指引下,能夠生成類似於人類自然語言的文本。
如果把這種機器從人類文本中學來的、並且人們可能也會這麼說/寫的文本,排斥在“人類自然語言”之外,可能是一種短視和狹隘的做法。這有點兒像不承認醫院的輔助生殖科在實驗室裡培育出來的試管嬰兒是“人類嬰兒”一樣,不近情理。其實,務實的人工智慧社區已經把機器生成的語言當作“人類自然語言”,來快速有效地擴大訓練語料的規模,並且有效地規避使用真正的“人類自然語言”文本可能帶來的版權風險。
不過,話要說回來。如果承認機器生成的語言(簡稱“機造語言”)是“人類自然語言”,那麼語言學家在收集語料、提取語法規則時,能不能使用這種“機造語言”來歸納“人類自然語言”的語法規律?更何況,這種“機造語言”可能良莠不齊,有時可能存在語法錯誤。就像二語習得者產出的“中介語”(interlanguage)是語言學的一個重要的研究物件一樣,“機造語言”(machine language)可能會成為未來語言學研究和工程應用的一個重要的研究領域。
接著,我們來討論第二個問題:ChatGPT等大模型是怎樣跨越語言符號的音義任意性這種語義鴻溝的?
大家知道,人類自然語言是一種象徵性的符號系統,語言符號音義之間的聯繫是由社會成員在歷史的長河中約定俗成的。對於語言學習者來說,這種沒有邏輯必然性的音義關係,是他們在一定的文化和語言環境下,通過具身認知,把某種語言符號跟有關的外部世界和內心體驗結合起來,日積月累而逐步習得的。
對於機器而言,上述這種指稱論語義學(Denotational Semantics)不好使了,因為機器沒法理解詞典釋義式的離散性語義表達。於是,怎樣對語言符號的意義進行可計算的連續性的數值表達,就成為自然語言處理(natural language processing, NLP) 的難題。好在人工智慧專家在“意義即用法”、“意義相近的詞語有著相近的分佈”等語言學思想的指導下,根據詞語出現的各種上下文,把詞語的意義表示成高維向量(vector)。粗略地說,這是用某個詞的各種上下文來表示這個詞的意義和用法。
現代大型語言模型的詞向量動輒成千上萬個維度,相當於在用每一個詞的成千上萬種語境資訊來表示這個詞的意義和用法。因為意義相近的詞語往往出現在相似的上下文中,所以它們的向量值也相近;或者說,它們在高維的語義空間中挨得很近,並且相關詞語的向量之間有一種平行的推導關係。正是這種基於分散式語義學(distributional semantics)的詞語意義的向量化嵌入表達(embeddings),為大模型注入了語義;並且,在大規模訓練資料、轉換器(transformer)的注意力機制、把在少量樣本上學習到的知識遷移到其他領域的能力、在上下文中學習等各種預訓練技術的加持下,使得語言模型能夠跨越語言符號的語義鴻溝。
事實上,對於人工智能應用來說,以詞向量為核心的分佈語義學只是在數字世界(digital world)中解決了意義的表達和計算問題;但是,語言符號沒有跟物理世界建立聯繫,即跟外部環境是脫節的。而語言是交際工具,語言符號最終要在人類生活的物理世界(physical world)中跟有關事物發生指涉和綁定關係。這就是所謂的“符號接地問題”(the symbol grounding problem),即讓語言符號的語義解釋從人腦或機器中投射到物理世界中,跟語境中有關的事物、事件或狀態建立指稱關係。
比如,一台載入了語言大模型的家用機器人,雖然能夠聽懂主人的指令“把桌子上的大蘋果裝進禮品袋裡!”的意義,但是實際操作起來必須把“桌子”、“大蘋果”和“禮品袋”等符號跟當下環境中的有關物體建立一一對應關係。這裡面,涉及到機器人對物品的識別和對語言符號的指稱歧義的消解等,是一系列複雜的多模態感知和語義理解問題。這種符號接地問題不解決,人工智能就不能實現“具身智慧”(embodied AI),最終無法進入人們的日常生活。而恰恰是在指稱消歧和語義理解這一方面,語言學家的語義學知識和智慧是不可缺少的。可見,在人工智慧時代,怎樣把指稱論語義學和分散式語義學有機地結合起來,解決機器人的語言符號的意義和指涉問題,是語言學家和人工智慧專家共同的課題。
2024年初,人工智能晶片公司英偉達的總裁黃仁勳說:“這是一個令人驚歎的時代,因為我們正處於一場新的工業革命的開始,過去蒸汽機、電力、PC和互聯網帶來了資訊革命,現在是人工智能。”OpenAI首席執行官Sam Altman稱人工智能將“像手機一樣”改變世界,徹底顛覆教育、醫療和科學研究等領域;將成為人類建設未來的強大工具,賦予我們表達創造性想像力和意志的能力。他鼓勵年輕一代積極利用人工智能工具,實現個人的願景,創造前所未有的價值。是的,本輪人工智慧也開啟了一個學術創新、研究範式轉變的偉大時代。
站在這個新時代的門口,我們語言學人也應該積極擁抱人工智能。一方面要思考怎樣更深刻地揭示人類自然語言的結構和功能,為人工智能的自然語言處理提供知識資源。另一方面要考慮怎樣更好地利用ChatGPT等現代大型語言模型,來輔助我們的語言教學和語言學研究。在這裡,我們首先要瞭解和考慮人機協同的三種可能的模式:
1) 嵌入(embedding)模式,即語言學家通過跟ChatGPT等大模型交談,使用提示詞語來設定具體目標,讓人工智能系統協助我們完成研究或教學工作中的某一項或幾項任務;然後,語言學家自主地結束工作。
2)副駕駛(copilot)模式,即語言學家跟ChatGPT等大模型形成夥伴關係,共同參與到研究工作的流程中,從提出研究計畫、收集相關例句、總結有關規律,到編撰論文提綱、寫作論文的有關段落,都是人機協同,並且讓人機各自發揮自己的作用。
3)智慧體(agent)模式,即語言學家提供目標和必要的資源(比如,特定的文獻和語料、比較明確的觀點、結論或立場評價上傾向性),讓ChatGPT等大模型獨立完成某項任務(比如,寫作某種科普性的通俗文章),由語言學家監督進程和評估最終結果。
在一次採訪中,著名語言學家、哲學家喬姆斯基對ChatGPT的興起以及它對教育的影響發表觀點,他表示,ChatGPT是一種高科技的剽竊方式,對教育毫無益處,只能成為學生們逃避學習的“幫手”。但是,技術本身並不具有道德性,它的應用是否正確、合法、道德取決於使用者。
對於ChatGPT,我們需要以一種負責任的方式應用它,確保它在創造價值和促進人類進步方面發揮正面的作用,或許袁毓林教授對以上問題的解答給我們提供了一種新的思考方式。
文章來源 │ 本文內容來源於2024年7月《現代外語》第47卷第4期《ChatGPT語境下語言學的挑戰和出路》一文,並徵得作者同意在本公眾號轉發。