澳大-南師 語料庫與數字人文暑期學院

文摘   2024-08-08 15:50   中国澳门  


隨著大數據和人工智能技術的發展,語言學、歷史、文學等人文研究都越來越多地引入了計算技術。人文學科與計算技術的交叉研究,關鍵在於人文大數據的構建。為推動計算語言學與數字人文的學科建設與人才培養,澳門大學人文學院和南京師範大學文學院協作,將於2024810-18日在澳門大學人文學院,通過線上線下結合的形式舉辦語料庫與數字人文暑期學院,包括講習班和講座交流兩大部分。

時間

開幕式(8.10周六):14:30開始

810日起,每日15:00-17:0019:00-21:00(詳見課程表)

閉幕式(8.18周日):20:30開始

上課地點

線下澳門大學人文學院

講座直播:

http://live.bilibili.com/1728480216

講座一:如何測試ChatGPT的語義理解與常識推理水平 

01


主講嘉賓澳門大學 袁毓林教授

袁毓林,原北京大學中文系教授,博士生導師,現為澳門大學人文學院中國語言文學系講座教授。主要研究理論語言學和漢語語言學。在《中國社會科學》《中國語文》《當代語言學》和《中文信息學報》等刊物發表論文100餘篇,出版《語言的認知研究和計算分析》等10餘部著作。多次獲得教育部“高校科學研究優秀成果獎”。入選教育部長江學者特聘教授,國家“萬人計劃”哲學社會科學領軍人才。


摘要:ChatGPT 等大語言模型在語義理解和常識推理方面表現優秀,其技術奧秘在於模型開發者在對詞語進行向量表示時,遵循分佈式語義學原理,採用了“嵌入”這種代數方法。但是,經典的測試語言運用等智能水平的“圖靈測試”,難以識別欺騙迴避等作弊手段,因此,計算機科學家設計了“新圖靈測試”,其中的威諾格拉德模式挑戰與語言學關係密切。這一模式以代詞消歧為測試點設計句子對和問題,但是經過大規模語料訓練的語言模型可以憑藉詞彙上的統計相關性,而不是靠真正理解句子的意義來給出正確答案。為克服這一缺陷,學者們又發展出WinoGrande數據集,提高了數據的規模和難度,確保它們無法通過網絡搜索等手段來得到正確答案。我們用威諾格拉德模式設計了無偏向雙重句子對測試 ChatGPT,展示了大語言模型在語義理解和常識推理方面已達到接近人類的水平。當然,從具身模擬假説來看,大語言模型不可能像人一樣富有體驗性地理解人類自然語言。最後,我們呼籲:語言學家應該積極參與構建WinoGrade測試集之類的工作,在人工智能時代擴展自身的學術研究領域。

講座二淺探語言智能技術驅動的人文研究

02


主講嘉賓:北京師範大學 胡韌奮副教授

胡韌奮,博士,研究方向為計算語言學、計算機輔助語言教學、古漢語信息處理,北京師範大學國際中文教育學院數字人文系副教授、碩士生導師,中文信息學會青工委成員,主持國家社科基金青年項目、國家自科基金青年項目等多項課題,在國內外高水平刊物和計算機領域頂會發表學術論文40餘篇,獲國家發明專利授權5項, 作為主持人或核心成員構建了中文詞向量資源庫、CCA中文搭配助手、古詩文斷句標點系統、“AI太炎”古漢語大語言模型等資源和應用。


摘要:語言智能技術的發展為數字人文研究帶來了重要的挑戰和機遇。以大語言模型為代表的智能技術並未借助形式化的語言學知識,卻從數據中學習到強大的語言理解與生成能力,這一現象不僅引發了學界爭議,也啟示我們思考:語言智能技術如何為語言學及其他人文學科研究提供幫助和支持?後者又如何賦能語言智能技術的發展?本次報告擬結合語言智能技術在語言研究、語言教學、古籍整理等領域的應用實踐,對上述問題展開初步探討。

講座三OCR文字識別最新進展與應用

03


主講嘉賓中國社會科學院民族學與人類研究所 龍從軍研究員

龍從軍,中國社會科學院民族學與人類學研究所民族語言文化行為實驗室研究員,主要研究方向為藏語計算語言學和語料庫語言學。已發表學術專著3部(含合著),編著1部,發表研究論文50余篇,研製了100萬詞級的藏文分詞、詞性標註語料庫,10萬詞級的藏文樹庫,並設計開發了系列配套藏文信息處理工具。近期在藏文、彜文的OCR領域取得諸多重要研究進展。


摘要我國有140多種語言,有20多種傳統民族文字,許多民族文字都有比較豐富的存世文獻。民族文字識別是語言文字信息化的基礎。本講座將介紹民族文字識別研究的基本概況,目前存在的問題、部分民族文字識別訓練語料的製作、訓練模型的選用以及識別效果的情況,並討論民族文字識別對多學科研究的價值。

講座四搭配自動抽取與可視化分析 

04

主講嘉賓華中科技大學 唐旭日教授

唐旭日,博士,華中科技大學教授,中國中文信息學會自然語言生成與智能寫作專委會委員,中國英漢語比較研究會外語教育技術專業委員會常務理事,中國人工智能學會會員,現任華中科技大學外國語學院語言研究中心主任,《信息技術與語言服務》省級一流課程負責人。研究方向為計算語言學,研究領域涉及語義演變計算、計算機輔助翻譯、數據驅動話語分析、搭配計算以及隱喻計算等,主持2項國家社科基金,並作為主要成員參與多項國家社科基金、國家自然科學基金以及國家863高新技術等國家級課題。在International Journal of Corpus Linguistics, Natural Language Engineering, World Wide Web,Review of Cognitive Linguistics,《武漢大學學報(信息科學版)》《中文信息學報》《當代語言學》、COLING、 CCL等權威刊物和會議發表論文30多篇,出版專著1部,教材2部,申請發明專利2項。


摘要:搭配是一種語言現象,基於詞語搭配可以初步獲取詞語的句法模式、語義韻、語義選擇限制,進而為文體分析、話題分析、話語分析等提供量化證據,是故搭配在二語習得、話語分析、文體分析等應用語言學領域中廣泛研究和運用。搭配工具的開發和應用在計算語言學(自然語言處理)和語料庫語言學領域備受關注。講座分析了現有搭配工具如AntConc、WordSmith等存在的侷限性以及新提出的搭配網絡的可視化方式問題,介紹基於PERS_UM搭配模型提出的搭配自動抽取及可視化方法的理論基礎和具體應用案例。該方法以Firthian搭配理論為基礎,給出全新的搭配形式化定義,並籍此開發了一系列計算工具,包括搭配可視化、語義抽象和相似度計算等,以支持基於Firthian搭配開展直觀、多維和全面的語言比較分析,支持多種研究場景下的語言對比研究。講座以近義詞辨析和二語習得者搭配能力的量化分析為例,詳細説明該工具的Python代碼實現、語料庫導入、數據分析方法、基於數據驅動的理論構建等,展示該方法在詞性標註、句法分析等自然語言處理工具還不成熟的語言或子語言類型中的應用價值。

講座五正則表達式的語料庫應用

05


主講嘉賓中國人民大學 盧達威博士

盧達威,博士,中國人民大學文學院教師,碩士生導師,中國人民大學吳玉章青年學者,澳門大學訪問學者,中國中文信息青年工作委員會委員。研究方向為計算語言學,主要方向包括漢語小句複合體研究、語言資源建設等。在《中國社會科學》《中文信息學報》《語言教學與研究》等重要期刊發表論文10餘篇,主持國家社科基金、教育部人文社科基金、國家語委重點項目、中國博士後科學基金等省部級以上項目4項,出版專著1部。


摘要
:語料庫是語言學研究的重要手段。正則表達式作為一種重要的文本匹配工具,能夠提供精準的語料庫檢索功能。借助文本編輯器的正則表達式功能,還可以協助完成語料整理工作,有助於構建文本語料庫。同時,利用正則表達式,還能為語料標註提供幫助。講座首先介紹正則表達式的基本的概念、原理和匹配規則,進而以Emeditor為例,介紹正則表達式在語料庫檢索、構建、標註方面的應用,為初學者提供有用的語料庫工具。

講座六語言研究中的統計方法

06


主講嘉賓華中師範大學 沈威副教授

沈威,男,1982年生,華中師範大學語言與語言教育研究中心副教授,博士,碩士生導師。新加坡華文教研中心研究項目外審專家,澳門大學訪問學者。研究方向為:中文信息處理、現代漢語語法。已主持、參與各級各類項目15項,出版獨著1部,合著1部,在《中國社會科學報》《漢語學報》《語言研究》《澳門語言學刊》《中文信息學報》《語文建設》等刊物上發表論文40餘篇。主持並研發了“當代小説語料庫”“漢語複句語料庫”“漢語中介語動態語料庫”和“我國中小學生寫作能力評價與教學策略研究數據庫”等。


摘要本講座旨在提升學員對統計方法的理解與應用能力。講座從4個方面展開(1)語言研究中統計思維的重要性。語言研究中擁有統計思維可以避免研究偏見並提高研究質量,強調正確的數據解讀對理解語言現象的重要性。(2)語言研究中缺乏統計學知識導致錯誤的案例展示。通過實際案例深入剖析倖存者偏差、數據挖掘不當等導致錯誤發生的原因。強調統計學知識對於研究設計和結果解釋的重要性。(3)語言研究中常見統計方法的案例展示。詳細介紹t檢驗、非參數檢驗、卡方檢驗、相關性分析、聚類分析等多種統計方法。通過案例説明每種方法的適用場景及其效果。展示如何運用這些統計方法揭示語言現象背後的規律。(4)常見統計方法的實際操作。使用流行的統計軟件SPSS進行實操演示。介紹如何根據不同的數據類型和研究目標選擇合適的統計方法。

講座七荀子古籍多模態大語言模型的開發與應用 

07


主講嘉賓南京農業大學 王東波教授

王東波,南京農業大學信息管理學院教授、博士生導師。主要從事古籍智能信息處理、科技文本知識挖掘研究。主持國家社科基金重大項目、國家自然科學基金面上、青年、國家社科基金特別委托項目及其他省部級項目共計12項。發表SCI、SSCl、EI、CSSCI檢索論文120篇。先後獲得江蘇省哲學社會科學優秀成果一等、二等和三等獎四次,高等學校科學研究優秀成果獎(人文社會科學)二等獎和三等獎各一次。先後入選江蘇省社科優青、江蘇省第六期“333工程”第二層次培養對象和江蘇高校“青藍工程”中青年學術帶頭人等人才項目。


摘要:《古籍多模態大語言模型的開發與應用》利用深度學習技術構建一種能理解和生成與古代文獻相關的多種類型數據(如文本、圖像和手稿掃描等)的大型語言模型。本研究以古籍文獻為例,從數據準備到模型開發,再到教育、文化傳承等領域的應用探索。最後,將討論這項研究對未來古籍數字化乃至整個人工智能領域可能帶來的影響。

講習班

08

時間810日起,每晚19:00-21:00

地點騰訊會議,僅供錄取學員講習班課程將以開源免費軟件“MySQL數據庫+PHP編程語言”為主要平台,以開源的全唐詩、北大人民日報語料庫等數據為例,介紹語料庫的構建方法、字符集編碼以及計量分析方法。

主講李斌 常博林


主講人介紹:李斌,南京師範大學文學院教授。主要從事計算語言學和數字人文方向的交叉學科研究,包括詞法分析、認知語義計算、語料庫、語言知識庫、語法理論、歷史人文計算與數據庫構建方面。擔任中國中文信息學會計算語言學專委會和青年工作委員會委員、中國人工智能學會語言智能專委會委員、江蘇省人工智能學會自然語言處理專委會委員、中國圖象圖形學學會可視化與可視分析專委會委員、中國古籍保護協會古籍智能開發與利用專委會秘書長、中國民族語言學會語言資源與計算人文專委會副主任委員。出版專著三部,在國內外期刊和重要會議上發表論文六十多篇。


助教(南師團隊)韓曉曉 茅一萱 王樂致 盧芃秀 謝鋒

助教(澳大團隊):王瀚元 楊宇軒 楊梓泓 李昌洲


第一講:課程簡介與軟件安裝 

第二講:數據表的構建 

第三講:數據庫的查詢 

第四講:PHP程序設計 

第五講:字符編碼 

第六講:字符串處理 

第七講:交互式網站搭建 

第八講:課程彙報


課程表




 

時間

 

 

講座

15:00-17:00

 

 

講習班

19:00-21:00

 

 

星期六

8.10

 

 

開幕式14:30開始)

袁毓林

如何測試ChatGPT的語義理解與常識推理水平

 

 

第一講

課程簡介與軟件安裝

 

 

星期日

8.11

 

 

胡韌奮

淺探語言智能技術驅動的人文研究

 

 

第二講

數據表的構建

 

 

星期一

8.12

 

 

龍從軍

民族語言OCR文字識別最新進展與應用

 

 

第三講

數據庫的查詢 

 

 

星期二

8.13

 

 

唐旭日

搭配自動抽取與可視化分析

 

 

第四講

PHP程序設計

 

 

星期三

8.14

 

 

盧達威

正則表達式的語料庫應用

 

 

第五講

字符編碼

 

 

星期四

8.15

 

 

沈威

語言研究中的統計方法

 

 

第六講

字符串處理

 

 

星期五

8.16

 

 

王東波

荀子古籍多模態大語言模型的開發與應用

 

 

第七講

交互式網站搭建

 

 

星期日

8.18

 

第八講

課程彙報

 

第八講

課程彙報

閉幕式(20:30開始)

 

澳大FAH
澳大FAH
 最新文章