隨著大數據和人工智能技術的發展,語言學、歷史、文學等人文研究都越來越多地引入了計算技術。人文學科與計算技術的交叉研究,關鍵在於人文大數據的構建。為推動計算語言學與數字人文的學科建設與人才培養,澳門大學人文學院和南京師範大學文學院協作,將於2024年8月10日-18日在澳門大學人文學院,通過線上線下結合的形式舉辦語料庫與數字人文暑期學院,包括講習班和講座交流兩大部分。
時間:
開幕式(8.10周六):14:30開始
自8月10日起,每日15:00-17:00和19:00-21:00(詳見課程表)
閉幕式(8.18周日):20:30開始
上課地點:
線下:澳門大學人文學院
講座直播:
http://live.bilibili.com/1728480216講座一:如何測試ChatGPT的語義理解與常識推理水平
01
主講嘉賓:澳門大學 袁毓林教授
袁毓林,原北京大學中文系教授,博士生導師,現為澳門大學人文學院中國語言文學系講座教授。主要研究理論語言學和漢語語言學。在《中國社會科學》、《中國語文》、《當代語言學》和《中文信息學報》等刊物發表論文100餘篇,出版《語言的認知研究和計算分析》等10餘部著作。多次獲得教育部“高校科學研究優秀成果獎”。入選教育部長江學者特聘教授,國家“萬人計劃”哲學社會科學領軍人才。
講座二:淺探語言智能技術驅動的人文研究
02
主講嘉賓:北京師範大學 胡韌奮副教授
胡韌奮,博士,研究方向為計算語言學、計算機輔助語言教學、古漢語信息處理,北京師範大學國際中文教育學院數字人文系副教授、碩士生導師,中文信息學會青工委成員,主持國家社科基金青年項目、國家自科基金青年項目等多項課題,在國內外高水平刊物和計算機領域頂會發表學術論文40餘篇,獲國家發明專利授權5項, 作為主持人或核心成員構建了中文詞向量資源庫、CCA中文搭配助手、古詩文斷句標點系統、“AI太炎”古漢語大語言模型等資源和應用。
摘要:語言智能技術的發展為數字人文研究帶來了重要的挑戰和機遇。以大語言模型為代表的智能技術並未借助形式化的語言學知識,卻從數據中學習到強大的語言理解與生成能力,這一現象不僅引發了學界爭議,也啟示我們思考:語言智能技術如何為語言學及其他人文學科研究提供幫助和支持?後者又如何賦能語言智能技術的發展?本次報告擬結合語言智能技術在語言研究、語言教學、古籍整理等領域的應用實踐,對上述問題展開初步探討。
講座三:民族語言OCR文字識別最新進展與應用
03
主講嘉賓:中國社會科學院民族學與人類研究所 龍從軍研究員
龍從軍,中國社會科學院民族學與人類學研究所民族語言文化行為實驗室研究員,主要研究方向為藏語計算語言學和語料庫語言學。已發表學術專著3部(含合著),編著1部,發表研究論文50余篇,研製了100萬詞級的藏文分詞、詞性標註語料庫,10萬詞級的藏文樹庫,並設計開發了系列配套藏文信息處理工具。近期在藏文、彜文的OCR領域取得諸多重要研究進展。
講座四:搭配自動抽取與可視化分析
04
主講嘉賓:華中科技大學 唐旭日教授
唐旭日,博士,華中科技大學教授,中國中文信息學會自然語言生成與智能寫作專委會委員,中國英漢語比較研究會外語教育技術專業委員會常務理事,中國人工智能學會會員,現任華中科技大學外國語學院語言研究中心主任,《信息技術與語言服務》省級一流課程負責人。研究方向為計算語言學,研究領域涉及語義演變計算、計算機輔助翻譯、數據驅動話語分析、搭配計算以及隱喻計算等,主持2項國家社科基金,並作為主要成員參與多項國家社科基金、國家自然科學基金以及國家863高新技術等國家級課題。在International Journal of Corpus Linguistics, Natural Language Engineering, World Wide Web,Review of Cognitive Linguistics,《武漢大學學報(信息科學版)》、《中文信息學報》、《當代語言學》、COLING、 CCL等權威刊物和會議發表論文30多篇,出版專著1部,教材2部,申請發明專利2項。
摘要:搭配是一種語言現象,基於詞語搭配可以初步獲取詞語的句法模式、語義韻、語義選擇限制,進而為文體分析、話題分析、話語分析等提供量化證據,是故搭配在二語習得、話語分析、文體分析等應用語言學領域中廣泛研究和運用。搭配工具的開發和應用在計算語言學(自然語言處理)和語料庫語言學領域備受關注。講座分析了現有搭配工具如AntConc、WordSmith等存在的侷限性以及新提出的搭配網絡的可視化方式問題,介紹基於PERS_UM搭配模型提出的搭配自動抽取及可視化方法的理論基礎和具體應用案例。該方法以Firthian搭配理論為基礎,給出全新的搭配形式化定義,並籍此開發了一系列計算工具,包括搭配可視化、語義抽象和相似度計算等,以支持基於Firthian搭配開展直觀、多維和全面的語言比較分析,支持多種研究場景下的語言對比研究。講座以近義詞辨析和二語習得者搭配能力的量化分析為例,詳細説明該工具的Python代碼實現、語料庫導入、數據分析方法、基於數據驅動的理論構建等,展示該方法在詞性標註、句法分析等自然語言處理工具還不成熟的語言或子語言類型中的應用價值。
講座五:正則表達式的語料庫應用
05
主講嘉賓:中國人民大學 盧達威博士
盧達威,博士,中國人民大學文學院教師,碩士生導師,中國人民大學吳玉章青年學者,澳門大學訪問學者,中國中文信息青年工作委員會委員。研究方向為計算語言學,主要方向包括漢語小句複合體研究、語言資源建設等。在《中國社會科學》、《中文信息學報》、《語言教學與研究》等重要期刊發表論文10餘篇,主持國家社科基金、教育部人文社科基金、國家語委重點項目、中國博士後科學基金等省部級以上項目4項,出版專著1部。
講座六:語言研究中的統計方法
06
主講嘉賓:華中師範大學 沈威副教授
講座七:荀子古籍多模態大語言模型的開發與應用
07
主講嘉賓:南京農業大學 王東波教授
王東波,南京農業大學信息管理學院教授、博士生導師。主要從事古籍智能信息處理、科技文本知識挖掘研究。主持國家社科基金重大項目、國家自然科學基金面上、青年、國家社科基金特別委托項目及其他省部級項目共計12項。發表SCI、SSCl、EI、CSSCI檢索論文120篇。先後獲得江蘇省哲學社會科學優秀成果一等、二等和三等獎四次,高等學校科學研究優秀成果獎(人文社會科學)二等獎和三等獎各一次。先後入選江蘇省社科優青、江蘇省第六期“333工程”第二層次培養對象和江蘇高校“青藍工程”中青年學術帶頭人等人才項目。
講習班
08
時間:自8月10日起,每晚19:00-21:00
地點:騰訊會議,僅供錄取學員講習班課程將以開源免費軟件“MySQL數據庫+PHP編程語言”為主要平台,以開源的全唐詩、北大人民日報語料庫等數據為例,介紹語料庫的構建方法、字符集編碼以及計量分析方法。
主講:李斌 常博林
主講人介紹:李斌,南京師範大學文學院教授。主要從事計算語言學和數字人文方向的交叉學科研究,包括詞法分析、認知語義計算、語料庫、語言知識庫、語法理論、歷史人文計算與數據庫構建方面。擔任中國中文信息學會計算語言學專委會和青年工作委員會委員、中國人工智能學會語言智能專委會委員、江蘇省人工智能學會自然語言處理專委會委員、中國圖象圖形學學會可視化與可視分析專委會委員、中國古籍保護協會古籍智能開發與利用專委會秘書長、中國民族語言學會語言資源與計算人文專委會副主任委員。出版專著三部,在國內外期刊和重要會議上發表論文六十多篇。
助教(南師團隊):韓曉曉 茅一萱 王樂致 盧芃秀 謝鋒
助教(澳大團隊):王瀚元 楊宇軒 楊梓泓 李昌洲
第一講:課程簡介與軟件安裝
第二講:數據表的構建
第三講:數據庫的查詢
第四講:PHP程序設計
第五講:字符編碼
第六講:字符串處理
第七講:交互式網站搭建
第八講:課程彙報
課程表:
時間
|
講座 15:00-17:00
|
講習班 19:00-21:00
|
星期六 8.10
|
開幕式(14:30開始) 袁毓林 如何測試ChatGPT的語義理解與常識推理水平
|
第一講 課程簡介與軟件安裝
|
星期日 8.11
|
胡韌奮 淺探語言智能技術驅動的人文研究
|
第二講 數據表的構建
|
星期一 8.12
|
龍從軍 民族語言OCR文字識別最新進展與應用
|
第三講 數據庫的查詢
|
星期二 8.13
|
唐旭日 搭配自動抽取與可視化分析
|
第四講 PHP程序設計
|
星期三 8.14
|
盧達威 正則表達式的語料庫應用
|
第五講 字符編碼
|
星期四 8.15
|
沈威 語言研究中的統計方法
|
第六講 字符串處理
|
星期五 8.16
|
王東波 荀子古籍多模態大語言模型的開發與應用
|
第七講 交互式網站搭建
|
星期日 8.18
| 第八講 課程彙報 |
第八講 課程彙報 閉幕式(20:30開始)
|