澳大-南師語料庫與數字人文暑期學院

文摘 2024-08-08 15:50 中国澳门

隨著大數據和人工智能技術的發展，語言學、歷史、文學等人文研究都越來越多地引入了計算技術。人文學科與計算技術的交叉研究，關鍵在於人文大數據的構建。為推動計算語言學與數字人文的學科建設與人才培養，澳門大學人文學院和南京師範大學文學院協作，將於2024年8月10日-18日在澳門大學人文學院，通過線上線下結合的形式舉辦語料庫與數字人文暑期學院，包括講習班和講座交流兩大部分。

時間：

開幕式（8.10周六）：14:30開始

自8月10日起，每日15:00-17:00和19:00-21:00（詳見課程表）

閉幕式（8.18周日）：20:30開始

上課地點：

線下：澳門大學人文學院

講座直播：

http://live.bilibili.com/1728480216

講座一：如何測試ChatGPT的語義理解與常識推理水平

主講嘉賓：澳門大學袁毓林教授

袁毓林，原北京大學中文系教授，博士生導師，現為澳門大學人文學院中國語言文學系講座教授。主要研究理論語言學和漢語語言學。在《中國社會科學》、《中國語文》、《當代語言學》和《中文信息學報》等刊物發表論文100餘篇，出版《語言的認知研究和計算分析》等10餘部著作。多次獲得教育部“高校科學研究優秀成果獎”。入選教育部長江學者特聘教授，國家“萬人計劃”哲學社會科學領軍人才。

摘要：ChatGPT 等大語言模型在語義理解和常識推理方面表現優秀，其技術奧秘在於模型開發者在對詞語進行向量表示時，遵循分佈式語義學原理，採用了“嵌入”這種代數方法。但是，經典的測試語言運用等智能水平的“圖靈測試”，難以識別欺騙迴避等作弊手段，因此，計算機科學家設計了“新圖靈測試”，其中的威諾格拉德模式挑戰與語言學關係密切。這一模式以代詞消歧為測試點設計句子對和問題，但是經過大規模語料訓練的語言模型可以憑藉詞彙上的統計相關性，而不是靠真正理解句子的意義來給出正確答案。為克服這一缺陷，學者們又發展出WinoGrande數據集，提高了數據的規模和難度，確保它們無法通過網絡搜索等手段來得到正確答案。我們用威諾格拉德模式設計了無偏向雙重句子對測試 ChatGPT，展示了大語言模型在語義理解和常識推理方面已達到接近人類的水平。當然，從具身模擬假説來看，大語言模型不可能像人一樣富有體驗性地理解人類自然語言。最後，我們呼籲：語言學家應該積極參與構建WinoGrade測試集之類的工作，在人工智能時代擴展自身的學術研究領域。

講座二：淺探語言智能技術驅動的人文研究

主講嘉賓：北京師範大學胡韌奮副教授

胡韌奮，博士，研究方向為計算語言學、計算機輔助語言教學、古漢語信息處理，北京師範大學國際中文教育學院數字人文系副教授、碩士生導師，中文信息學會青工委成員，主持國家社科基金青年項目、國家自科基金青年項目等多項課題，在國內外高水平刊物和計算機領域頂會發表學術論文40餘篇，獲國家發明專利授權5項，作為主持人或核心成員構建了中文詞向量資源庫、CCA中文搭配助手、古詩文斷句標點系統、“AI太炎”古漢語大語言模型等資源和應用。

摘要：語言智能技術的發展為數字人文研究帶來了重要的挑戰和機遇。以大語言模型為代表的智能技術並未借助形式化的語言學知識，卻從數據中學習到強大的語言理解與生成能力，這一現象不僅引發了學界爭議，也啟示我們思考：語言智能技術如何為語言學及其他人文學科研究提供幫助和支持？後者又如何賦能語言智能技術的發展？本次報告擬結合語言智能技術在語言研究、語言教學、古籍整理等領域的應用實踐，對上述問題展開初步探討。

講座三：民族語言OCR文字識別最新進展與應用

主講嘉賓：中國社會科學院民族學與人類研究所龍從軍研究員

龍從軍，中國社會科學院民族學與人類學研究所民族語言文化行為實驗室研究員，主要研究方向為藏語計算語言學和語料庫語言學。已發表學術專著3部（含合著），編著1部，發表研究論文50余篇，研製了100萬詞級的藏文分詞、詞性標註語料庫，10萬詞級的藏文樹庫，並設計開發了系列配套藏文信息處理工具。近期在藏文、彜文的OCR領域取得諸多重要研究進展。

摘要：我國有140多種語言，有20多種傳統民族文字，許多民族文字都有比較豐富的存世文獻。民族文字識別是語言文字信息化的基礎。本講座將介紹民族文字識別研究的基本概況，目前存在的問題、部分民族文字識別訓練語料的製作、訓練模型的選用以及識別效果的情況，並討論民族文字識別對多學科研究的價值。

講座四：搭配自動抽取與可視化分析

主講嘉賓：華中科技大學唐旭日教授

唐旭日，博士，華中科技大學教授，中國中文信息學會自然語言生成與智能寫作專委會委員，中國英漢語比較研究會外語教育技術專業委員會常務理事，中國人工智能學會會員，現任華中科技大學外國語學院語言研究中心主任，《信息技術與語言服務》省級一流課程負責人。研究方向為計算語言學，研究領域涉及語義演變計算、計算機輔助翻譯、數據驅動話語分析、搭配計算以及隱喻計算等，主持2項國家社科基金，並作為主要成員參與多項國家社科基金、國家自然科學基金以及國家863高新技術等國家級課題。在International Journal of Corpus Linguistics， Natural Language Engineering， World Wide Web，Review of Cognitive Linguistics，《武漢大學學報（信息科學版）》、《中文信息學報》、《當代語言學》、COLING、 CCL等權威刊物和會議發表論文30多篇，出版專著1部，教材2部，申請發明專利2項。

摘要：搭配是一種語言現象，基於詞語搭配可以初步獲取詞語的句法模式、語義韻、語義選擇限制，進而為文體分析、話題分析、話語分析等提供量化證據，是故搭配在二語習得、話語分析、文體分析等應用語言學領域中廣泛研究和運用。搭配工具的開發和應用在計算語言學（自然語言處理）和語料庫語言學領域備受關注。講座分析了現有搭配工具如AntConc、WordSmith等存在的侷限性以及新提出的搭配網絡的可視化方式問題，介紹基於PERS_UM搭配模型提出的搭配自動抽取及可視化方法的理論基礎和具體應用案例。該方法以Firthian搭配理論為基礎，給出全新的搭配形式化定義，並籍此開發了一系列計算工具，包括搭配可視化、語義抽象和相似度計算等，以支持基於Firthian搭配開展直觀、多維和全面的語言比較分析，支持多種研究場景下的語言對比研究。講座以近義詞辨析和二語習得者搭配能力的量化分析為例，詳細説明該工具的Python代碼實現、語料庫導入、數據分析方法、基於數據驅動的理論構建等，展示該方法在詞性標註、句法分析等自然語言處理工具還不成熟的語言或子語言類型中的應用價值。

講座五：正則表達式的語料庫應用

主講嘉賓：中國人民大學盧達威博士

盧達威，博士，中國人民大學文學院教師，碩士生導師，中國人民大學吳玉章青年學者，澳門大學訪問學者，中國中文信息青年工作委員會委員。研究方向為計算語言學，主要方向包括漢語小句複合體研究、語言資源建設等。在《中國社會科學》、《中文信息學報》、《語言教學與研究》等重要期刊發表論文10餘篇，主持國家社科基金、教育部人文社科基金、國家語委重點項目、中國博士後科學基金等省部級以上項目4項，出版專著1部。

摘要：語料庫是語言學研究的重要手段。正則表達式作為一種重要的文本匹配工具，能夠提供精準的語料庫檢索功能。借助文本編輯器的正則表達式功能，還可以協助完成語料整理工作，有助於構建文本語料庫。同時，利用正則表達式，還能為語料標註提供幫助。講座首先介紹正則表達式的基本的概念、原理和匹配規則，進而以Emeditor為例，介紹正則表達式在語料庫檢索、構建、標註方面的應用，為初學者提供有用的語料庫工具。

講座六：語言研究中的統計方法

主講嘉賓：華中師範大學沈威副教授

沈威，男，1982年生，華中師範大學語言與語言教育研究中心副教授，博士，碩士生導師。新加坡華文教研中心研究項目外審專家，澳門大學訪問學者。研究方向為：中文信息處理、現代漢語語法。已主持、參與各級各類項目15項，出版獨著1部，合著1部，在《中國社會科學報》、《漢語學報》、《語言研究》、《澳門語言學刊》、《中文信息學報》、《語文建設》等刊物上發表論文40餘篇。主持並研發了“當代小説語料庫”、“漢語複句語料庫”、“漢語中介語動態語料庫”和“我國中小學生寫作能力評價與教學策略研究數據庫”等。

摘要：本講座旨在提升學員對統計方法的理解與應用能力。講座從4個方面展開：（1）語言研究中統計思維的重要性。語言研究中擁有統計思維可以避免研究偏見並提高研究質量，強調正確的數據解讀對理解語言現象的重要性。（2）語言研究中缺乏統計學知識導致錯誤的案例展示。通過實際案例深入剖析倖存者偏差、數據挖掘不當等導致錯誤發生的原因。強調統計學知識對於研究設計和結果解釋的重要性。（3）語言研究中常見統計方法的案例展示。詳細介紹t檢驗、非參數檢驗、卡方檢驗、相關性分析、聚類分析等多種統計方法。通過案例説明每種方法的適用場景及其效果。展示如何運用這些統計方法揭示語言現象背後的規律。（4）常見統計方法的實際操作。使用流行的統計軟件SPSS進行實操演示。介紹如何根據不同的數據類型和研究目標選擇合適的統計方法。

講座七：荀子古籍多模態大語言模型的開發與應用

主講嘉賓：南京農業大學王東波教授

王東波，南京農業大學信息管理學院教授、博士生導師。主要從事古籍智能信息處理、科技文本知識挖掘研究。主持國家社科基金重大項目、國家自然科學基金面上、青年、國家社科基金特別委托項目及其他省部級項目共計12項。發表SCI、SSCl、EI、CSSCI檢索論文120篇。先後獲得江蘇省哲學社會科學優秀成果一等、二等和三等獎四次，高等學校科學研究優秀成果獎（人文社會科學）二等獎和三等獎各一次。先後入選江蘇省社科優青、江蘇省第六期“333工程”第二層次培養對象和江蘇高校“青藍工程”中青年學術帶頭人等人才項目。

摘要：《古籍多模態大語言模型的開發與應用》利用深度學習技術構建一種能理解和生成與古代文獻相關的多種類型數據（如文本、圖像和手稿掃描等）的大型語言模型。本研究以古籍文獻為例，從數據準備到模型開發，再到教育、文化傳承等領域的應用探索。最後，將討論這項研究對未來古籍數字化乃至整個人工智能領域可能帶來的影響。

講習班

時間：自8月10日起，每晚19:00-21:00

地點：騰訊會議，僅供錄取學員講習班課程將以開源免費軟件“MySQL數據庫+PHP編程語言”為主要平台，以開源的全唐詩、北大人民日報語料庫等數據為例，介紹語料庫的構建方法、字符集編碼以及計量分析方法。

主講：李斌常博林

主講人介紹：李斌，南京師範大學文學院教授。主要從事計算語言學和數字人文方向的交叉學科研究，包括詞法分析、認知語義計算、語料庫、語言知識庫、語法理論、歷史人文計算與數據庫構建方面。擔任中國中文信息學會計算語言學專委會和青年工作委員會委員、中國人工智能學會語言智能專委會委員、江蘇省人工智能學會自然語言處理專委會委員、中國圖象圖形學學會可視化與可視分析專委會委員、中國古籍保護協會古籍智能開發與利用專委會秘書長、中國民族語言學會語言資源與計算人文專委會副主任委員。出版專著三部，在國內外期刊和重要會議上發表論文六十多篇。

助教（南師團隊）：韓曉曉茅一萱王樂致盧芃秀謝鋒

助教（澳大團隊）：王瀚元楊宇軒楊梓泓李昌洲

第一講：課程簡介與軟件安裝

第二講：數據表的構建

第三講：數據庫的查詢

第四講：PHP程序設計

第五講：字符編碼

第六講：字符串處理

第七講：交互式網站搭建

第八講：課程彙報

課程表：

時間

講座

15:00-17:00

講習班

19:00-21:00

星期六

8.10

開幕式（14:30開始）

袁毓林

如何測試ChatGPT的語義理解與常識推理水平

第一講

課程簡介與軟件安裝

星期日

8.11

胡韌奮

淺探語言智能技術驅動的人文研究

第二講

數據表的構建

星期一

8.12

龍從軍

民族語言OCR文字識別最新進展與應用

第三講

數據庫的查詢

星期二

8.13

唐旭日

搭配自動抽取與可視化分析

第四講

PHP程序設計

星期三

8.14

盧達威

正則表達式的語料庫應用

第五講

字符編碼

星期四

8.15

沈威

語言研究中的統計方法

第六講

字符串處理

星期五

8.16

王東波

荀子古籍多模態大語言模型的開發與應用

第七講

交互式網站搭建

星期日

8.18

第八講

課程彙報

第八講

課程彙報

閉幕式（20:30開始）

http://mp.weixin.qq.com/s?__biz=MzIyNzM3MzkzMw==&mid=2247490390&idx=1&sn=ad06665e43488b48faaca57cef761e7a

澳大FAH

最新文章

“金石同心”蘇港澳篆刻聯展澳大舉行

澳大舉辦第三屆中國文化節

澳大舉辦葡作家瑪麗亞．布拉嘉紀念活動

澳大鏡海人文論壇探討《萬方職貢圖》

【活動預告】鏡海人文論壇：語法化的單向性與轄域 - 日本東北大學 Heiko Narrog教授

人文學院舉辦2025/2026學年本科生「校長推薦入學簡介會」

美國加州大學Thomas Mazanec教授與澳大師生對談佛詩

【活動預告】鏡海人文論壇：想像天下帝國？從（偽）李公麟《萬方職貢圖》說起 - 復旦大學葛兆光教授

人文學院舉行本科迎新歡迎2024/2025學年新生入學

澳大首屆藝術博士及碩士學位課程開課

澳大人文學院學生赴清華大學交流學習

澳大-南師語料庫與數字人文暑期學院

蘇州大學師生到澳大研修澳門歷史文化

澳大葡語暑期課程閉幕展學員成果

澳大中文系師生參加第四届兩岸四校中文學科研究生學術研習營

人文學院接待嘉諾撒聖心英文中學師生參觀團

人文學院舉辦學術講座及交流會與本地中學代表交流

聚焦未來發展與影響力提升 ——中國歷史文化中心2024年學術委員會年會順利召開

世界華文旅遊文學研討會在澳大閉幕

澳大舉辦首屆中醫文化國際論壇

澳大與聖心中學共建中國歷史文化推廣基地

澳大人文學院舉辦 “島嶼批判研究 ” 2024學術會議

澳大葡萄牙語暑期課程接受報名

澳大鏡海人文論壇探討新文化運動

“珠澳朋輩文化對話”主題研學交流活動成功舉行

人文學院英文系博士生獲國際學術獎項和博士論文資助

法國諾曼第繪畫協會創始會長於澳大談印象派誕生

澳大舉辦語言文化日

【活動預告】澳大邀法國諾曼第繪畫協會創始會長談印象派誕生

澳大鏡海人文論壇探討儒家親情哲學

【活動預告】鏡海人文論壇：新文化運動的正面、背面與側面 – 北京大學陳平原教授

澳大舉行豐子愷誕辰125週年展覽

3月27日 | 澳大語言文化日又嚟啦！

文化強澳：澳門師生深入認識中國歷史文化

開拓視野暢談AI - 第四屆澳門人文社科教育論壇成功舉辦

【活動預告】鏡海人文論壇：儒家的親情哲學：一個建立新地緣政治秩序的新想法 – 北京大學人文學專家安樂哲教授

澳大鏡海人文論壇探討亞洲語言語義變化

FAHSA｜“珠澳朋輩文化對話”校際研學交流活動

視覺盛宴！澳大法國印象派畫展揭幕

藝術大師真跡！澳大藝博館周五有新展覽及專題講座

人文學院開放日活動「探索人文之城」成功舉行

澳大與中傳合辦中國高校葡語短視頻大賽

【活動預告】鏡海人文論壇：亞洲語言的語意變化與區域類型學研究 – 法國社會科學高等研究院曹茜蕾教授

1月14日 | 澳大人文學院開放日2024 探索人文之城！

澳門大學舉行第二屆中國文化節主旨項目啟動儀式及第六屆中國文化（澳門）論壇

第一期《足音：人文學院快訊》現已推出！

澳大舉行現代漢語語法國際研討會

澳大新課程 │ 藝術碩士博士課程現正接受報名

人文學院舉辦學術講座及交流會與本地中學代表交流

澳大鏡海人文論壇探索中華傳統文化發展

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

澳大-南師 語料庫與數字人文暑期學院

澳大-南師語料庫與數字人文暑期學院