澳大-南師語料庫與數字人文暑期學院特約報道之二

文摘   2024-08-16 00:00   中国澳门  

暑期學院特約報道之二

2024

8月11日至13日,澳大-南師語料庫與數字人文暑期學院繼續推出精彩紛呈的講座。講座內容涉及語言智能與人文研究、民族語言文字識別、搭配自動抽取與可視化分析等多個方面,從不同角度展示了語料庫與數字人文研究的前沿議題,為線上和線下的師生獻上一場場學術盛宴。


8月11日,北京師範大學胡韌奮副教授以“淺探語言智能技術驅動的人文研究”為主題開展講座。胡老師的講座將操作方法與應用案例相結合,包括語言智能研究的原理、指標設計、應用案例等豐富內容。胡老師介紹的研究成果涉及語言智能技術在語言研究、語言教學、古籍整理等領域的應用,引發了參與者的廣泛興趣。此外,胡老師著重介紹了北京師範大學科研團隊設計、構建的古漢語大模型——AI太炎。

胡老師的講座點燃了線下會場參與者的熱情,大家圍繞講座內容展開熱烈討論,共同分享對數字人文應用的觀點。澳門大學人文學院院長徐杰教授與華中師範大學沈威副教授分別進行了精彩點評。 

徐杰教授認為,生成式人工智能有助於扭轉一直以來人們將經過大量省略的先秦書面語視作當時完整語言的認知誤區。沈威副教授建議,針對古漢語的AI可以考慮RAG技術和微調綜合進行。在場同學學以致用,現場操作測試AI太炎的文白對譯能力。經過現場實踐,有的同學對進一步調整大語言模型的方向提出建議,有的同學興奮地表示,AI太炎為其研究方向提供了無限啟發和有效助力。本次講座也吸引了近300位觀眾在線觀看。


8月12日,中國社會科學院民族學與人類研究所龍從軍研究員圍繞“民族語言OCR文字識別最新進展與應用”這一主題開展講座。本次講座介紹了民族語言文字現階段識別現狀及問題,展示了相關的研究實踐和數字化應用手段,深入淺出地介紹了大語言模型的構建原理,鼓勵人文社科領域的研究者進一步關注古籍數字化處理、保護、利用等方面的工作,以此提高民族文字識別對多學科研究的價值。

南京師範大學李斌教授、澳門大學劉鴻勇副教授、孫曉雪老師先後發言討論
他們表示,民族語言文字數字化研究對我國各民族語言、文化、社會生活等方面的研究非常有意義,而且對龍老師在當前民族語言開發困難的現實中依舊能夠堅持數年如一日的探究與整理,並建立龐大的檢索系統的工作態度表示敬佩。現場學員就西夏文的OCR技術開發現狀與龍研究員進行了互動,並現場學習操作了龍老師介紹的文字處理系統。


13日,華中科技大學唐旭日教授的講座圍繞“弗思搭配計算及其可視化”這一主題展開。唐教授指出,搭配是一種“神祕”的語言現象,是語料庫語言學、計算語言學領域的重要組成部分。搭配能力與語言能力的關係、搭配能力的獲得機制等問題都亟待研究。講座分析了現有搭配工具的局限性,並在此基礎上提出了新的搭配網絡的可視化方式,向大家介紹了基於PERS_UM搭配模型提出的搭配自動抽取及可視化方法的理論基礎和具體應用案例,展示了該方法在自然語言處理工具還不成熟的語言或子語言類型中的應用價值。
唐旭日教授的講座引起了與會者的濃厚興趣。澳門大學人文學院院長徐杰教授、南京師範大學李斌教授、中國人民大學盧達威老師、華中師範大學沈威副教授、澳門大學王銘宇副教授紛紛就搭配模型的實際使用分享了自己的看法與見解。

線上、線下學員反響熱烈,與唐教授積極互動近一小時,唐教授耐心細緻地解答大家的問題,現場掌聲雷動。


暑期學院第二日到第四日的三天講座充分展現了數字人文交叉學科前沿領域的豐碩成果,每晚同步進行的實踐操作課程則手把手帶領學員們體驗語料庫和檢索系統從零開始的建設過程。11日至13日晚,南京師範大學李斌與常博林二位老師采用線上線下相結合的方式,基於古代詩歌數據,耐心細緻地講授了“數據表的構建”“數據庫的查詢”“PHP程序設計”三次課程,指導學員結合個人的研究興趣,基於自己的科研項目熟悉MySQL的進階操作,逐步構建自己的數據庫並能按需進行檢索、利用PHP生成網頁等實踐。

暑期學院自開課以來,學員們認真參與,積極思考。在前幾天的講座與實踐課程上,學員們在思想與智慧的碰撞中逐漸了解數字人文研究的前沿動態,並開始掌握初步的實踐技術。大家紛紛表示過往幾天的學習收獲滿滿,期待后续几日的课程精彩繼續!


 

镜海语言学
澳门大学语言学研究中心官方公众号
 最新文章