编者按:浙江大学文学院秉承“文以化人,学通古今”的育人理念,积极构筑师生学术交流平台。为进一步活跃学术氛围,增强学术素养,助力学院教学、科研建设和发展,“浙大文学院”特开辟【文院学览】专栏,及时回顾学术交流、讲座等相关信息,努力为师生打造高层次、高水准的学术交流平台。
2024年12月22日下午,由浙江大学文学院主办、浙江大学敦煌学研究中心承办的“以纸为媒——古代写本研究青年学者工作坊”在成均苑4幢900报告厅顺利举办了第二期。这是浙江大学文学院古典文献学专业教研工作坊系列第四次活动。
本期工作坊的主题是“写本文字的智能辨识”,邀请了浙江大学计算机科学与技术学院张钰清围绕人工智能处理写本文字的技术发展现状作主题演讲,邀请了浙江大学文学院李周渊、杭州师范大学人文学院沈秋之以及浙江师范大学人文学院李义敏围绕佛经写本、敦煌写本和契约文书的文字问题作对谈嘉宾,旨在以学科交叉为视角,围绕利用人工智能提升写本文字识别与归类效率的问题展开讨论。活动吸引了浙江大学校内汉语言文学、古典文献学、中国古代史等专业的老师和本硕博在读同学,以及省外多所高校的文献学相关研究方向的学者同仁前来参与。三十余位老师同学济济一堂,在冬天的寒冷气候里格外显得温暖。
在活动开始之际,召集人窦怀永介绍了本次活动的主题设想。他提出,随着AI技术的发展,传统的文科研究领域迎来了新的研究路径和工具,文科研究者可以顺应“AI+”的时代趋势,探索多学科交叉合作,实现学科优势互补,在技术与问题的博弈中探讨出新思路、新方法;此外,诸如ChatGPT、豆包、Kimi等AI大模型也为文科研究提供了一些新的思路与方法,值得被训练与应用。在当前AI赋能的时代,有着语言文字研究优势的浙大古典文献学专业,与创新成果显著的浙大计算机学科的合作,是新时代背景下学科交叉的良好尝试,也是学术发展的大趋势。
计算机学院张钰清就“古代写本的智能辨识与理解”主题,以“从数据到知识的人工智能”为切入点,向现场观众介绍了视觉技术和大语言模型的基本原理,同时提出依靠AI模型进行文科研究需要运用文科智慧,辅助计算机学科从解决问题的角度将材料转化为数据,以实现更有效的研究。此外,张钰清介绍了AI技术近年来在古代文献领域的实际应用,使在座师生深刻理解AI在文献学研究中的重要价值。最后,张钰清介绍了敦煌学研究中心与计算机学院合作的项目,并以此为例阐述了垂直领域大模型和大小模型协同的优势以及目前亟待解决的问题。
从事古代写本研究的三位青年学者在介绍成果的同时,也从文科视角提出了有关“智能需求”的问题,并与张钰清进行了学术对谈。
李周渊介绍了国家社科基金重大项目“汉文佛经字词关系研究及数据库建设”的子课题成果“六朝写经异体字编年字典”的立意与目的,介绍了“如是古籍数字化工作平台”的搭建过程及其功能,向现场观众展示了计算机辅助文科研究工具的思路。该字典的编纂为研究字形的演变、断代等提供了便利。
沈秋之做了题为“写本文字智能辨识的问题与思考”的报告。他以文科研究者的身份,围绕人工智能技术如何识别不同抄写情况和清晰度的手稿、识别朱笔符号等特殊标记,以及在不同学科需求下处理异体字和俗字的准确性和方法等方面提出了疑问。他认为,可以尝试通过人工智能技术恢复或补充残断写本中缺失的文本信息。此外,在计算机的帮助下,通过提取写本中的关键信息,多个写本应当可以被系连在一起,从而构建更丰富多元的“写本群”。
李义敏就目前契约文书人工录文的困境,提出可以利用OCR提高契约文书识别与定名工作效率的设想。他认为,相似属性的文本可以通过互相比对,补充原本缺失的信息。李义敏结合自己主持的鱼鳞总图复原项目,提出了人工智能能否批量识别“文本地层”的层累信息,并以数字人文视角下的鱼鳞图册复原工作为例,探讨了如何让人工智能识别不完全准确比例尺的地块形状,使用GIS定点复原百年前土地样貌的可能性等诸多现实问题。
在嘉宾对谈环节中,张钰清对诸多疑问进行了回应。他认为文科学者提出的许多需求可以嵌入经典问题和模型来评估其可解性,尤其是在计算机执行任务时依赖大量标注数据的情况下,缺乏或仅有少量标注数据的问题可能需要更多处理技巧。李周渊以《高僧传》为例,认为文本中的时间、地点、人物等要素可以用ChatGPT等工具批量提取,而特定人物的书写习惯数据库,也可以依靠大模型来建立。同时,他分享了在进行写本文字校对、录入工作中的一点思考,认为大规模的数字化整理,不能苛求准确度达到百分之百,只要做到百分之九十以上,就能达到基本目标。张钰清也认同这一点,认为计算机的思维是抓大放小,任务逻辑是从数据中学习到规律,针对具体下游任务设计模型和方法。
在现场互动环节,嘉宾们与现场老师同学进行了深入交流。有同学就如是古籍平台后的试用体验,请教不同书体的交叉识别准确率问题。张钰清认为,针对特定风格和数据分布训练的模型,在面对分布外数据会出现性能衰退;如果要解决这个问题,可以尝试引入多模态大模型。也有同学提出,写本书写中可能出现的“崇古”情况会影响文献的断代结论。李周渊对此回应,认为计算机断代得到的最终结果需要人来判定,针对各种年代信息需要抓大放小,以大面积的断代痕迹来判断时间或者真伪。
在三个小时的学术活动中,与会嘉宾和现场观众进行了不同学科背景和不同科研路径下写本文字识别工作的数智化赋能探讨。窦怀永在总结发言中认为,文科和计算机的交叉研究才刚刚开始,呼吁能够有更多的文科人学习智能技术、参与大模型训练,既提出问题、提供语料,也尝试学习解决问题。
图文|杨旭华 李倩雯
编辑|陈紫滢
审核|楼煦昂