文院学览｜“以纸为媒：写本文字的智能辨识”教研工作坊顺利举行

文摘 2024-12-27 22:03 浙江

编者按：浙江大学文学院秉承“文以化人，学通古今”的育人理念，积极构筑师生学术交流平台。为进一步活跃学术氛围，增强学术素养，助力学院教学、科研建设和发展，“浙大文学院”特开辟【文院学览】专栏，及时回顾学术交流、讲座等相关信息，努力为师生打造高层次、高水准的学术交流平台。

2024年12月22日下午，由浙江大学文学院主办、浙江大学敦煌学研究中心承办的“以纸为媒——古代写本研究青年学者工作坊”在成均苑4幢900报告厅顺利举办了第二期。这是浙江大学文学院古典文献学专业教研工作坊系列第四次活动。

本期工作坊的主题是“写本文字的智能辨识”，邀请了浙江大学计算机科学与技术学院张钰清围绕人工智能处理写本文字的技术发展现状作主题演讲，邀请了浙江大学文学院李周渊、杭州师范大学人文学院沈秋之以及浙江师范大学人文学院李义敏围绕佛经写本、敦煌写本和契约文书的文字问题作对谈嘉宾，旨在以学科交叉为视角，围绕利用人工智能提升写本文字识别与归类效率的问题展开讨论。活动吸引了浙江大学校内汉语言文学、古典文献学、中国古代史等专业的老师和本硕博在读同学，以及省外多所高校的文献学相关研究方向的学者同仁前来参与。三十余位老师同学济济一堂，在冬天的寒冷气候里格外显得温暖。

在活动开始之际，召集人窦怀永介绍了本次活动的主题设想。他提出，随着AI技术的发展，传统的文科研究领域迎来了新的研究路径和工具，文科研究者可以顺应“AI+”的时代趋势，探索多学科交叉合作，实现学科优势互补，在技术与问题的博弈中探讨出新思路、新方法；此外，诸如ChatGPT、豆包、Kimi等AI大模型也为文科研究提供了一些新的思路与方法，值得被训练与应用。在当前AI赋能的时代，有着语言文字研究优势的浙大古典文献学专业，与创新成果显著的浙大计算机学科的合作，是新时代背景下学科交叉的良好尝试，也是学术发展的大趋势。

计算机学院张钰清就“古代写本的智能辨识与理解”主题，以“从数据到知识的人工智能”为切入点，向现场观众介绍了视觉技术和大语言模型的基本原理，同时提出依靠AI模型进行文科研究需要运用文科智慧，辅助计算机学科从解决问题的角度将材料转化为数据，以实现更有效的研究。此外，张钰清介绍了AI技术近年来在古代文献领域的实际应用，使在座师生深刻理解AI在文献学研究中的重要价值。最后，张钰清介绍了敦煌学研究中心与计算机学院合作的项目，并以此为例阐述了垂直领域大模型和大小模型协同的优势以及目前亟待解决的问题。

从事古代写本研究的三位青年学者在介绍成果的同时，也从文科视角提出了有关“智能需求”的问题，并与张钰清进行了学术对谈。

李周渊介绍了国家社科基金重大项目“汉文佛经字词关系研究及数据库建设”的子课题成果“六朝写经异体字编年字典”的立意与目的，介绍了“如是古籍数字化工作平台”的搭建过程及其功能，向现场观众展示了计算机辅助文科研究工具的思路。该字典的编纂为研究字形的演变、断代等提供了便利。

沈秋之做了题为“写本文字智能辨识的问题与思考”的报告。他以文科研究者的身份，围绕人工智能技术如何识别不同抄写情况和清晰度的手稿、识别朱笔符号等特殊标记，以及在不同学科需求下处理异体字和俗字的准确性和方法等方面提出了疑问。他认为，可以尝试通过人工智能技术恢复或补充残断写本中缺失的文本信息。此外，在计算机的帮助下，通过提取写本中的关键信息，多个写本应当可以被系连在一起，从而构建更丰富多元的“写本群”。

李义敏就目前契约文书人工录文的困境，提出可以利用OCR提高契约文书识别与定名工作效率的设想。他认为，相似属性的文本可以通过互相比对，补充原本缺失的信息。李义敏结合自己主持的鱼鳞总图复原项目，提出了人工智能能否批量识别“文本地层”的层累信息，并以数字人文视角下的鱼鳞图册复原工作为例，探讨了如何让人工智能识别不完全准确比例尺的地块形状，使用GIS定点复原百年前土地样貌的可能性等诸多现实问题。

在嘉宾对谈环节中，张钰清对诸多疑问进行了回应。他认为文科学者提出的许多需求可以嵌入经典问题和模型来评估其可解性，尤其是在计算机执行任务时依赖大量标注数据的情况下，缺乏或仅有少量标注数据的问题可能需要更多处理技巧。李周渊以《高僧传》为例，认为文本中的时间、地点、人物等要素可以用ChatGPT等工具批量提取，而特定人物的书写习惯数据库，也可以依靠大模型来建立。同时，他分享了在进行写本文字校对、录入工作中的一点思考，认为大规模的数字化整理，不能苛求准确度达到百分之百，只要做到百分之九十以上，就能达到基本目标。张钰清也认同这一点，认为计算机的思维是抓大放小，任务逻辑是从数据中学习到规律，针对具体下游任务设计模型和方法。

在现场互动环节，嘉宾们与现场老师同学进行了深入交流。有同学就如是古籍平台后的试用体验，请教不同书体的交叉识别准确率问题。张钰清认为，针对特定风格和数据分布训练的模型，在面对分布外数据会出现性能衰退；如果要解决这个问题，可以尝试引入多模态大模型。也有同学提出，写本书写中可能出现的“崇古”情况会影响文献的断代结论。李周渊对此回应，认为计算机断代得到的最终结果需要人来判定，针对各种年代信息需要抓大放小，以大面积的断代痕迹来判断时间或者真伪。

在三个小时的学术活动中，与会嘉宾和现场观众进行了不同学科背景和不同科研路径下写本文字识别工作的数智化赋能探讨。窦怀永在总结发言中认为，文科和计算机的交叉研究才刚刚开始，呼吁能够有更多的文科人学习智能技术、参与大模型训练，既提出问题、提供语料，也尝试学习解决问题。

图文｜杨旭华李倩雯

编辑｜陈紫滢

审核｜楼煦昂

浙大文学院

浙江大学文学院官方公众号

文院之声｜文学院举行火灾疏散逃生和灭火演练

浙江大学文学院恭贺：元旦快乐！

温情文院丨情谊永续，启航新年 ——文学院2024年离退休教师团拜会顺利举行

党建引领丨回望过往足迹展望未来蓝图——文学院2024年度学生党支部书记述职评议会顺利召开

文人视点 | 王云路：语言文字的意象思维

文院学览 | 纪赟：“南朝初期南方佛教特质”讲座纪要

中文学科口述史｜艺海求索真理探微——王元骧老师专访

文院学览 | “我们这个时代的文学和文学期刊——《青年文学》《江南》走进浙江大学”对谈会顺利举行

文院之声｜浙江大学文学院×大屋顶文化：与文学对话的七种方式系列课程

文院学览｜“以纸为媒：写本文字的智能辨识”教研工作坊顺利举行

文人视点 | 张涌泉：文明以继薪火相传——写本及相关学说叙谈

文院之声丨观通学社第123期 “走向现代：中国文学的古今之变” 学术工作坊日程

文院之声｜宋学大讲堂第十二讲北流与南迁：宋代佛教的地理流动

文院之声｜观通学社第122期文学科学的概念：理论、方法与作为批评活动内在环节的文学史

文学院周志丨2024年第38期总第117期

文院之声｜东方论坛第268讲张旭东：文学对人生的利弊 ——尼采、五•四新文化与当代中国文化意识的反思

吾院吾师丨深切缅怀朱宏达教授

文院学览 | 浙江省文学学会常务理事会顺利举行

文院之声 | 我们这个时代的文学和文学期刊——《青年文学》《江南》走进浙江大学

文院学览 | 国家语委重大科研项目 “语言文字助力共同富裕的理论建构与实践路径研究” 中期报告会成功举行

文院学览 | “人工智能驱动的数字人文”讲座顺利举行

文院之声｜我院冯国栋教授、楼含松教授等一行赴韩国高丽大学进行学术交流访问

文院英华丨我院四项学生成果获浙江大学第十届学生人文社会科学研究优秀成果奖

文院学览 | 《春秋》的“早期书写”特征与中国史学精神讲座顺利举行

文人视点｜仲瑶：风尘吏、名士态与吟诗人：“武功体”与中晚唐疏野诗风

文学院周志丨2024年第37期总第116期

文院之声｜浙大·径山讲堂系列讲座第四讲：南朝初期的南方佛教特质

文院学览 | “《金瓶梅》研究漫谈”讲座顺利举行

文院之声｜刘蒙之：漫谈编辑出版研究中的质性路径与深访方法

文院英华｜我院三个项目获2024年度国家社科基金重大项目立项

文院撷英丨束景南教授著《阳明年谱定本手稿》出版

文院之声｜刘炜：AI驱动的数字人文

文院之声｜中法联培项目开启中文学科国际化新篇章

文院之声丨赵敏俐：《春秋》的“早期书写”特征与中国史学精神

文人视点｜胡可先：缪钺先生与浙江大学

文院英华 | 我院六位同学在浙江大学第十二届大学生职业规划大赛中取得佳绩

“诗是人和人之间最短的路”：此岸·浙大国际诗歌之夜 | 对谈·朗诵

文院之声｜吴敢：《金瓶梅》研究漫谈

文学院周志丨2024年第36期总第115期

文院学览 | 中文学科学术年会之一：“第六届中西比较文献学与书籍史研究工作坊”

文院学览｜“从智能长篇到写作智能体”讲座纪要

文院英华｜我院陈玉洁老师课题组的研究性论文被Lingua 评选为“Editors' Choice Article”

文院学览｜“百应化身：书籍史会在文学学科留下什么”讲座纪要

文院英华｜浙江大学汉语史研究中心和浙江大学宋学研究中心入选浙江省高质量哲学社会科学重点研究基地

文院之声 | 浙江大学文学院杭大中文系七七校友基金工作会议顺利召开

文学院周志丨2024年第35期总第114期

文院学览｜“‘寻根’思潮与中国文化主体性建构”学术工作坊顺利召开

文院之声 | 国际组织大数据助力数字化阅读：——路径、挑战与对策

文院之声 | 浙江大学中国语言文学学位授权点周期性合格评估专家评议会顺利举行

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉