11月15日下午,本学期第四期《初阳讲堂》暨第二期爱博才会赢活动在16幢907教室举行。北京大学中文系博士后、香港中文大学、中国社会科学院文学所访问学者吴夏平教授为师生带来主题为“数字人文:从数字化到数据化”的讲座。
如何看待数字化古籍
首先,吴教授引带领师生回顾古籍数字化兴起的三个重要阶段:一为纸张发明,二为印刷术广泛使用,三为如今数字化技术普及。技术发展革新无疑使得知识传播更为便捷,但吴教授指出,科技进步对学术研究的正负影响皆存。苏轼曾评价,“后生科举之士,皆束书不观,游谈无根”,虽然印刷技术普及后获取书籍变得容易,但人们反而可能因此减少阅读,这与现代社会人们面对海量信息而不深入阅读如出一辙。宋人叶梦得也曾指出板本传播将导致原本散失,从而使经书校对工作更为困难。吴教授强调,如今古籍数字化电子版本与原始文献并非替代关系,而是共存。
认识数字化现象
随后,吴教授为师生介绍世界范围内数字化普及的阶段历程。从上世纪40年代末起,欧洲人文数字化就已起步,到上世纪60年代,《计算机与人文科学》杂志的出版标志着人文计算的正式兴起。1978年,前苏联《高等学校通讯杂志》上发表的文章已经体现出对数字人文的思考。在计算人文的大背景之下,中国古籍数字化进程不断推进,最初集中在制作朱熹、王阳明等人著作的索引,随着技术发展,中国社科院等机构开始致力于全唐诗、红楼梦、全宋词等大型数据库的建设,为公众提供免费使用的电子版本,为古代文学研究带来极大便利。台湾地区和香港地区在这一领域起步更早,成就显著。吴教授强调,自新世纪初到现在是数字人文发展的兴盛阶段,我们国家应更加重视数字人文的建设和发展。
从数字化走向数据化
接着,吴教授对“数字化”和“数据化”的概念进行进一步解读。数字化是利用计算机处理原始数据的过程,而数据化则是将数据分析和重组后对事物进行描述的过程。在数字人文领域,数据库中的古籍信息通过人工分词、标引等技术手段,进行结构化和语义关联,从而自数字化走向数据化。吴教授指出,文献数据化能有效解决关键词检索出现的错检和漏检等技术遮蔽现象,能帮助后续研究揭示文献中隐藏的联系,构建新的知识。吴教授强调,数字化是数据化的基础,两者并不等同。
文献载体多样化和数字人文的边界
最后,吴教授指出,文献的载体在今天呈现出多模态的趋势。除传统的纸张和印刷术外,音频、视频、图像等数字化形式的文献也逐渐成为学术研究的重要资源。吴教授还提醒师生,在数字化时代,通过网络无法检索的知识仍旧存在知识遮蔽,数字人文在时空关系研究中存在其边界。
在讲座的尾声,吴教授鼓励师生唤醒数据意识,探索数字人文价值,为推动数字人文研究的创新与发展添砖加瓦。
文字:边奕辰
摄影:蓝葆俊
审核:施爱芳
编辑:杨舒婷
责编:姜倩茹
终审:宋清秀
来源:“初阳打造”新媒体工作室