202406学界观察|档案领域数字人文研究热点主题发现

文摘   2024-10-01 21:35   河南  

档案领域数字人文

研究热点主题发现


摘 要 


  

    随着档案领域参与数字人文这一议题的开展,学者们站在不同视角对学科发展路径不断探索,相关科技文献的数量也在聚沙成塔、不断增长。为了梳理研究脉络、把握研究趋势,采用BERTopic主题模型对相关科技文献进行主题挖掘,从而发现当下的主流研究课题,更具建设性地参与到研究中。结果显示,当前的研究课题主要集中在档案数字人文探索、档案资源的开发利用,以及学科建设三个方面。

国庆节快乐


0 引言


      数字人文作为结合了计算机技术与社会人文思潮的产物,自诞生以来便对各类人文学科产生了深刻的影响,而注重学科交叉融合、善于利用新兴技术开展人文研究的信息资源管理学科在理念与体系上与之有着内在的联系。学者们在探索信息资源管理和数字人文的过程中,发现二者具有一致的内核。无论是数字人文还是信息资源管理学科,信息活动都是二者的核心,在信息资源建设、方法和理论的深化方面二者相互推进、相互完善[1]。2020年,国家推出《新文科建设宣言》战略,更进一步强调了打破学科之间界限、跨学科融合研究的重要性,在国家发展战略层面强化了信息资源管理参与数字人文研究的意义。随着信息资源管理参与数字人文研究这一议题不断地受到学者们的关注、研究不断地开展,相关的科技文献也迎来了大量的增长。对科研工作者来说,面对与日俱增的知识和文献,只有快速了解学科的研究现状和热点,才能把握学科发展方向,实现科技创新。目前已有一些研究从两种途径对数字人文研究现状做出了分析:一种是基于引文和共词分析的方法,例如利用VOSviewer 科学知识图谱分析工具提取数据源中的关键词数据,绘制我国信息资源管理领域数字人文研究关键词共现知识图谱,识别出当前阶段研究的内容及特征;[2]另一种则是以文本聚类、主题模型为代表的文本挖掘方法,例如利用LDA主题模型识别我国数字人文领域的研究框架[3]。这类研究在一定程度上揭示了学科发展的现状与趋势,在学术热点发现方面也提供了支持。

      在信息资源管理领域中,由于档案拥有的真实性、证据性等特征,使得档案学科在数字人文研究中具有特殊的地位。在《“十四五”全国档案事业发展规划》中特别强调了档案参与数字人文的重要性。也有学者专门针对档案学参与数字人文的现状进行了研究[4-8]。BERTopic是一种新兴的基于深度学习框架的交互式主题模型,近年来在自然语言处理领域受到广泛使用。本文利用BERTopic主题模型,对信息资源管理领域中档案学科参与数字人文的现状以及当前聚焦的主题进行挖掘,旨在从宏观和微观层面发现学术热点,进而为档案学与数字人文深度融合提供参考。


国庆节快乐

National Day



 1 数字人文相关研究

      1.1 数字人文。数字人文起源于人文计算,标志事件是上世纪40年代由罗伯特·布萨使用计算机技术编写了托马斯·阿奎纳的作品索引集。这种将繁琐的分类、检索工作全部交由计算机处理的新兴方式,改变了学者们的传统工作模式,使其迅速受到社会各界的关注与广泛应用。人文计算这种将计算机技术与人文学科联系起来的思路,对于后续的信息储存、知识发现等方法也起到了奠基的作用。随后人们跨入信息时代,根基于计算机技术的人文计算也在不断地变革与进化,再结合人们对于分析工具要求愈发提高的现实因素,数字人文概念应运而生。由于数字人文在表达上更能兼顾“数字技术”与“人文研究”的特点,因此其迅速取代了人文计算,成为人文学者中广为流传的新名词。时至今日,各类人文学科的发展和研究内容仍然受到数字人文理念的深远影响。

      1.2 数字人文与信息资源管理。数字人文在2009年现代语言协会年会上受到了众多学者的广泛讨论,成为了国外的学术热点[9]。同年,我国武汉大学王晓光教授将数字人文概念正式引入国内[10]。随后,我国各个高校陆续成立了数字人文研究机构,如武汉大学的数字人文研究中心、南京大学数字人文创研中心等,主要参与者是信息资源管理领域。在此阶段,我国数字人文领域的相关研究呈厚积薄发之势,新成果不断涌现。自2018年开始,数字人文主题连续数次入选信息资源管理学界研究热点[11]。图书馆学是信息资源管理领域最先融入数字人文研究中的,2012年,周琼与胡礼忠[12]号召图书馆学者要积极发挥资源和专业人才优势,参与到数字人文研究浪潮中。很快,图书馆学与数字人文相结合很快成为图书馆学的热点主题并一直持续至今[13]。二者的结合创新出了很多新兴研究形式,例如不同于传统大数据注重的规模、多样性的特点,而是聚焦于价值应用的智慧数据[14]、面向人文研究的数据基础设施[15]等。目前信息资源管理领域仍然不断与数字人文交流互动,在二者的融合过程中,以对信息的利用为桥梁,通过找准结合点和切入点,可以使信息资源管理不断吸收新兴的技术方法与理念,实现学科发展模式和方向的创新。

      1.3 数字人文与档案学。数字人文与参与信息组织与服务,提供原始真实文本资源的档案学不断融合和互动。档案部门和数字人文在技术应用方面的理念相同,都很注重通过计算机技术来助力人文研究。在过去的工作中,虽然档案也将数字技术应用到自身工作中,但往往只是将档案数字化,很少去做进一步的处理,缺乏工作上的创新。正因为此,学者们才呼吁档案部门应该摒弃陈旧理念,积极引入现代信息技术优化自身工作[16]。2015年赵生辉的《国外档案领域数字人文项目的实践与启示》[17]综述了国外档案学届参与数字人文的现状,为我国档案学者参与数字人文提供了参考。与其他文本资源不同,由于档案资源具有真实性、证据性、记载着丰富的国家民族记忆的特征,使其极大丰富了数字人文研究的多样性并保证了其参与数字人文项目的权威性。2009年由档案教育研究会(AERI)举办的“数字人文与档案课程开发”研讨会上指出,数字人文和档案领域合作仍然是数字人文计划的关键组成部分。二者结合的优势也体现在可以通过在合作的过程中不断吸收和完善彼此的知识体系和技术结构,从而为知识利用者提供更好的服务。

      当前,数字人文与档案学的研究仍在持续并不断深化,2023年徐拥军[18]等对我国档案学领域高质量论文进行文献计量,发现数字人文是我国档案学研究关注的焦点议题。2024年,杨思洛[19]等通过对近五年我国信息资源管理领域文献的主题挖掘发现,档案与数字人文主题在各热点主题中仅次于图书馆阅读服务,位列第二名,是“档案学近五年受关注度最高的研究主题”。在未来,数字人文将持续助力档案资源开发和数据化、参与国家经济社会发展进程[20]。

国庆

TRAVEL



2 研究设计

      2.1 研究思路。本文的研究框架如图1所示。

      图 1 研究框架

      首先,从中国知网数据库中初步检索获取文献,经过人工判读去除不相关文献后构建数据集。随后分别进行数量性的分析以及对论文摘要部分的主题挖掘。本研究采用的主题挖掘工具是基于深度学习的BERTopic模型,是一种基于词向量的主题建模方法。与传统主题模型相比,其优势在于具有更高的主题一致性[21],并克服了传统建模方法中基于密度聚类与基于中心采样之间不兼容的缺点,可以快速实现数量巨大的短文本数据解析[22]。由于BERTopic的这种特性,使其非常适合短篇幅、内容复杂的论文摘要建模分析,从而能够更好的挖掘主题,发现档案参与数字人文的热点研究问题。

      2.2 数据获取与预处理。以中国知网数据库作为数据源,采用主题=('档案' + '档案馆' + '档案管理')*('数字人文' + '人文计算')专业检索式,不限制发表时间,检索日期为2024年7月7日,共检索到677篇文献。经人工判读去除会议、报纸、选题指南等不相关文献,共得到有效文献599篇。在数量分析部分,分别提取出论文的发表年份、所属期刊和作者信息,用来进行发文数量趋势和词频统计工作。在发文数量统计中,最终日期设置为2023年12月31日。在主题挖掘部分,提取论文的关键词和摘要信息,用来进行针对摘要的主题挖掘工作。为了保证分词的准确度,在分词前将论文关键词作为自定义的新词添加到jieba词库中,并且基于中文常用停词表进行去停用词处理。

      2.3 数量分析。在主题识别之前,首先对获取到的599篇文献进行数量上的统计,从档案学参与数字人文研究领域的高产作者、重要期刊和近几年的发文数量层面初步分析目前的研究现状,结果如表1和图2所示。由发文数量趋势可知,相关研究最早从2015年开始,当下正处于档案数字人文研究的热点时期,亦进一步明确了挖掘当下研究热点主题的现实意义。

      图 2 发文数量趋势图


欢度国庆节


3 主题识别

      对收集到的论文摘要部分进行主题建模,共识别出9个主题,可视化结果以条形图的形式展现,如图3所示。Topic0(档案支持数字人文)、Topic2(档案馆数字人文开发)、Topic3(数字人文项目实践)、Topic7(档案与记忆)四个主题呈现了档案领域是如何结合到数字人文研究中的,可以归纳为“档案数字人文探索”课题;Topic1(中国历史研究)、Topic4(文化遗产研究)、Topic5(红色档案资源开发)、Topic8(少数民族文化遗产)四个主题呈现了各类人文资源对于档案数字人文研究的重要性,可以归纳为“档案资源开发与利用”课题;Topic6(图情档学科)是“学科发展”课题,主题脉络如图4所示。

      图 3 主题识别结果

      图 4主题脉络

      3.1 档案参与数字人文的理论探讨。长期以来,档案所蕴含的丰富人文价值使其一直不断地参与到各种人文研究中[23],学者们围绕档案与这些人文学科的关系、档案在其中的参与机制不断地探索[24]。档案领域和数字人文领域都有各自的理论和研究方法,在二者开展合作时,厘清各自所处的定位以及相互之间的关系有利于更好地发挥本领域的特点,从而使得工作更顺利地开展。目前学界普遍认为档案是数字人文研究的核心对象,数字人文项目的实现,也需要档案馆这种文化服务部门的合作,来提供丰富的馆藏资源[25]。在档案为数字人文研究提供丰富原始资源的同时,也在不断地吸收和接纳开展数字人文工作所需的技术[26]。因此,数字人文不仅助力档案领域的资源建设和内容表现,还在一定程度上创新了其思维方式,为新方向新课题的开展提供了可能性。面对“档案参与”,于英香[27]认为其内涵是档案领域的工作者或学者参与到非传统的档案管理相关的研究或活动,关注如何将档案元素融入跨学科研究中。目前对于档案是如何参与到数字人文中的,档案在数字人文中的参与机制等问题,学界还尚未形成完整的体系。张卫东[28]等尝试以复杂适应系统理论为模型,基于系统化思考方式探讨档案参与数字人文机制的方式,在一定程度上拓展了此类研究的思路。

      3.2 档案参与数字人文项目实践。数字人文项目是将人文思想融入现代数字技术的社会实践活动,可以将传统的人文研究以新颖的、极具吸引力的形式展现出来,对社会公众具有很强的影响力。我国学者也站在不同的视角上对数字人文项目的内涵进行了一些解读,如崔浩男[29]等认为数字人文项目是将数字技术和人文资源进行整合,专为解决某一主题的人文问题而生;龙家庆[30]等认为数字人文项目是数字人文理论通向实践的桥梁。通过整合各类档案资源和数字人文的理论方法,催生了大量档案相关的数字人文项目,我国档案领域学者在开展数字人文研究时,也对中外的各种数字人文项目进行了分析和梳理。其中国外一些比较具有代表性的项目取得了较大的成果,例如龙格等学者利用传统档案内容和数字人文技术重构了奥森·威尔电影中丢失的影像序列,以可视化的形式展示了档案研究成果;以及利用了多所大学和研究所的档案资源,专注于美国内战记录的影谷项目[31]。国内也在不断积累数字人文项目实践经验,2023年,上海市档案馆联合多个单位,整合海量档案资源,推出了跟着档案观上海项目[32],其运用人工智能和3D建模等技术复现了地标性建筑,使得远在千里之外的人也能感受到当地的独特景观和文化底蕴。此类以丰富的档案资源为基础开展的数字人文项目极大地活化了档案中所蕴含的人文知识,是推进人文研究和数字人文本身发展的有力实践。

      3.3 档案与记忆。“记忆”是档案学很早便开始研究的课题。早在1925年法国学者莫里斯·哈布瓦赫提出“集体记忆”概念后,“社会记忆”开始进入人们的视野,许多学者对其进行了系统性的研究。社会记忆不仅存在于社会个体,也同时广泛存在于档案、文学作品等各种人文资源中。随着社会记忆理论的不断完善,以及文化、意识形态和后现代主义思潮的发展,20世纪末,档案学兴起了一种“档案记忆观”观点[33],强调档案具有记忆属性,是一种社会、历史记忆,档案馆则是保存记忆的场所。可以说,档案是实现社会记忆的一种重要资源,与社会记忆有着千丝万缕的联系。国内外学者也针对档案参与社会记忆的内涵和机制[34]、对档案工作的实际影响[35]等方面做出了探讨。近年来由于数字人文在档案领域的应用,使得社会记忆又诞生了新的可能性,例如数字人文通过技术加持,对社会记忆进行挖掘重组和强化改写,可以实现社会记忆再生产[36]。随着数字化时代到来,催生了数字记忆概念,学界认为数字记忆是一种将人文资源以数字化形式采集组织、传播再现的记忆形态[37]。数字人文和数字记忆共同诞生于数字化浪潮,二者在拥有着新兴事物蓬勃生命力的同时,其资源和项目也有着很大程度的重合,有着相似的人文本质,因此对二者关系和内涵的探讨也层出不穷。一种观点认为,二者虽然在资源和项目等方面具有趋同性,但在研究侧重、表现形式等方面也呈现出差异性,因此二者实质上是并列的关系[38]。另一种观点则认为,数字记忆是数字人文实践中的一种特殊呈现方式,其本质上是包含关系[39]。当下,此类关于记忆的有益讨论还在持续进行,而可以明确的一点是:档案、记忆、数字人文已经成为互相融合、共同发展、紧密联系的学术体系。

      3.4 历史文化遗产。我国档案文献资源记载着丰富的国家民族记忆,时间跨度上涵盖了从古至今的朝代更迭,材质上包含甲骨文、简牍以及现代数字档案,领域上更是包含经济文化政治等各方面的历史记录,是珍贵的历史文化遗产。这些档案资源蕴含着深刻的思想与哲学智慧,对其进行开发利用有着重要的现实意义和价值。在技术手段不够成熟的早期,对历史文化遗产的记录形式是以实体文本为主。21世纪后,人们对文化遗产的记录与表现形式提出了更高的要求,愈发重视可视化与交互体验,注重呈现方式的多元性以及可传播性。数字人文作为擅长将文化资源以现代技术手段呈现的研究领域,为我国文化遗产开发与管理提供了新的形式。学者们也从内涵解读、技术探索等多个角度探究了数字人文背景下的文化遗产资源利用与保护。如付靖宜[40]等借助数字人文相关理论与方法,从多角度对浙江历史文化记忆工程这一示范性实例进行全方位观察梳理,由此提出推动中国历史文化资源深度开发的有效对策。国家层面也从数字人文领域的文化遗产开发战略出发,在理念、机制与应用方面做出了探索[41],并在2022年出台了《关于推进实施国家文化数字化战略的意见》,提出要统筹利用文化领域已建或在建的数字化工程和数据库所形成的成果,关联形成中华文化数据库。

      3.5 红色档案资源。红色档案是承载红色基因的载体,它以文字、图片等形式记录了党领导中华儿女开展社会主义建设的过程,具有深刻的教育价值,是弘扬爱国精神、传播红色文化的生动素材[42]。当前红色档案资源的相关研究主要围绕内涵和价值、保护和开发利用[43]等几个方面。数据和技术是数字人文研究的核心,梁文超[44]指出数字人文视域下红色档案的资源组织和开发路径开辟了红色档案研究的新方向,创新了红色档案资源建设的研究范式和方法论。红色档案资源研究向数字化转型将活化馆藏内容、深刻影响资源的保护、采集、组织等处理过程。红色档案资源将在数字人文的技术背景下得到进一步的开发利用,有利于最大化地利用档案资源所蕴含的价值,二者在实践上已经展现了良好的互动交融效果[45]。

      3.6 少数民族档案遗产。少数民族档案遗产是我国少数民族在漫长的生产生活活动中逐渐积累起来的宝贵文化财富,是中华民族多元文化特色的体现。学者们大都关注对少数民族档案遗产的开发利用研究和数字化保护研究。

      3.6.1 开发利用研究。少数民族档案遗产记载着当地的地理特征、文化习俗、历史事件等,蕴含着大量的文化储备,因此有着极为重要的开发利用价值。深度且充分地挖掘少数民族档案文化遗产,对其具有文化传承特色的内容进行开发提取和利用,有利于丰富中华民族的文化表达,深化文化底蕴,是实现文化自信的途径之一,对中华民资精神文明的建设起到重要的作用。学者们为此开展了一系列尝试,有学者从国家战略[46]出发,讨论对少数民族档案遗产的开发利用,也有学者从具体案例出发,开展一系列思考[47]。这些研究都为少数民族档案遗产的保护和利用提供了宝贵的理论支持和实践指导

      3.6.2 数字化保护研究。与其他类型的档案资源不同,少数民族档案资源的保护与保存长期以来都在受着各种挑战。例如以保存环境为主的自然因素,和以载体形式多样、民间收藏为主的来源因素都对档案遗产的保护保存工作造成了不少的困扰。再加上有些档案资源存在海外流失[48]的情况,当下对其进行数字化保护任重道远。少数民族档案遗产的数字化保护与注重文化内容和数字技术的数字人文内在关联度较高,以数字人文视角对少数民族档案遗产开展数字化保护的思路是数字人文研究通常依附于大量的档案资源,擅于利用数字化技术对文化资源进行保护和开发利用。周耀林[49]等基于数字化保护与数字人文的联系,从类别、主题等多个角度探讨了实现数字化保护的实现路径。目前文化遗产和档案资源的数字化保护已经成为数字人文的重要研究领域[50],数字人文在深度开发档案文化资源时展现的优势,体现了其在包括少数民族档案在内的数字化保护方面的光明前景。

      3.7 学科发展。我国档案学科在漫长的实践过程中,一直以文化传承、科学研究、人才培养

      和服务社会为己任,已经形成了一套较为完善的技术体系和方法论。然而由于信息化和数字化时代的到来,各种新兴的数字技术被应用到人文学科研究中,档案学科的应用场景和档案工作者的工作环境也发生了深刻的改变。随着社会层面对档案工作提供的智慧型服务要求越来越高,档案学也将迎来一系列的理论结构和方法论的重塑。在学科人才培养方面,学者们基于研究内容、人才定位等层面进行了许多思考,如张小林等[51]结合新文科发展背景,倡导通过学科体系内容的创新,培养出数字人文技能和数据素质过硬的专业人才。在档案学不断与数字人文研究的融合过程中,由于二者之间技术、理念的不断碰撞,引起了学者们对于档案学当下受到数字人文的影响以及未来如何发展的讨论。学者们认为数字人文赋予了档案学科全新的发展活力和研究内容,对学科思维方式和技术体系的创新有巨大的推进作用,而将档案特色融入数字人文项目中的实践也将提升档案机构的影响力,对档案知识体系的完善有着促进作用[52-54]。然而,由于数字人文对“档案”概念的重新界定,使得当下档案学不得不面临“泛档案化”的概念冲击[55],例如在一些数字人文项目中所利用的“档案”资源其实是文学或其他方面的资源,造成档案特色被淹没[56],对档案学科的发展也造成了一些困扰。因此正视数字人文对档案学带来的机遇和挑战,对理论和技术体系合理地创新和重塑,对于档案价值的提升和学科长足发展具有重要意义和深远影响,档案领域学者还将对学科进行持续而深化的建设。

国庆节快乐


4 结语

     档案学将凭借自身的资源优势在数字人文研究中持续发光发热,发现并探讨档案参与数字人文的研究路径和问题,有利于更好地促进档案学发展。本文以知识发现的视角,探讨了目前档案参与数字人文研究的现状,挖掘了当下的研究热点主题。从结果来看,对档案参与数字人文这一议题的深化探索,以及档案资源的开发利用路径和学科发展相关的研究是领域内的主流研究方向。未来,档案学将更加深入地融入数字人文研究,在深化学术理论、推动跨学科合作的同时提升档案资源价值,为档案学科和数字人文的创新和繁荣提供持续不断的动力。


作者任红娟,秦勇豪,宋京京,李赛玲

《档案管理》2024年6期

 《档案管理》 

杂志社编辑部

 《档案管理》 

杂志社官方公众号 


档案管理杂志社编辑部
《档案管理》创刊于1986年,档案专业刊物,连续数届入选中国中文核心期刊,为中国档案学、档案事业类核心期刊。《档案管理》主管主办河南省档案局,定位是以业务指导为主,兼顾学术性和可读性。旨在传播档案学知识,交流工作经验,推动理论研究。
 最新文章