网络首发时间
2024-12-24
网络首发地址
https://link.cnki.net/urlid/42.1085.G2.20241224.1353.002
引用本文
徐拥军,陈晓婷,闫静.人工智能大模型对档案学基础理论的挑战及其回应[J/OL].图书情报知识(2024-12-24). https://link.cnki.net/urlid/42.1085.G2.20241224.1353.002
Photo by Beatriz Camaleão on Unsplash. |
徐拥军
中国人民大学信息资源管理学院,北京,100871
中国人民大学档案事业发展研究中心,北京,100871
陈晓婷
中国人民大学信息资源管理学院,北京,100871
闫静
山东大学历史学院,济南,250100
目的 | 意义 | 人工智能大模型对档案学基础理论带来挑战和变革,亟需探讨其如何推动档案学基础理论的创新与发展。 | |
研究设计 | 方法 | 通过对比传统时代和人工智能时代档案学基础理论的内容要点,阐述档案学基础理论对大模型挑战的回应,进一步解释 “大模型如何影响档案学基础理论?而档案学基础理论又应当如何回应大模型发起的挑战?”。 | |
结论 | 发现 | 大模型对档案学基础理论提出了来源原则概念狭窄,文件生命周期延伸、档案价值转化,档案鉴定理论缺失可信性、销而不毁,档案记忆观的建构主体危机等挑战。为回应这些挑战,档案学基础理论需进行自我调适和创新:新来源观概念与背景的再发现,强调文件生命周期的动态连续性,关注档案鉴定理论的可信度检测与被遗忘权,规范算法权力和掌握记忆话语权。 | |
创新 | 价值 | 从理论层面重新审视大模型对档案学基础理论的挑战,以及档案学基础理论应如何进行自我修正以做出恰当回应,切实为人工智能时代档案工作提供理论指导。 | |
关键词 | 人工智能;大模型;档案学基础理论;档案工作 |
1 引言 |
作为新一代人工智能技术的主流探索方向,大语言模型(Large Language Models,以下简称大模型) 是基于海量数据训练、拥有巨量参数的模型。目前自然 语言处理(Natural Language Processing,简称NLP) 领域几乎所有的先进模型都是基于Transformer 大模型架构进化而来的。这标志着大模型开始逐渐引领人工智能技术发展的范式变革,各领域的数字化、智能化系统未来均将建立在大模型之上 。人工智能时代的档案工作面临着档案数量骤增、档案载体与形式多元化、档案应用场景复杂化、人机交互新生态等诸多挑战。为充分理解、科学把握档案工作利用大模型技术的风险,应首先从理论层面重新审视大模型对档案学基础理论的挑战,以及档案学基础理论应如何进行自我修正以对大模型作出恰当回应,切实为人工智能时代档案工作提供理论指导。
2 问题提出与文献梳理 |
2.1 研究问题
2022年末,以ChatGPT为代表的大模型深刻影响了全球AI产业的发展轨迹,开启了科学智能(AI4Science)赋能科学发现的第五范式,并为行业重塑、专业变革注入了新动力,如以医学、金融、工业、政务、科研等为代表的垂直领域的大模型已开始改变了行业生态,并持续向细颗粒度应用深化。在信息资源管理领域,人工智能技术对其核心原理,如信息生命周期、信息作为资源的核心定律、不同层次信息资源管理理论产生影响,甚至可能导致传统信息资源管理知识体系、理论、方法、技术等失去描述与解释力,步入过时、失效甚至被遗弃的境地。档案学作为信息资源管理学科下的传统二级学科,其科学研究和实践场景也不可避免地受大模型的影响。尤其是在数智时代,档案管理范畴已从传统模拟态扩展至数字态和数据态维度,管理重点由物理实体保管转向以逻辑结构为核心的管理,档案管理场所由物理空间延伸至数字空间,档案工作者从文件/信息管理者转变为经验提供者和决策制定者。这些转变催生了档案学基础理论的变革,而大模型势必通过对科学研究和实践场景的影响,进一步促使档案学基础理论的自我更新。
档案学基础理论受大模型技术的挑战已是既定前提,需进一步解释的问题为“大模型如何影响档案学基础理论?而档案学基础理论又应当如何回应大模型提出的挑战?”回答以上两大关键问题,需要以解决生成式人工智能(以下简称AIGC)之于档案、智能体(AI Agent)之于档案工作者、自动化AI工作之于档案实践场景所映射出的档案学基础理论困境为前提,并探索相应的理论修正路径。
2.2 文献回顾
目前,国内外关于大模型对档案学基础理论影响的研究仍较少,但关于较为宽泛的人工智能与档案学领域的结合性研究已逐渐成为热点。在实践领域,随着政府、企业和其他组织数字化转型,产生了海量电子文件归档、大数据归档问题,部分档案馆开始应用人工智能技术,如瑞士纳沙泰尔国家档案馆(State Archives of Neuchâtel)主导完成的Archi Select项目从加强鉴定 理论与人工智能深度融合等方面,缓解人工智能由于算法不透明性、潜在的算法偏见以及数据隐私问题所引发的公众信任缺失和监管的可信性难题。2024年10月17日,美国国家档案馆发布新战略框架:负责任地使用人工智能进行能力建设,目标之一是集成人工智能、机器学习和机器人流程自动化,以增强数据管理、审查和对文件的访问。美国国家档案与文件管理署(NARA)也总结了按年份划分的AI使用案例清单。在理论研究领域,数字化转型给“来源”和“原始顺序”等档案概念带来了压力,引发学者们关于“文件、证据、永久性、唯一性、真实性、所有权和保管”等档案概念相关性和意义的讨论。迈克尔• 莫斯(Michael Moss)等人将“档案”重新概念化为“有待挖掘”的数据集合,档案工作者需要知晓管理电子文件的工具和技术。为回应挑战,肯尼斯• 蒂博多( Kenneth Thibodeau)提出,通过结合系统功能语言学(通过对上下文的实证分析提供理解出处的框架 )和图论(捕捉各种关系)来丰富和重新界定档案的概念,并以此提升对文件的理解 。乔瓦尼• 科拉维扎(Giovanni Colavizza)提倡,将人工智能的结构性、批判性意识整合到档案系统中,并反过来将档案存储原则应用于为人工智能提供动力的数据管理领域。弗兰克• 阿普沃德(Frank Upward)研究团队在《网络时代的文件管理信息学》一书中,提出以文件管理信息学(Recordkeeping Informatics)作为支持纳秒存档的框架,强调技术环境中通过“级联铭文(cascading inscriptions)”① 不断生成文件信息, “实时档案化控制(nanosecond archiving)”业务活动流程信息。国际电子系统中文件真实性永久保障国际合作项目(InterPARES)的第五个阶段InterPARES Trust AI(2021-2026 )的目标之一是,确保档案概念和原则为负责任的人工智能发展提供信息 ②,同时实现其在档案、文化遗产和治理等各个领域的潜在利益。 InterPARES Trust AI 研究组是档案与人工智能研究的引领者。其中,杰西卡•布希(Jessica Bushey)对AI生成图像作为一种新兴文件格式进行文献综述发现,研究缺乏档案和文件管理知识,综述揭示六个研究主题:真实性与可验证性、操控与错误信息、偏见与代表性、归属与知识产权、透明性与可解释性以及伦理考虑。此外,研究组从社会科学研究和数字文化遗产领域引入“Paradata”一词,将其定义为“有关用于创建和处理信息资源的程序和工具的信息,以及有关执行这些程序的人员信息”。这一概念有助于确保AI驱动系统的设计从一开始就尊重档案道德,并有助于评估现成的自动化解决方案。杰里米•戴维特(JeremyDavet)等人认为旁数据(Paradata)②有助于识别和记录档案中使用的AI技术及其使用方式,帮助档案工作者理解AI过程。
将视线转移至国内,我国学者认为人工智能时代下,现有的档案学基础理论适应性较弱,亟须发展适合新环境的档案管理理论,人工智能与档案管理深度融合需要与时俱进的理论作为支撑。在必要性探讨方面,人工智能融合档案学基础理论,可有效解决档案工作中的技术伦理问题。通过应用人工智能领域的工程化原则与技术,档案知识工程理论将各类档案资源作为研究实践的基础,解决档案知识获取、知识表示和知识应用等关键问题,并设计和构建用户友好的档案知识库,以填补现有档案资源开发和利用理论及模式的缺陷。在原则性探讨方面,人工智能变革档案学基础理论时仍需“守正创新”。元宇宙情境中档案学发展依旧是以档案学的基础理论为指导,实现与社会环境变化的同步演进和协调发展。然而,与国外学者十分强调档案学的基础理论、方法和基本原则,以档案学的核心理论为出发点和终点相比,我国学者对档案与人工智能研究更侧重于工具性的应用实践,而非深入融合档案管理的基本原则与人工智能技术。可见,我国档案实践领域的探索尚未引发理论框架的革新,人工智能赋能档案鉴定理论、分类方法和保管方法尚未形成新的理论成果,表明该领域的理论研究仍处于起步阶段。
20世纪六七十年代,电子文件的出现对档案学基础理论发起了冲击,如今大模型正挑战着档案学基础理论的既有范式,并催促其作出回应。而已有研究成果主要是对“挑战—回应”的必要性、重要性及宏观指导性原则进行探讨,并未全面、具体、深入地剖析人工智能及其技术之于档案学基础理论提出了哪些挑战, 乃至档案学基础理论应如何回应这些挑战,从而实现理论自洽与理论自信。这些问题的解决不仅是档案学受外界环境影响下的理论革新,更是档案学本身走向理论自觉的体现。
档案学基础理论是对档案学研究具有普遍基础意义的规律性理论问题的探讨。由于档案学是一门应用型学科,其理论的内容及抽象程度有其应用科学的基本特点。这一特征决定了档案学基础理论主要包括两个层面:对档案与档案管理活动的基本理论性认识,如档案的定义、本质,档案管理的性质、规律等;二是具体指导档案管理的基本理论,即关于档案管理的总体性、宏观性理论问题。本文所论述的大模型对档案学基础理论的挑战主要聚焦于第二层面,即大模型的应用对几大支柱性档案管理理论带来的挑战。这其中,秉承历史主义的基本原则和核心方法,来源原则被视为档案管理的“至上法则”,历经百余年的发展已成为国内外档案界共同遵循的档案管理理论范式,从尊重档案形成过程中的有机联系,到注重文件的形成过程和背景;从通过实体集合来反映文件之间的有机联系,到使用元数据来记录文件的结构和背景信息,其本质都是尊重历史,维护历史记忆的真实和可靠。文件生命周期理论则将研究视角扩展至文件与档案管理之间的关系,突出强调文件与档案运行、管理活动的整体性与有机连续性,其实质在于探寻文件运动的客观规律,以此作为确定文件、档案管理体制、管理方法的依据,同样体现了历史主义的思想内核。为判定档案的价值形态,档案鉴定理论衍生出了以历史主义为基点的“社会分析与职能鉴定论”“文献战略”“宏观鉴定战略” 等理论形态,以档案所反映历史事实的重要程度作为判定价值大小的依据,呼应了来源原则的理论内核。20世纪90年代后,随着后现代档案学理论的体系化发展,档案记忆观成为档案管理的又一重要理论形态,从档案、档案馆、档案工作者三个维度回应并指导了包括档案的“收—管—存—用”在内的“两大方面”“八个环节”的实践工作,颠覆了以往档案管理的既有思维,档案事业进入了后保管时代。以上四大理论既有经百年传承但又历久弥新的档案管理基础理论,也有新时代背景下产生的新兴理论,它们共同构成了档案学独有的“理论话语体系”。由此,探讨大模型对档案学基础理论的挑战,自然绕不过这四大理论。下面,本文将着重剖析大模型对来源原则、文件生命周期理论、档案鉴定理论、档案记忆观四大理论的挑战及其回应。
3 大模型对档案学基础理论的挑战 |
如今AI4Science引领的第五范式正在引发跨学科研究的变革。尽管通用人工智能一直是学术界的热点议题,但以往的机器学习算法在泛化性和通用性方面存在明显的局限。大语言模型的出现,标志着我们向通过统一框架处理多样化下游任务迈出了重要一步,其不仅具有较为丰富的世界知识、较强的通用任务解决能力、较好的复杂任务推理能力、较强的人类指令遵循能力、较好的人类对齐能力,还展现了工具使用的可拓展能力。本文所讨论的大模型是人工智能领域的关键技术之一,而智能体则是基于大模型的智能体,它们代表了大模型技术的主要应用场景和未来发展趋势(如表1)。通过梳理大模型及其相关概念的定义和范畴,能更深入地理解大模型如何推动档案学基础理论的演变和创新。
表1 概念的定义、讨论范畴与相互关系 |
大模型给档案学基础理论带来的挑战是复杂且多元的。例如,如何重新界定传统档案的基本构成要素,如何发展传统档案鉴定理论以适应系统批量处理的档案鉴定任务,如何改进传统档案分类方法和全宗理论,以满足数字环境中多主体协同生成信息的归档需求。知识社会学的认识论认为,一切学术视角均诞生于某种特定的时空环境。质疑来源于理论对技术与信息环境骤变的适用性降低的局限。电子文件时代理论的修正与重新发现、模拟态档案时代产生的理论,主要揭示的是电子文件、模拟态档案运动的规律,而面对AIGC、智能体、自动化AI工作交织的文件/档案运动现象,档案学基础理论难免遭受冲击。如表2所示,人工智能时代与传统时代相比,档案学基础理论面临来源概念狭窄,文件生命周期延伸、档案价值变化,档案鉴定缺失可信性、档案鉴定销而不毁,记忆建构主体危机等诸多挑战。
表2 传统时代和人工智能时代档案学基础理论的内容要点对比 |
3.1 对来源原则的挑战——来源概念狭窄
作为档案学支柱理论之一,来源原则强调档案馆按照档案的来源进行整理和分类,要求同一来源的档案不可分散、不同来源的档案不得混淆。在电子文件时代,来源原则遭受冲击,并被重新发现,“新来源观”应运而生。“来源”概念被重新定义为文件的形成过程和背景,即文件是由谁、在什么条件下、运用哪些数据、为了何种目的、采用怎样的结构形式等综合背景信息。电子文件时代下档案学的“新来源观”已经完成从机构来源向职能来源的转向,人工智能时代则亟须进一步发展出新的、符合数智时代档案理论方法新需求、解决数智时代档案业务工作新问题的“新来源观2.0”。大模型对来源概念、文件档案“背景”概念构成带来挑战。
3.1.1 智能体参与文件的形成过程
传统档案学理论视域中的“来源”即文件形成者,包括机关、组织或个人。20世纪90年代,随着电子文件的产生并大量增长, 新来源观所提倡的“概念来源”开始取代传统的来源概念,加拿大档案学家特里• 库克(Terry Cook)认为,“电子时代档案来源的概念需要重新考虑、酝酿和定义,它不仅指文件的形成机关,更包括文件形成目的、形成活动、过程、处理程序和职能范围等”。国家档案局发布的GB/T 18894-2016《电子文件归档与电子档案管理规范》也明确电子文件由内容、结构、背景组成 。阿普沃德等人也强调“单一来源”的改变,将“来源管理”定义为在信息环境中处理业务相关方的身份管理。随着人工智能逐步渗透至档案工作中,电子文件的形成主体“国家机构、社会组织或个人”的范围界定便愈发狭窄。文件形成过程不再只是由机关、组织或个人等单一的文件形成者生成档案的过程,而是变成了一种智能体参与的人机协同操作过程。以电子档案数据采集为例, 大模型辅助档案系统从网页爬取信息,分析并自动捕获元数据获取所需的档案信息。据有关统计,使用人工智能采集模型可实现档案业务水平超专业档案工作者水平的八成以上 。因此,重新审视、强化文件形成者的角色和价值,审慎考量、塑造文件形成者与智能体间的互补关系, 就变得十分必要。
在人工智能时代,智能体开始参与文件的形成过程.随着大模型的兴起,智能体与人类和谐共存已成为现实。智能体可感知、决策和行动。人工智能参与电子文件业务活动通常以智能体作为技术代理:一是代替档案工作者做重复、简单的例行工作。二是智能体的专业化。使用开源的大模型基底,加上专门的档案工具和数据集,针对档案领域量身定制通用的档案大模型ArcGPT。三是智能体可获得更多的信任、选择、行动的权力。尤其是随着效率和专业性逐渐增强,档案领域的智能体从事的业务活动将从简单的选择发展为更具影响力的决策。技术授权的范围由单态行为逐渐扩展成行为群,甚至整个行为坐标系,智能体可能将成为完全的人工代理。届时,电子文件形成者将不仅仅是“国家机构、社会组织或个人”,智能体也参与其中,甚至档案工作人机互动的渗透率会越来越高。
3.1.2 文件档案的“背景”概念有待扩充
背景作为文件档案的构成要素之一,提供文件档案形成、保存和利用等过程信息,用于验证和维护文件档案的真实性、完整性和可靠性,是文件档案管理活动的重要工具。在文件材料的形成与积累过程中,档案工作者需要确保所用技术能够追踪并记录档案的来源,以符合来源原则的基本要求,也就是档案工作者必须准确地描述档案的背景,并让档案利用者能使用并了解该背景,进而发挥档案证据价值,实现档案来源可追溯。背景信息较为完整地描述了文件档案的来源情况,丰富着“来源联系”,维护着全宗完整性,能够反映文件档案的原始内在秩序。大模型的自动化特性增加了档案来源的多样性,进一步挑战档案来源的追溯性及其背景。尤其是在处理网络存档、人工智能生成内容(AIGC)时,可能造成档案来源的误判、漏判,档案来源被伪造、篡改的风险。比如,欧洲大屠杀研究基础设施(European Holocaust Research Infrastructure,简称EHRI)项目,利用人工智能技术自动同步来自不同来源的档案元数据,以实现高效地检索和利用。那么,该项目是只保存输出的结果文件,还是同时保存人工智能算法、所有数据、代码表、日志等?珍妮•邦恩(Jenny Bunn)认为,使用可解释人工智能(Explainable Artificial Intelligence,简称XAI)的理念,不仅需要存储档案,还需要存储解释。人工智能环境下的文件档案的背景,如运用AIGC技术实现标签与摘要功能,在档案之外还自动生成关键词标签和档案摘要。因此,文件档案的背景还应包括除输出结果文件外的人工智能算法、所有数据、代码表、日志等各背景实体之间的有机联系、档案内容描述和实体间的隐形联系。
3.2 对文件生命周期理论的挑战——周期延伸、价值转化
文件生命周期理论是研究文件从最初形成到最终销毁或永久保存的整个运动过程、研究文件属性与管理者主体行为之间关系的一种理论,是对文件—档案运动过程和规律的客观阐述和科学概括。电子文件的可回溯逆向运动挑战了文件生命周期理论既有的线性模式。2000年,阿普沃德等人提出文件连续体模型,构筑了一个包括形成、捕获、组织、聚合四维,身份、证据、互动、文件管理存储器四轴的多维坐标系来描述文件的运动过程。人工智能时代,由于介入人工智能系统的设计阶段存疑,文件生命周期理论的周期划分、文件价值形态的动态变化规律不断受到挑战。
3.2.1 文件生命周期的延伸
文件生命周期的“起点—过程—终点”均因大模型受到调整。首先,如何界定文件生命周期的起点?由于电子文件对技术、设备和系统的极大依赖性,电子文件的生命周期向前延伸至系统的设计阶段,如国际档案理事会电子委员会(International Councilon Archives,简称ICA)依据电子文件管理信息系统的流程,在《从档案视角管理电子文件的指南》中把电子文件的生命周期划分为设计、形成和维护阶段,将电子文件管理系统的设计、开发和安装阶段纳入电子文件生命周期。档案领域应用人工智能系统,是档案理论指导人工智能工具的开发,抑或人工智能技术为主导生成档案管理系统?当前,这一问题仍悬而未决。InterPARES TrustAI项目根据上述问题进行的档案与人工智能之间的权力主导关系试验还在进行中。人工智能时代,若将档案大模型设计、开发和安装阶段纳入电子文件生命周期中,这隐藏了电子文件与人工智能系统的设计阶段和形成阶段之间时间间隔的处置问题。若将档案大模型在内的系统设计时间间隔并入电子文件生命周期中,模型训练过程并未产生任何文件,那么电子文件的“起点”在何――这一问题需要重新考虑。
其次,大模型如何影响文件生命周期的过程?大模型技术替代了重复工作,以训练模型赋能档案全生命周期管理,实现档案收集智能化、档案鉴定智能化、档案开发利用智能化,这就意味着文件从形成到销毁或永久保存的完整运动过程将变得更为复杂。目前, 人工智能方法和技术已被积极用于部分自动化存档工作流程,特别是围绕文件连续体模型的“捕获”和“组织”维度。大模型具有强大的记忆能力,尤其是经过大量数据训练后,能够泛化所学到的知识,对新数据做出反应,并自动存储和处理大量的信息。人类有时会因为各种原因遗忘信息,但大模型不会“遗忘”,除非是有意删除或更新数据,否则大模型会持续保持对训练数据的记忆。例如,近期发生的国内AI创业公司面壁智能的大模型被美国斯坦福大学AI团队套壳抄袭事件,有力的证据是面壁智能的大模型在研发时内置了对“清华简”识别能力的彩蛋,抄袭的大模型展现出一模一样的清华简识别能力、错误的识别样例。
最后,大模型影响下文件生命周期延伸至何处?大模型通过记忆电子文件要素进而改变其生命周期。InterPARES 项目中电子文件五要素观点 受到广泛认可,满足如下条件才能被视为电子文件:(1)固定的内容和成文形式;(2)参与一个由拥有相应权限的机构或个体发起的,旨在改变境况的行动;(3)具备档案联;(4)最基本的文件形成者共同参与文件形成;(5)具备五个可识别环境。基于五个层面,档案大模型通过记忆能力延长电子文件的生命周期:一是记忆档案数据中固定的内容和成文形式,如大模型习得档案内容的语法规则、词汇用语。二是记忆档案中的事实性信息。三是记忆档案联的上下文信息。四是记忆档案工作者的交互历史。五是记忆特定任务、知识、场景以生成决策。因此,文件运动的后端将发生变化,需要重新定义文件的“生命周期”,考虑在原来电子文件运动的终点“销毁或永久保存”的基础上,延伸至一个新阶段――永久使用。
3.2.2 文件价值形态的动态转化
社会主体在开展社会活动过程中往往自发产生记录、保管、利用等不同的文件需求。为满足主体的文件需求,文件的客体属性在社会主体的评价体系中被赋予了不同的价值属性。文件价值的产生与演变源于文件运动每一阶段上社会主体需求的可变性和主导性 。引起文件阶段性变化的根本原因是文件价值形态的规律性变化。根据美国档案学者西奥多• R.谢伦伯格(Theodore R.Schellenberg)提出的文件双重价值理论,对于形成者的价值和对形成者以外主体的价值可被称为第一价值和第二价值。传统时代和电 子文件时代,档案的价值形态呈现第一价值逐渐下降、 第二价值逐渐上升的趋势。由于需要重新定义文件的 “生命周期”,考虑将电子文件运动的终点延伸至“永久使用”,那么,文件价值形态中的第一价值、第二价值也将相应发生更为持续而深刻的变化。
档案价值理论的历史发展反映文件价值规律的深刻变化。文件双重价值论强调对原形成机关的第一价值、对其他机关和个人利用的第二价值,主张从文件自身属性与利用者需求关系判断文件价值。在此基础上,宏观鉴定论将档案价值提升为社会价值,并将文件价值判断依据转变为文件形成者的职能和结构。如前文所述,档案大模型通过记忆能力从五方面延长电子文件的生命周期至永久使用,这不仅引起档案第一、第二价值波动,而且推动了档案文件价值判断依据的变化。阿普沃德等人强调动态网络环境超越孤立的“价值决策”理念,也关注业务应用程序中的档案部署和利用问题的质量管理,确保文件成为提供可追溯性记录的行为证据。在文件自身属性与利用者需求关系、文件形成者的职能和结构之外,文件作为大模型训练语料的价值也逐渐凸显。这一价值判断与文件自身属性和利用者需求、文件形成者职能和结构的判断依据,共同构成了大模型中文件价值形态的复杂变化。
3.3 对档案鉴定理论的挑战——缺失可信性、销而不毁
特里• 库克曾言:“档案工作者在鉴定的时候,就是在决定未来的人们能知道过去的哪些内容,谁的声音会被保留下去,而谁又得保持沉默。” 狭义的档案鉴定,又称档案价值鉴定,是依据一定标准,鉴别和判定档案的价值,挑选出有价值的档案交档案机构保存,剔除无保存价值的档案予以销毁,即档案鉴 定是一项判断档案价值、决定档案存毁的工作。电子文件时代,档案鉴定理论面临新环境、衍生出多角度鉴定观。而在人工智能背景下,档案鉴定理论将面临缺失可信性检测和销而不毁等难题。
3.3.1 档案鉴定缺失可信性检测、
档案馆对电子档案的技术鉴定,主要是对电子档 案的“真实性(准确性)、完整性、可用性(可读性)、安全性”进行检验(即四性检测)。为了规范电子档案 的“四性”检测工作,国家档案局制定了电子档案“四性”检测标准规范。2012年国家档案局发布的《电子档案移交与接收办法》强调在电子档案移交和接收过程中要对其“四性”进行检测;2018年发布的档案行业标准DA/T70-2018《文书类电子档案检测一般要求》,明确了电子文件归档、移交和接收、长期保存环节中真实性、完整性、可用性、安全性的检测内容,并制定了具体检测方案。
但是,在人工智能时代下,电子档案的技术鉴定将受到挑战。电子档案的可用性、信任问题和形成背景将被逐渐置于档案工作的中心。大模型带来的算法偏见、算法黑箱等问题,可被归结为人工智能可信性这一范畴。由此,人工智能时代下电子档案“四性”检测的理论研究,与人工智能可信性导致的电子档案可信性研究逐渐耦合。电子档案“可信”的内涵及外延要远大于其“四性”特征。电子档案可信管理定义强调的是电子档案管理全过程始终处于可信受控的环境、并自动接受可信评估与认证。然而,电子档案可信管理法律法规与标准规范不完善,可信管理覆盖流程与证据记录留存有限。《欧盟可信人工智能道德准则》(Ethics Guidelines for Artificial Intelligence)提出,可信人工智能框架需要确保AI技术在开发、部署及应用中尊重所有适用的法律和法规、尊重道德原则和价值观、达成技术健壮性,可信人工智能(Trustworthy AI)话题涵盖鲁棒性(可靠性)、安全性(对抗鲁棒性)、公平性、可解释性四个主题。由此,AI+档案工作的愿景是将可信AI技术应用于可信档案管理中,但目前电子档案鉴定过程缺乏可信检测(见图1),现有的档案鉴定理论也无法指导电子档案的可信性检测,理论滞后明显。
图1 档案“四性”与可信性的交集 |
3.3.2 档案鉴定销而不毁
档案销毁鉴定是档案价值鉴定的最后一环。销毁档案是消除社会记忆、忘却历史事实的有效手段。2018年国家档案局发布的《机关档案管理规定》要求电子档案和档案数字复制件除离线存储介质的物理销毁外,还应当确保电子档案和档案数字复制件从系统中彻底删除。然而,大模型对档案活动全面记录、即时再现,且相关操作难以抹除,这就使得“遗忘变成例外,而记忆成为常态”。大模型的长期记忆系统、超强记忆力、无限记忆力强化了记忆的永久保存状态,打破了归档记忆与销毁遗忘之间的平衡。若通过介质销毁、信息清除销毁档案,其所承载的社会记忆并不会随之消失,这导致传统的档案销毁鉴定难以完成档案销毁功能,造成档案销而不毁难题。
3.4 对档案记忆观的挑战——记忆建构主体危机
档案记忆观是从集体记忆、社会记忆视角对档案、档案工作及档案工作者的系统认知,以及从档案学视角审视集体记忆、社会记忆及其建构的独特观念。档案记忆观思想内涵包括档案是建构社会记忆的不可替代要素;档案工作是建构社会记忆的受控选择机制;档案工作者是建构社会记忆的能动主体;档案记忆促进身份认同。档案记忆观受大模型影响,存在算法权力影响档案工作建构社会记忆的受控选择机制、档案工作者积极参与性消减等问题。
3.4.1 算法权力影响受控选择机制
档案工作作为一种受控的选择机制,在保存社会记忆时,往往受权力影响,即档案馆在统治阶级和权势阶层的控制下,有选择地保存社会记忆。在人类记忆4.0时代,全球记忆的控制权争夺成为关键,媒介记忆与数字化记忆紧密相连,数字技术对媒介记忆的塑造和控制呈现出主导性趋势。在人工智能时代,大模型的算法权力强化了档案工作既有的国家、政治、权力属性,共同影响档案工作对建构社会记忆的受控选择机制。
当代历史学家、社会学家、档案学家充分论述了古往今来档案被权力控制,记忆被权力规训的事实。人工智能时代,智能算法技术催生了算法自主决策,算法的机器优势、架构优势和嵌入优势衍生了算法权力。大模型应用于档案工作,通过算法权力无形中操控了对社会记忆的选择机制。其一,智能算法通过占有、处理与输出档案数据,逐渐演化为建构社会记忆的重要力量。智能算法具备运算智能,可辅助档案工作者存储和快速处理海量档案数据,档案工作者因无法应对海量档案数据计算任务而逐渐交出决策权。其二,智能算法通过搭建复杂架构形成档案工作行为规范,获得对档案工作者行为的支配力量。智能算法具备认知智能,具有自主分解复杂档案管理任务并进行深度学习、自主决策的能力,可通过对现有档案数据的自主测试进行算法改进,甚至直接输出“生成式”档案数据。其三,智能算法辅助甚至代替档案工作者行使权力,做出具有法律效力的算法决策。智能算法结构性嵌入档案工作权力运行系统,实时干预、影响甚至代替档案工作者作出决策。随着档案工作者对算法权力的高度依赖,档案工作者及其主导下的档案管理功能将不可避免地出现“能力停滞”,这将导致社会记忆的“异化”。
3.4.2 档案工作者积极参与性消减
档案工作者作为“文件生成者和文件存储机构之间、档案和用户之间、过去概念和现存文献之间的中介者”,参与社会“记忆”或“遗忘”的建构。传统的档案工作者以社会记忆的积极建构者为身份认同,审慎地评估和决定哪些文件应被归档,尽可能减少个人偏见以确保留存的文献记录了社会的方方面面。特里•库克强调,在鉴定文件时(包括保管期限和文件处置),档案工作者应该尽量避免文化偏见和预设,即鉴定应该像对待那些在官方机构文件中所体现的权力声音一样来照顾到那些边缘化的,甚至是那些“沉默”群体的声音。档案记忆观的思想精髓就在于强调档案工作者在建构社会记忆中的主体意识。
生物学认为记忆要经过信息的编码、存储和提取等三个步骤,神经科学领域普遍认同,记忆的产生是通过神经元间的连接构建出独特的神经网络路径实 现的。人工智能通过还原论学习生物学、神经科学的记忆知识,并以此作为自身基础,继而通过复刻人类特定记忆神经元的标记、搭建特定的神经网络回路,产生特定的记忆行为。科学家发明循环神经网络 (RNN)实现了持续记忆的能力;长短期记忆递归神经网络(LSTM)赋予神经网络连续性和长期性记忆能力;Transformer 架构采用自注意力机制(Self- Attention)和编码器—解码器结构,实现了并行计算和全局依赖建模。谷歌甚至重塑了Transformer,提出无限注意力(Infini-Attention)的新型注意力机制,使大模型基础研究获得重大突破,实现无限记忆力、无限长输入。以大模型为核心驱动力的AI 智能体以强大的记忆能力,不断挤兑档案工作者的社会记忆建构权,这势必会导致其建构社会记忆的积极参与性持续消减。
大模型的自动化和智能化特征,降低了档案工作者在档案“收管存用”重复性、程序化任务上的参与性。2024年,欧洲金融巨头Klarna使用人工智能接管三分之二的客服聊天,错误率比人类客服低25%,用户满意度更高,获得4000万美元/年的额外利润。自动化的文件分类、索引和检索系统等程序性强和重复性高的工作可快速处理大量文件,成本低廉和效果更佳的大模型更具竞争优势,也进一步降低档案工作者在劳动密集型工作中的参与积极性。随着大模型在档案业务工作场景中的广泛部署,大部分智力工作也有被取代的可能。2024年3月,CognitionAI初创公司发布的全球首位人工智能程序员Devin顺利通过顶级科技公司面试并独立开发网站和游戏。大模型的高级分析和预测能力会降低档案工作者对多源异构档案数据的收集、管护和分析的竞争力。
4 档案学基础理论对大模型挑战的 回应 |
大模型对档案学基础理论的挑战,彰显了技术作为一种工具对传统理论的影响、改变甚至颠覆。反过来,档案学基础理论在面对大模型带来的挑战时,也需进一步自我调适和创新,以实现理论自觉、理论自洽(见表3)。
表3 档案学基础理论对大模型挑战的回应 |
4.1 新来源观概念与背景的再发现
其一,将来源更新为文件集成者。传统来源中的 “国家机构、社会组织或个人”等“文件形成者”已不足以囊括人工智能时代档案的形成主体。随着智能体开始参与电子文件的创建、处理和管理全过程,智能体开始成为形成电子档案的“来源”之一。但与传统文件从无到有的“形成”不同,大模型影响下的电子档案更多是一种“集成”的结果。智能体不仅可以自动生成报告、分析结果等,还能够对文件进行分类、整理和初步审核。这要求档案工作者重新考虑如何界定文件形成者和“来源”,在文件形成者中纳入智能体的角色和贡献,确保档案来源的完整性和可追溯性。
其二,应丰富文件档案的背景概念。文件档案需要进一步扩展包括但不限于人工智能算法、所有数据集、代码表、日志文件等各背景实体之间的有机联系、档案内容描述和实体间的隐形联系。新背景概念对于理解和利用文件档案具有重要意义,可显著提升文件档案的可访问性、智能处理能力。GB 18894《电子文件归档和电子档案管理规范》规定电子文件归档时“以专有格式归档的,其专用软件、技术资料等齐全、完整”。目录、软件等一同保存是为了保障电子文件的可读可用性。人工智能算法和数据与算力组成大模型三大基石。算法是档案大模型的规则,定义了如何使用档案数据进行计算和决策,保存算法是储存档案大模型的学习、推理和决策过程。档案数据是大模型训练和学习的燃料,其为大模型能够学习有效的档案管理规律和特征提供准确的样本和标签,有助于大模型更好地泛化和适应各种不同的档案工作场景。代码表确保档案数据的一致性、可比性,便于跨大模型系统的档案数据交换。日志记录文件的产生收集、档案整理和保存、档案利用等历史,用于追踪档案的管理过程和增强档案可信度。
4.2 强调文件生命周期的动态连续性
其一,动态、连续的文件生命周期延长至永久使用。黄夏基等人认为,电子文件管理信息系统划分电子文件运动阶段并不科学,电子文件的设计阶段仅是为生成文件做准备,无任何文件产生,设计阶段应剔除在电子文件生命周期之外 。同理,人工智能档案大模型在设计阶段通过预训练海量档案数据习得档案管理技能,在消耗大量档案语料后并无任何文件产生,因此,应将档案大模型设计阶段剔除在电子文件生命周期之外,建设一个更为动态、连续的文件生命周期模型,该模型主要集中于文件运动的整体性以及文件运动过程的延伸。在该模型中,为兼顾电子文件在人工智能时代可能会被不断重新利用的实践情境,文件生命周期观念应从传统的文件“形成到销毁或永久保存”扩展至“永久使用”。
其二,文件价值形态的持续变化。在人工智能时代,文件的“永久使用”使文件现行阶段的价值得到增强。按照谢伦伯格第一价值和第二价值的分类,大模型应用导致的文件价值变化(如图2),包括对于形成者价值(第一价值)的先减少后增加,以及对形成者以外主体价值(第二价值)的先增加后减少。由此,传统线性的文件生命周期模型需随着大模型的冲击而更新为“双螺旋”模式。
图2 人工智能时代文件生命周期“双螺旋”与文件价值的变化 |
4.3 关注档案鉴定理论的可信度检测与被遗忘权
其 一,关注档案鉴定理论的可信度检测。Inter PARES 项目在不同阶段围绕真实性、完整性、可靠性、 准确性等方面探索保障电子文件长期可信和可用的方案,自此延伸出“可信”(Trustworthy)的概念以代替 传统的“信任”概念。该项目的第四阶段InterPARES Trust 致力于建立文件信任、公众信任、社会信任,清晰界定和拓展“可信”概念的内涵,即真实的、完整的、可靠的、准确的,且可用可读的均可被视为“可信的”外延。AI+档案工作的愿景是将可信AI技术应用于可信档案管理中,但传统的档案鉴定理论却缺乏可信度检测。比如,文件连续体框架下的每一次档案“挑选” 活动似乎都可归入档案鉴定范畴。但缺乏人工监督的自动化鉴定过程在元数据处理与格式过时判断等方面仍存在诸多限制,导致鉴定结果难以完全令人信服。为克服这一弊病,一是除了最简单的自动化流程外,其他所有流程可能都需要某种程度的人为干预;二是为了证明自动鉴定的结果是可被信任的,记录其完整过程的文件应予以保留。
其二,关注档案鉴定理论的被遗忘权。电子档案和制作现行使用档案数字复制件仅依靠介质销毁和信息清除难以销毁档案的全部信息,其所承载的社会记忆依旧保存在大模型记忆算法之中。在修正档案鉴定相关理论时,除了明确档案的保存价值、归档范围和保管期限等标准外,还应着重于档案销毁的程序和方法,确保档案记忆的删除过程具有合法性并得到合理的解释。
4.4 规范算法权力和掌握记忆话语权
其一,规范档案工作中大模型的算法权力。一是档案数据治理过程中实施公正性算法、透明和反歧视的法规和伦理规范,确保档案数据收集、存储和处理公平性、安全性,保持社会记忆建构的多元与平衡。二是形成档案工作行为规范,制定算法设计、部署、使用的档案工作行为准则,提高算法透明度、决策过程可追溯。三是明确和限制算法对档案工作者行使权力的辅助角色,并明确档案决策责任归属。
其二,档案工作者是掌握社会记忆话语权建构的能动主体。大模型影响下,档案工作者在从“客观的”“中立的”“无偏见的”被动文件保管者的传统角色,向“增强主体意识”积极的记忆构建者角色转变过程中,其主体地位受到强势智能体的威胁。在“AI 向善” 发展观的导向下,档案工作者应作为信息第三方参与协助生成AI 的解释并进行解释的传递和阐明。档案工作者从文件/ 信息管理者转化为经验提供者和决策制定者将是理想的“人机互动”档案实践场景。档案工作者要做好“把关人”,掌握“人机互动”话语权,档案的鉴定和存销需要维护专业判断和人为干预,以确保档案的多样性和客观性,防止技术的偏见影响档案在社会记忆建构中的角色。这要求档案工作者应成为连接历史信息与现代技术的桥梁,帮助公众更好地理解和利用档案。
5 结语 |
肯尼思• 锡伯杜(Kenneth Thibodeau)博士曾总结档案学理论研究的两大理想视角:一是档案的根本作用是使过去变得触手可及,档案使历史以其自身的方式被人们所了解;二是档案学理论应尽量减少管理活动在档案上的印记,使研究人员能够从他们自身的角度来解释记录,并探索其与档案之外事物的关系。 人工智能时代下,这两大视角依旧重要:大模型赋能档案、档案工作、档案工作者使历史触手可及的同时,也对既有档案学理论发起了挑战;技术在档案工作中的过度渗透又使档案学理论的适用性与实用性变成一个不可回避的重要问题。为回应大模型的挑战,档案学基础理论的自我更新成为解决时代问题的关键。新来源观概念与背景的再发现、文件生命周期的双螺旋模式、档案鉴定理论的可信度检测与被遗忘权规则的制定、记忆视角下算法权力的进一步规范,是应对诸多挑战后档案学基础理论调试的结果。然而,技术的迭代与发展永无止境,唯有拧住理论革新的“金钥匙”,档案学方能更好地屹立于学科之林。
*参考文献略,请详见原文。 |
END
版式设计
陆澜
制版编辑
王淳洋
关注公众知识状态 / 引领学科发展潮流 Focusing on the State of Public Knowledge Leading the Development Trends of the Discipline |
网络首发 | 面向任务的多源异构医养数据融合框架设计——基于数据可供性视角
网络首发 | 加强信息资源管理,助力新质生产力
网络首发 | 人工智能决策性别公平研究:构件、模式与生态系统
网络首发 | 楚门的世界:短视频虚假信息多模态特征及其传播效果
网络首发 | 大模型“涌现”视域下的智能健康医疗知识管理体系变革与创新发展