0点“兰台之家”,关注设为星标
早上6:00见,发送“签到”,打卡阅读攒积分
打开“订阅号”——常看的号“兰台之家”
编者按:《生态系统视角下我国数字档案馆建设战略研究》第五章第四节从数字档案长期保存中的接收工具、档案存储与数据管理工具、行政管理工具、保存规划工具、存取工具等方面对数字档案长期保存相关技术工具体系进行调研和总结,经出版社及作者团队同意,现节选部分内容供大家学习交流。
接收作为数字保存系统中最前端的工作流程,是一个十分重要也比较复杂的过程。相应地,相关机构团体开发了与数字资源接收过程相关的各种自动化工具,包括信息封装与传输工具、完整性校验工具、格式检测与转换工具、元数据抽取工具等,数量丰富。对用于实现接收模块功能需求的一些具有代表性的工具介绍如下。
5.4.2.1 信息包封装与处理工具
Baglt是在美国国家数字信息基础设施和保存计划(NDIIPP)支持下,由美国国会图书馆及其合作伙伴研发的信息包验证和传输工具,其基于Baglt规范,可以实现对Baglt包的创建、处理和校验(网址为https://sourceforge.net/projects/lcxferutils/)。需要 Java 8支持的Baglt工具软件的最新版本V5.2发布于2018年6月。作为一个开放源码的Java类库,Baglt通过调用不同类中的不同函数实现对包的一些操作。此后发布其 Python 版本。Baglt规范已在数字保存领域被广泛接受,其工具被应用于多个数字资源长期保存项目之中,例如美国NDIIPP的Chronopolis 项目,美国斯坦福大学的 Digital Repository 项目等。
5.4.2.2 完整性校验工具
审计控证环境(ACE)是Chronopolis 项目开发的一套成熟的开源软件(网址为https://wiki.umiacs.umd.edu/adapt/index.php/Ace:Main)。Chronopolis 项目的一个关键组成部分是确保Chronopolis 环境下管理的美国NDIIPP存档资源的真实性和完整性,ACE则承担和实现了这一重要功能。ACE本质上是一个原型系统,使用严格的加密技术来解决长期保存的完整性问题。ACE根据所设置的保存策略对各类数字对象进行持续不断的审核,并为第三方审计人员提供检验机制以验证任何内容的完整性。
5.4.2.3 格式识别与转换工具
档案馆 XML电子文档格式规范是由澳大利亚国家图书馆推出的免费开源格式软件(网址为https://sourceforge.net/projects/xena/)。Xena主要具有两大功能,一是识别确定文件格式,二是将数据对象转换为基于标准的开放数据格式,用以长期保存数据。Xena 支持很多文件类型的转换和规范化,包括压缩文件、音频、数据库、文档、电子邮件、图形文件等,涉及MBOX、PST、MSG、DOC、XLS、PPT、RTF、PNG、XML、PDF、JPG、TIFF、PCX、WAV、MP3等多种格式。
5.4.2.4 元数据抽取工具
元数据抽取工具(MET)是由新西兰国家图书馆开发的软件工具,通过从数学文件中自动提取与保存相关的元数据,并以XML格式输出该元数据,用以保存数据(网址为http://meta-extractor.sourceforge.net/)。MET支持从图片、文档、音频、视频、网页文件等不同数字对象的近20种文件格式中提取元数据,针对未知类型文件,也能从中抽取通用的数据信息。MET以只读方式打开所有文件,从而可以确保原始文件的完整性。
在接收过程中,除了上述介绍的代表性工具,还有很多优秀的软件工具值得关注与利用。例如,在格式识别、元数据提取方面,有 Apache PDFBox、DROID、FITS、ExifTool、PET等工具。
5.4.1 数字档案馆长期保存技术工具体系的构成
5.4.3 档案存储与数据管理相关工具
5.4.4 行政管理相关工具
5.4.5 保存规划相关工具
5.4.6 存取相关工具
更多档案好书,请上兰台优选!
编辑:吴凡 小融 责编:贾伟汉
问题反馈宣传合作请留言
投稿邮箱:2438436422@qq.com