数字档案长期保存相关技术工具体系(节选)

文摘   2024-11-19 06:01   北京  

请点“兰台之家”,关注设为星标

早上6:00见,发送“签到”,打卡阅读攒积分

打开“公众号”——常看的号兰台之家




编者按:《生态系统视角下我国数字档案馆建设战略研究》第九章第四节从我国档案数据中心发展与建设技术路径的建设框架、基础设施平台、数据平台建设、数据标准化、数据中心建设、安全体系建设等方面进行调研和总结,经出版社及作者团队同意,现节选部分内容供大家学习交流。


点击快速选书→



内容鉴赏
9.4.1 建设框架

与一般信息化项目建设内容相似,档案数据中心建设大致可以分为IT基础设施、数据采集-存储-标准化、数据实时处理和AI、数据产品等4个层级,数据服务和治理则贯穿4个层级,如图9-4-1所示。从实现层面来看,在建设档案数据中心的过程中,技术是不可或缺的,构建数据平台通常从基础设施建设开始,然后配合业务需求,逐步完善和打通各个技术环节。如前文所述,档案数据中心是以大数据技术为基石构建的新型数据平台,所以本节将不再对传统技术框架下的构建路线和方案进行讨论。由于档案信息化管理水平想要从数据流程自动化的初级阶段演进到通过数据分析提供数据报表和可视化的中级阶段,最终演进到数据与业务深度融合并具备洞察力与预测分析的高级阶段,就需要以大数据技术为基石构建新的数据平台,因此本节所讨论的所有技术内容都是以大数据为背景展开的。需要说明的是,在实际工作中并不一定严格按照4个层级进行建设。每个层级之间并非“泾渭分明”,层级仅仅是对建设内容的总体概括。层级之间存在大量的技术交织与关联,例如,基础设施建设往往与大数据平台的技术支撑框架相关,前者必须与后者的分布式特性相吻合,这也是大数据平台建设更加强调“集成”的原因所在。因此,本节并不一定严格按照4个层级逐层展开分析。

关于IT基础设施,构建IT基础设施包括硬件机器的安装、组网和调试、操作系统和必要软件工具的安装,然后在硬件资源上安装和维护一个大数据集群,由其承载全部数据的存储和处理任务。广义来讲,用于支撑平台运行的基础服务(如DevOps)、数据和算法服务使用的容器和容器编排服务等也都属于基础设施。数字档案馆的IT基础设施大多建设在自有机房。随着政务云服务的普及,越来越多的档案应用设施被迁移到政务云上,稳定、安全的政务云平台能够让档案管理部门将更多的时间用于业务层面的研究处理,减少技术层面的投入,对于区县一级的档案管理部门更是如此。但考虑到档案信息的特殊性以及政策制度的相关规定,采用政务云和自建机房相结合形成“混合云”架构更适合档案数据中心的建设。需要注意的是,在云平台上必须高度重视数据安全问题。

关于数据采集-存储-标准化,这一过程可以简单地表述为数据仓库的建设过程。首先需要整合分布在各个业务系统中的数据,在进行必要的规范化处理之后,将数据存储到统一的大数据平台上。这是一个长期迭代的过程,特别是在建设初期,上层对数据的广泛需求和下层集成数据源的繁重工作之间会存在冲突。因此,该阶段的工作通常无法一次性完成,而是需要长时间通过启动多个大型项目来驱动该阶段的建设工作,然后在中后期维持一个规模较小的团队持续跟进其他数据源的接人工作。

关于数据实时处理和 AI,这两项技术是现代大数据平台标志性的技术能力。数据实时处理是指通过流式计算、非关系型数据库(NoSQL)等技术实现大体量数据的实时处理和读写,数据的实时处理能力对实时性要求很高的业务场景至关重要,这也是传统数据平台的局限所在。由于实时处理对技术和研发人员的要求较高,因此多数组织机构优先完善平台的批量处理能力,然后逐步拓展到实时处理领域。机器学习对技术能力的要求更高,且参与人员的角色和背景与传统的IT人员有所不同。进入该阶段时,IT团队需要引入数据科学家、算法工程师等AI领域的人才。此外,数据实时处理和AI的能力是可以同步培养的,相互之间没有明显的依存关系。当档案数据中心具备本层级的技术能力之后,就可以有力地支撑应用能力模型中的最高层级“深度洞察与预测”。

关于数据产品,从技术维度来看,组织机构的数据能力仍有上升空间,也就是以业务领域为划分依据,将现有各层级上的技术能力进行提炼并培育成“数据产品”,从功能、性能、灵活性和可扩展性等多维度进一步提升数据平台的技术成熟度。部分长期服务于某些行业的乙方公司,基于常年积累的经验,甚至有能力将一些完善的内部数据平台进行二次封装与提炼,形成行业解决方案。

从数据服务和数据治理这两个纵深维度来看,数据服务是指将数据平台上的各种数据以服务的方式提供给其他系统,这种“服务”可以通过RESTful API、Java数据库连接(JDBC)、开放式数据库连接(0DBC)等形式或协议实现,这是将数据应用能力辐射到各个系统与业务领域的关键步骤,没有灵活有效的数据接口,数据平台的作用就会受到限制;而数据治理就是对数据资产进行清晰的梳理,明确管理职责,建立配套的标准规范,同时要确保所有策略和规范能落地执行,其最终目的是保障数据质量。


本章节其他内容如下:
9.4技术路径
9.4.2基础设施建设

9.4.3数据平台建设

9.4.4数据标准化

9.4.5数据中台建设

9.4.6安全体系建设




编辑:吴凡  小融   责编:贾伟汉

问题反馈宣传合作请留言

投稿邮箱2438436422@qq.com  




阅读推荐




▶ 兰台优选上线!选档案好书 上兰台优选

▶ 世界读书日!一份专属兰台人的书单

▶ 兰台好书推荐 |《生态系统视角下我国数字档案馆建设战略研究》

▶ 我国数字档案馆建设的现状(节选)

▶ 基于数字档案资源建设现状的数字档案官网规划设计(节选)

▶ 数字档案长期保存相关技术工具体系(节选)






兰台之家
我们一起努力,让档案更有影响力!
 最新文章