实战 | 稳健前行,智驭未来——中央结算公司IT运维体系革新

学术   2024-10-21 11:22   北京  

文 / 中债金科信息技术有限公司    胡淮杨

随着我国债券市场的快速发展和数字化转型的深入推进,中央国债登记结算有限责任公司(简称“中央结算公司”)作为国家金融债券市场重要基础设施,其数据中心建设对于维护债券市场高效、稳定运行的作用日益凸显。通过物理上的两地四数据中心IT运维体系建设,不仅保障了中央结算公司信息系统运行的稳定与效率,也一定程度上支持了金融基础设施科技运营能力的发展与提升,为债券市场数字化建设和发展奠定了坚实基础。本文将深度剖析中央结算公司如何通过多数据中心战略布局,建设多地多活多中心架构的统一运维管理平台,以科技力量守护债券基础设施安全,助力债券市场稳健前行。



 

两地四个高规格数据中心:构建金融安全的坚固防线

面对金融市场的高风险性和高敏感性,数据安全和业务连续性在业务与科技的变革发展中,具有至关重要的意义。为此,公司规划构建了以北京、上海为基础、四个高规格的数据中心,通过分别承载不同业务的运维管理模式,采取“双主生产、互为容灾”策略,以高等级、高质量业务连续性为建设标准,有效分散风险,为债券市场的稳定运行筑起了一道坚不可摧的防线。


1.跨地域布局,分散风险

选择京、沪两个地理位置相距较远的区域,作为数据中心主要部署点,每个区域内在一定距离之外,分别建设两个数据中心,形成物理上的两地四中心生产及灾备部署架构。这种跨地域布局模式,有效分散风险,确保即使某个区域发生自然灾害或人为事故,其他区域数据中心也能迅速接管业务,有力支撑债券市场业务不间断运行。


2.高效率同步,无缝切换

为确保数据及核心应用配置的一致性和完整性,通过采用多种先进的数据同步技术,最大程度保障了四个数据中心之间数据的实时或准实时同步。数据及核心配置的完整和高效同步,确保主数据中心在遇到故障时,备数据中心能快速接管业务,实现无缝切换,保障了极端情况下,债券市场交易的连续性和稳定性。


3.全方位监管,快速响应

除基础环境层面建设外,公司持续开展高标准、全覆盖、全天候的监测系统和应急响应机制建设,提升故障出现时的快速响应和标准化处置效率。作为IT运维体系核心的统一运维管理平台,能实时监测各数据中心、各生产业务系统实时运行状态和交易负载情况,一旦发现异常,立即触发应急响应机制,确保快速处置解决。


多地多活多中心架构的统一运维管理平台:智驭未来的科技引擎

基于数据中心及运维体系建设发展战略规划,在稳定、高效的前提下,作为运维体系的平台化依托力量,运维管理工具的全面性、持续性建设贯穿始终。公司积极探索、主动求变,充分利用四个高规格数据中心的基础优势,构建了以“多地多活多中心架构”为框架的统一运维管理平台。这一创新实践不仅加大了保障力度、提升了运营灵活度,更为公司数字化转型提供了强大的科技支撑。


1.多地多活多中心架构,提升多中心统一运维管理能力

平台采用两级架构模式来满足多中心集约化管理需要,划分为两个管理区(北京A数据中心管理区(主)、上海A数据中心管理区(备))和四个计算区(北京A数据中心计算区、北京B数据中心计算区、上海A数据中心计算区、上海B数据中心计算区)。其中,管理区承担一体化统筹职能,统一存储管理类、告警类和全局指标数据,并提供统一的入口和运行管理能力;计算区的日志、性能、运行、交易等数据,按数据中心采用属地化存储规则,实现分布式联合查询。这种计算区纳管采集、管理区统筹调用的两级架构设置,很大程度上提供了敏捷的、灵活的多园区接入模式。同时,为保障平台自身高可用,管理区部署了灾备系统,其数据实时从主中心同步,日常处于“冻结”的即战冷备状态。当灾难发生或者切换演练时,可通过作战指挥平台做“解除冻结”操作,一键切换灾备角色,可立即将统一运维管理平台投入生产使用,在业务连续性要求上,提供了更高效的切换方式,以及更准确的操作保障。

图1    多地多活多中心部署架构图


2.构建平台化底座,丰富运维生态应用

采用平台化、多地多活多中心架构,进一步增强了数据中心运营能力的转型。公司在统一运维管理平台的建设发展中,始终贯彻标准化、集约化管理理念,持续整合各类运维工具和资源,不断夯实数据标准、接口标准、通信标准和规则标准,分步地实现运维工作在流程、操作、管理和权限控制上集中统一。


统一运维管理平台通过微服务、模块化的设计思路,将运维工作中的基础采控、数据计算、组件服务和开发规范等能力整合下沉为平台化的标准服务能力,运维场景上浮为场景化的功能应用能力,从而实现数据中心运维应用与场景管理的分层解耦,使其IT运维体系数字化转型从软件功能建设走向场景化的持续运营建设。

图2    统一运维管理平台架构图


3.构建运维体系,提升运维成熟度

随着信息系统涉及的设备种类越来越繁多、管理地域越来越分散,IT服务水平远远跟不上业务规模的扩大;同时,公司在数字化转型过程中,加大力度引入私有云、分布式、多活建设等新的架构创新;另外,为进一步发挥国家金融基础设施职责,公司加大运维技术和管理能力输出,提供生产运行托管服务。基于此,如何有效地发挥四个高规格数据中心的运行与服务能力,一套高成熟度、高质量的IT运维体系成为必要支撑,而统一运维管理平台的多地多活多中心架构升级,有效满足了多中心一体化IT运维体系的执行要求,在一定程度上,成为了运维体系成熟度稳定提升的加速器。


4.打破竖井壁垒,引领融合创新

针对各类被管资源体系不一、工具林立、数据分散的情况,通过建立分布式的资源采控体系,提供各运维应用和被管设备资源之间通信服务的统一通道,并统一接入运维管理平台体系,构建采控即服务机制,为分布于各中心、各功能领域中的各类监控、采集、操作等业务场景,提供统一采控管理接口,有效解决数据采集后,如何汇聚计算、集中分析、科学展示的压力,实现多重任务的统一简易纳管。


5.盘活数据要素,转化运维生产力

站在业务发展视角,建设以配置管理(CMDB)为核心的运维主数据,统一运维资源管理,为上层运维场景提供底层数据支撑。以应用为中心、基于全交付过程中数据的产生、处理、分析和消费,从数据全生命周期出发,构建完整的配置数据模型,并建立全生命周期的配置数据管理体系。最大程度发挥数据核心作用、提供数据决策支持,为持续交付、数字化场景打下坚实基础。


6.聚焦运维需求,打造自动化运维

针对日常运维的各项操作,持续研发和探索自动化运维,通过原子操作场景建设、脚本编写及指令串联,实现了服务器及系统的标准化安装配置、应用自动部署、常态化、体系化的巡检、合规检查和运行监控数据、交易链路日志的自动采集分析,进一步缩短了响应及处置时间,降低手工误操作风险,提升操作标准度,大幅提升运维效率,推进数据中心从成本中心向价值中心转变。


稳健前行:深耕运维能力,由运维走向持续运营

数据中心由运维向运营的转型,标志着金融行业信息科技建设理念的重大变革。这一转型将数据中心职能不仅仅定位于技术保障和IT基础设施维护,更涵盖了业务优化、服务提升和价值创造的全方位发展,是金融行业数字化转型的关键步骤。


公司以平台化运维核心建设思路与理念为基础,构建成一个能积淀运维实践的统一运维管理平台,以场景化为视角,持续赋能运维数字化转型。借助平台运维功能统筹、数据贯通、服务共享能力,通过场景应用形式,将优秀成熟的运维实践与知识具象化,实现场景化的创新与分享。通过四年多基础IT运维体系工具平台建设,在高效全面的监控、流程、自动化、配置管理、日志管理等基础服务能力建设基础上,构建故障自愈、敏捷交付、投产管控、作战指挥、应急切换等丰富场景,不断健壮运维生态体系,持续提升运维成熟度,由“业务需求驱动运维管理”转向“运维管理赋能业务需求”,推动运维管理能力突破性提升,积极推动运维管理向运营管理转变。


同时,以应用灵活的站点部署为切入点,将运维过程中各个环节有机地串联起来,聚合多维运维数据,在横向应用关系、纵向应用拓扑关系基础上,构建故障诊断和定位能力,通过流程驱动自动化作业执行,实现故障的快速恢复,提升用户满意度,给用户以信心,进一步增强IT运维管理水平,提升为业务稳定运行保驾护航的能力。


高端化、智能化、绿色化的行业创新,正在不断构筑新的增长和发展模式。公司IT运维体系的建设与创新,不仅体现了其在金融基础设施领域的积极突破和勇于创新,也为行业提供了新的借鉴经验。展望未来,随着技术持续进步和业务需求不断演变,公司将继续深化其在运维领域的创新实践,探索智能发展与运维管理如何更好地相辅相成,以科技力量守护金融安全,以自主创新履行社会职责,有效保障市场稳健前行,为债券市场及金融行业稳定发展持续贡献力量。





新媒体中心

主任 / 邝源

编辑 / 姚亮宇  傅甜甜  张珺  邰思琪

金融电子化
面向金融界科技人员、业务人员,在金融信息化建设中,为领导决策提供参考,为科技人员和业务人员提供交流的园地以及了解科技应用的窗口,为读者提供金融信息化发展最前沿的各类知识和信息。
 最新文章