在人民银行的决策部署和大力支持下,中信银行2020年5月成功投产凌云系统,率先在国内中大型银行实现了核心系统分布式架构转型,在软件层面实现了自主可控。并以此为基石,持续探索核心业务系统服务器自主可控,经过三年的努力,于2023年11月率先实现大中型银行核心业务系统应用服务器、数据库服务器100%安可服务器替代,实现了金融业关键信息基础设施全面自主可控,成为全国首家核心业务系统实现信创的国有大中型银行。
从近年来的管理实践来看,分布式核心系统不仅重塑了银行业务处理流程,也对运维体系提出了一系列新挑战与新要求。如何在保障分布式核心系统稳定运行的大前提下,更好地提升运维效率与使用体验,成为分布式核心系统运维团队面临的重要课题。
中信银行科技运营中心
总经理 蒋怀深
建设分布式核心系统运维体系所面临的主要挑战
1.整体系统更为复杂
与传统集中式架构相比,分布式核心系统节点多,部署结构复杂,节点之间连接关系错综复杂,显著提升了运维复杂度,增加了故障排查与精准定位的难度。
2.单节点稳定性较为薄弱
PC服务器在硬件设计、散热管理以及冗余配置等方面不如小型机完善,导致PC服务器的稳定性远低于小型机,单机故障率增加,带来更高的故障风险及维护成本。
3.自动化程度亟需提升
面对分布式核心系统庞大的节点数量与复杂的服务架构,传统手动运维模式效率低下,出错率高,难以满足业务快速迭代、持续交付的迫切需求。
4.运维技能要求更为严苛
对于运维团队,既需要掌握麒麟操作系统、缓存、分布式数据库、多活集群、SDN网络等技术,同时也需要关注慢SQL、长事务、热点账户、数据分布等指标。
分布式核心系统运维体系建设实践
围绕分布式核心系统投产运营,中信银行坚持“预防为主、处置高效”,以平台化运维为抓手、以创新技术攻关为依托,逐步建成“全域覆盖、全时自动、全程可控”的分布式核心系统运维体系,囊括监控告警、日常巡检、变更控制、应急管理、运营团队五个方面。自系统投产至今,分布式核心系统可用率保持在99.999%以上,充分证明了中信银行分布式核心系统运维体系的健壮性与有效性。
图 分布式核心系统运维体系
1.监控告警
监控告警的作用是及时发现问题,是分布式核心系统运维体系的核心。中信银行在机房、网络、安全设备、硬件、操作系统、数据库、中间件、应用系统、日志、交易、业务场景等层面进行全方位、立体化、全链路监控,实现了监控指标的实时动态展示,层层钻取及关联分析。
一是基于实时数据采集和可视化展示技术的监控平台,可以获取系统的CPU使用率、内存使用率、磁盘使用率、网络带宽等指标信息,并进行趋势分析和异常检测;通过自研数据采集器,实现对应用进程、端口、JVM信息、负载均衡等运行信息的实时展现及监控预警。
二是通过智能日志中心的海量日志处理能力,实现对日志的集中存储及检索、集中监控、集中展示;通过智能中信大脑对分布式核心系统的日志进行实时分析,自动生成告警基线并动态调整,实时预警。
三是基于网络流量的交易监控系统,对分布式核心系统全部节点网络流量全解码,可支持数10万笔/秒的交易解析能力,在不影响应用系统和网络的前提下,实现全流量自动化分析、全链路串接,实现业务过程端到端的监控。通过观测交易量、交易响应时间、交易成功率、交易响应率等核心指标,结合灵活的多维分析,实现故障节点的快速定位和问题原因的分析,降低了应急处置时间。通过全局唯一的交易流水号实现交易在系统内各节点的串接,并展示其运行指标。
四是采用机器学习算法,实现了业务层面的实时监控,包括金额突变、失败交易异常发送、重复转账、监管账户异常交易等维度。
2.日常巡检
分布式核心系统结构复杂,问题往往从苗头开始逐步扩散,形成雪崩效应,导致系统崩溃。巡检的作用就是发现这些处于苗头的问题。在日常巡检方面,巡检范围全面,覆盖了系统、网络、应用、分布式数据库等方面,巡检项达到400余项,同时巡检过程实现全自动化,巡检结果实现智能分析。
3.变更控制
在变更控制方面:依托中信银行自研的运维支撑平台,将分布式核心系统全部变更实现了标准化、自动化,将服务器、网络等设备操作整合,实现了云网联动,极大降低运维难度及操作风险;采用灰度发布工艺及分批实施策略,有效降低了变更带来的风险;在投产初期,搭建和生产环境相当的高仿真环境,变更在仿真环境验证通过后再在生产环境实施,可提前发现因变更导致的生产问题或生产事件,有效确保了系统安全稳定运行。
4.应急管理
在应急层面:应急预案覆盖全部节点,全部故障类型,同时处置手段全面,每一类节点都有服务重启、节点隔离、主备切换、版本回退四大预案;应急预案具备快速发起的能力,通过预编排全量应急预案、实现全自动化、自愈配置等,确保每一个应急预案可以在分钟级完成;通过持续开展桌面演练、攻防演练,在验证应急预案有效性的同时,也提升了运维团队的应急处置能力。
5.运营团队
在运营团队方面,目标是打造一支具备分布式核心运维能力、实战经验丰富的专业化团队。通过中信银行分布式核心系统建设期间的仿真实战、大量内外部培训以及投产后的系统运维工作,中信银行原有核心系统运维团队成功实现了转型发展。团队成员具备了平台化运维能力,能够熟练使用运维支撑工具分析问题、解决问题;团队成员具备了开发能力,能够自主解决运营工作中的问题,优化运营流程,提升运营工作质效。
分布式核心系统运维体系运行效果
分布式核心系统投产后,运维体系发挥了重要作用。监控预警精准,应急处置快速,发现了一些潜在影响问题,如交易响应时间慢、数据分布不均衡、数据库慢日志等,通过将这些问题消灭在萌芽状态,有效保障了分布式核心系统安全稳定运行。此外还首次实现中信银行核心业务系统在线同城切换,切换全程业务不中断,切换用时降至历史最低,业务连续性水平迈上了新的台阶。
通过建设运维体系,我行全面实现了平台化运维,完成了从集中式到分布式、从封闭到开放、从传统到主流的技术变革。实现了SRE敏捷自驱的理念转型、分布式核心运维的能力转型。
未来探索与发展方向
中央金融工作会议提出了做好“数字金融”等五篇大文章,为金融科技发展指明了前进方向,绘制了发展蓝图。
在机遇与挑战并存的关键时间节点上,中信银行运维工作将立足“数字化驱动+智能化运维”,坚持数字化、平台化、智能化,将运维数据嵌入到流程之中,实现智能高效运维能力,通过全面推动运维数字化转型,做到提前发现问题,全面分析问题,及时处置故障,提升运维质效,为银行业务的高质量发展保驾护航。
(此文刊发于《金融电子化》2024年12月上半月刊)
滑动查看公告详情
新媒体中心
主任 / 邝源
编辑 / 姚亮宇 傅甜甜 张珺 邰思琪