实战 | 以专业化与规范化的运维服务体系为信创云加速

学术   2024-12-03 16:44   北京  

文 / 中国邮政储蓄银行运营数据中心    范世辉  施伟  房辉  杨睿

今年,多家大型银行已成功部署多个重要系统的信创应用。随着金融行业信创应用范围的不断扩大和应用程度的不断加深,金融行业迎来了信息技术应用创新的关键时期。对于广大金融企业来说,当前正面临着其信创云如何从“可用”到“好用”的挑战。














信创为基,实现转型发展

作为金融信创的先行者和深入实践者,中国邮政储蓄银行(以下简称“邮储银行”)正在大力推动数字化转型与信创化的有机融合,激发科技赋能的巨大潜力。依托同业领先的信创全栈能力和敏稳双态的信创云底座,邮储银行持续探索可以进化的领先架构,积极应对自主可控软硬件适配和数智化转型的双重压力。


邮储银行沿着信创化与开源化技术相结合的高效路线,以“鲲鹏+飞腾+海光”等芯片为核心,以开源云平台为底座,致力于打造包含麒麟操作系统、开源PostgreSQL数据库、开源中间件等在内的信创云服务生态,在根源上解决从基础架构的替换升级,到现有业务持续平稳过渡上云的全流程的自主可控问题。


同时,邮储银行运维团队凭借专业化的运维工具与规范化的运维手段,为行内大规模信创云平台的稳定运行保驾护航,为信创云平台性能提升提供助力。邮储银行在大规模信创云平台运维方面为同行业做出了表率,树立了可借鉴参考的样板。


邮储银行信创云最佳运维实践亮点剖析

邮储银行以鲲鹏、飞腾等芯片为基础,以信创云平台为核心底座,通过对大量设备的适配验证,在金融行业内率先完成了信创云平台的大规模生产化实践,并在运维保障方面建立了新的行业标准。


1.大规模生产化实践“稳”字当头

历经半年多的现场测试和稳定性验证,邮储银行摸索出了一套行之有效的提升设备稳定性的方法论和成功经验。在软件层面,通过关闭SMMU,升级BIOS、BMC、RAID卡固件、操作系统内核,替换JDK等关键组件,解决了服务器初期出现的诸如序列号丢失、设备夯死、大数据节点频繁重启等问题;在硬件层面,通过调整风扇默认转速、网卡和RAID卡位置,有效降低了设备宕机频次。


2.网络能力持续增强,运维体验升级

随着软SDN技术的不断发展完善,其中立解耦、高可扩展等特性,更加契合邮储银行软硬解耦、大规模部署及持续扩展的使用需求。随着软SDN技术在邮储银行部署规模的不断增长,以及在信创云环境中的应用,如何保障网络高性能并持续优化运维人效成了摆在运维团队面前的实际要求。


邮储银行运维团队通过统一网络节点南北向业务网络部署、开启DPDK功能、设置无状态安全组、网卡性能优化等专业增强措施,对软SDN网络能力进行增强,不断提高大规模、高并发、高负载下业务网络运行的高性能和可靠性。

图1    软SDN网络体系架构


归纳来说,邮储银行运维团队通过以下“四步走”,确保了网络能力的持续增强。


(1)统一网络节点南北向业务网络部署,提升网络综合性能

前期,软SDN网络架构的每个网络节点与其他计算/裸金属节点、云平台外部网络进行通信,分别部署了北向业务网络和南向业务网络。北向网络使用VLAN网络与云平台外部环境通信,南向网络使用隧道网络与其他计算节点及裸金属网关节点通信。随着云平台部署规模不断增长,且南北向分别部署的情况下,不仅维护难度增加,而且高负载下网络带宽的瓶颈也开始显现。为此,邮储银行采用了将网络节点南向和北向业务网络进行统一部署,优化软SDN网络部署架构的方法,大幅提升了网络综合性能,并降低了运维难度。


采用网络节点南北向业务网络统一部署,保持网络节点与计算节点一致的架构模式,不再需要区分南北向流量网络,这不仅保证了网络架构的清晰简洁,而且有助于运维人员进行问题定位及日常管理,更将出入向流量负载均衡到4个网络端口之上,使得吞吐性能和安全可靠度成倍提升。


(2)开启DPDK功能,提升关键网元的处理性能

为了提升服务器的网络处理能力,在网络节点和裸金属网关节点支持开启DPDK功能,直接在用户空间进行数据包处理,可以充分发挥多核处理器的能力,大幅提升数据包的并发处理性能并降低数据读取延迟,提高数据处理性能、吞吐量,以及数据平面业务应用的工作效率,从而提升软SDN的网络处理性能。


通过网络节点和裸金属网关节点开启DPDK功能,相关节点的处理性能得到显著提升,网络PPS性能提升10倍,网络带宽提升2~3倍。


(3)设置无状态安全组,提升网关节点转发效率

大规模软SDN架构下,裸金属网关节承载着大批量、高并发、大流量的关键业务场景。为提升网关节点转发效率,保证网关节点的冗余稳定,规避启动/拉起业务瞬间Conntrack值超出阈值的风险,运维团队根据数据量,将部分裸金属安全组设置为无状态安全组,这有助于降低网络设备的负载,能够更快速地处理数据包,提高网络的整体吞吐量和响应速度,减轻裸金属网关节点的处理压力,保证大流量业务的稳定运行。


(4)网卡性能优化,提升云主机网络性能

部分场景下云主机内单核心CPU不能完全发挥出网卡的全部性能,导致网卡PPS性能无法满足业务系统要求的问题。网卡的网络数据包通常由单个处理队列进行处理,每个队列都有自己的缓存,可以设置网卡多队列以及增大队列缓存,对网卡性能进行优化。网卡多队列功能允许将网络数据包分配到多个独立的处理队列中,从而并行处理这些数据包,提高网络数据包的处理效率和吞吐量,增加网卡队列缓存,减少数据包丢失,提高网络吞吐量,避免网络拥塞。


3.深度应用NUMA绑核,实现高负载业务场景专项优化

随着服务器等硬件资源的批量使用和广泛覆盖,为最大化发挥硬件性能,邮储银行基于海光、鲲鹏、飞腾三类主流芯片架构环境进行了多场景、多批次、多测试项的验证,掌握了NUMA绑核的能力特性,为提升日常运维人效及产品选型提供了有效支撑。


根据芯片架构差异,邮储银行运维团队通过NUMA绑核技术,设置定制化的NUMA绑核模型,避免虚拟机CPU跨路访问;同时通过手动绑核指定虚拟机的方式,使用物理机性能最优NUMA来承载业务负载最高的使用场景,满足业务对性能的高要求。在当前部分芯片自身存在一定性能瓶颈的背景下,采用NUMA绑核技术,可充分发挥NUMA架构的优势,提高系统性能、稳定性和资源利用效率,降低因资源竞争导致的性能波动和系统不稳定的风险,使CPU核心和内存资源得到更高效的利用。


4.细化监控并完善运维流程体系,提升运维的精准性与规范性

为了更精准、更量化地实现信创云平台特别是软SDN网络的监控与告警,邮储银行运维团队按照“服务”与“主机”两大类别进行监控与告警数据抓取。针对集群SDN元数据服务、集群SDN分布式控制器网关服务等关键“服务进程”、网络节点南北流量带宽、节点SDN控制器进程CPU使用率等关键“主机数据”,进行监控与预警,结合告警内容整理出运维知识体系和自动化工具,再通过网络高可用机制的赋能,形成一套规范化的针对SDN网络节点自动迁移及可靠性确认的应急处置流程,保障信创云平台软SDN大规模网络环境的健壮稳定。


“专业化”与“规范化”两手抓、两手硬

经过多年建设,邮储银行信创云平台拥抱开源技术路线,开展广泛的“一云多芯”实践,屏蔽底层差异,满足多技术路线资源兼容,提供云主机、裸金属、容器等云资源服务,实现各类型云资源池化与融合统一管理,保证弹性敏捷供给,以更好地满足不同场景的需求。


在运维方面,邮储银行运维团队从“专业化”和“规范化”入手,两手抓、两手硬,确保信创云平台的高效运行和持续发展。

图2    信创云平台运维体系架构


1.专业化运维是信创云稳定运行的基石

邮储银行拥有一支具备深厚技术功底和丰富经验的运维团队,精通云计算架构、服务器管理、网络配置等核心技术,通过对设备稳定性调优、网络能力增强、NUMA绑核优化,大大提升了信创云平台的处理能力和稳定性。


2.规范化运维是信创云稳定运行的关键保证

邮储银行运维团队为信创云平台构建了具有针对性的监控指标体系,能够对信创云平台进行精准的监控和故障排查,同时建立完善的应急保障与运维体系,确保在信创云平台面临各类突发状况时能够及时有效地应对,最大程度降低突发事件对信创云的影响。


“三升两降” 专业运维效果立竿见影

金融信创云从“可用”到“好用”,专业运维是必须迈过的一道坎。在专业化与规范化的运维手段的驱动下,邮储银行信创云平台走出了一条属于自己的高效、可靠、安全运行之路,能够更好地应对不断变化的业务需求和技术挑战,助力打造新质生产力,加速数字化转型。


专业化与规范化的信创云运维能够显著提升信创云平台的稳定性,降低成本,提高服务质量,促进邮储银行业务的创新和发展。具体的效果可以归纳为“三升两降”。


“三升”包括:一是提升系统的稳定性和可靠性——信创云平台专业化的运维工具以及监控和预警机制能够提前发现潜在问题,及时采取措施预防故障的发生;二是提升资源利用率——精准的设备性能优化工具使信创云平台在高负载情况下,仍能保持高效运行;三是提升服务质量——规范化的应急响应流程与运维体系,可以及时响应和解决云应用服务的问题和需求,增强业务对信创云服务的满意度和信任度。


“两降”包括:一是缩短故障恢复时间——规范化的监控指标与应急响应流程能够快速定位问题根源,减少排查时间,迅速解决常见故障,保障业务连续性;二是降低运维成本——信创云平台的稳定性调优与网络能力增强等运维工具,能够有效优化资源管理,降低硬件和能源的消耗,节约运营成本。


在信创云的大规模应用过程中,邮储银行通过运维手段的优化,提升了信创云平台的稳定性与效能,树立了新的行业标杆。金融行业全面信创化时间紧、任务重,技术改造与业务升级须同步且平衡。未来,邮储银行运维团队将不断加强信创云运维工具与运维流程体系的完善与演进,推动邮储银行信创云运维迈上新的更高台阶,为邮储银行的数字化转型和金融科技创新发展提供坚实支撑。


新媒体中心

主任 / 邝源

编辑 / 姚亮宇  傅甜甜  张珺  邰思琪

金融电子化
面向金融界科技人员、业务人员,在金融信息化建设中,为领导决策提供参考,为科技人员和业务人员提供交流的园地以及了解科技应用的窗口,为读者提供金融信息化发展最前沿的各类知识和信息。
 最新文章