文 / 中国民生银行信息科技部 冯晶晶 刘阳阳
在金融行业的数字化转型迅猛发展的时代,民生银行的业务连续性和系统稳定性是其生命底线。然而,随着技术的不断演进,传统的IT运维方式已难以应对日益复杂的网络环境和不断增长的数据流量。在这种背景下,一种革命性的应用——基于网络流量分析的可观测性应运而生,它正在彻底改变我们对运维的理解和实践。其通过先进的网络流量捕获手段,结合人工智能、机器学习算法等分析技术,实现实时的网络流量监控同时,还能够深入分析流量模型,识别异常行为,预测潜在风险,并联动自动化响应机制,确保业务的连续性和系统的稳定性。
本文结合民生银行网络流量分析可观测实践经验,通过深入探讨其多个方面应用,以全新的视角透视运维的深层逻辑,实现对IT基础设施的全面掌控。这不仅仅是技术的一次飞跃,更是运维理念的一次深刻变革。它将引导运维工作走向一个更智能、更高效、更可靠的新时代,为民生银行业的数字化转型提供坚实的基础底座。
中国民生银行信息科技部
冯晶晶
中国民生银行信息科技部
刘阳阳
网络流量的可观测性
网络流量的可观测性涵盖了对网络流量数据包的全面捕获、精心处理、安全存储和深入分析,以便于掌握网络动态,并对承载的业务系统进行实时监控、跟踪和分析,从而全面理解系统的状态、行为和性能表现。可观测性体系的核心组件:监控指标(Metrics),量化网络性能,实现网络健康状况的及时快照,如带宽使用率、延迟、丢包率等;日志(Logs),记录网络事件和系统消息档案,用于事后分析和故障排查,复盘问题发生的每一个细节;跟踪(Traces),监控请求在网络中的流动路径,用于识别服务依赖和性能问题,优化用户体验和提升服务效率。如上三大组件共同构成网络流量可观测性的坚实基础,确保网络环境的透明度和可控性,为构建更加智能、高效的网络系统提供可能。
数字时代下民生银行网络流量监控挑战
民生银行始终秉承“科技赋能”理念,不断探索并实践数字化转型的创新之路。作为数字化转型的中坚力量,民生银行IT基础部门正引领数据中心网络架构的革新,从传统网络架构向云原生网络时代迈进。金融科技的迅猛发展催生了线上业务和移动银行等新兴业务模式,这些模式不仅丰富了服务渠道,也极大地推动了数据中心网络规模和流量的爆炸性增长。
随着云化和服务器资源池化的深入推进,网络虚拟化迎来了新的发展机遇。在多云环境和多地多中心的数据中心架构下,传统的“南北向流量为主”向“东西向流量为主”的模式转变。数据中心架构从集中式的大小机向分布式架构演进,运维和管理的对象也从物理硬件转向软件资源和数据,扩大了管理视野,也提升了管理的深度和精细度。然而,网络流量分析的可观测性在这一转型过程中面临了前所未有的挑战。在云原生环境中,服务间的网络流量呈现出高度的动态性,流量模型的预测变得更加复杂和困难。容器的快速创建和销毁进一步缩短了网络流量的生命周期,增加了可观测性的难度,也对实时监控和分析提出了更高的要求。在微服务架构中,服务间的交互跨越了多个节点,使得网络路径变得错综复杂,网络流量变得极为分散和难以追踪。
面对数字化转型浪潮中的挑战,民生银行网络团队不再被动应对,而是积极拥抱变革,通过搭建先进的网络流量分析可观测平台(如图),实现了从传统可用性监控到自驱型监测的质的飞跃。这一转变标志着运维工作从标准化向智能化、精细化、可视化、服务化的演进,极大提升了运维的效率和效果。民生银行网络流量分析可观测平台核心组件由流量汇聚平台和数据分析平台组成,其通过旁路部署方式集中采集物理网络流量、分布式采集虚拟网络流量,并利用eBPF技术零侵扰采集应用数据,结合日志、资产及配置等多源数据,实现对海量基础数据深入挖掘、精准分析;通过流量溯源、调用链追踪进行运维疑难杂症分析和故障定位;依托于平台智能算法及多平台联动,实现从设备级运维,到基于用户体验、基于业务交互、基于安全合规的场景化运维服务及数据服务。
图 民生银行网络流量分析可观测平台
可观测性在民生银行运维中的革新
1.全流量采集
流量采集方面打造一个无插码、全流量、分布式的数据采集层,通过增加10G捆绑及40G/100G高吞吐镜像、分光器等,缓解传统旁路镜像流量突发压力;通过采集节点下沉至虚机、容器、云计算节点,实现低成本、分布式的东西向全流量采集;引入Netflow、FabricInsight、RSPAN隧道等多元化技术,针对大流量数据通过采样比、芯片切包等技术手段,实现低耗损的流量采集。
安装在计算节点的采集器使用eBPF技术实现的AutoMetrics机制,自动采集应用的RED(Request、Error、Delay)性能指标,精细至每一次应用调用,覆盖从应用到基础设施的所有软件技术栈。在云原生环境中,Auto Tagging机制自动发现服务、实例、API的属性信息,自动为每个观测数据注入丰富的标签,从而消除数据孤岛,并释放数据的下钻能力。
2.精准流量分发
流量分发方面通过组织高性能、多功能、开放式的数据分发层,实现一次分发、多处输出的可扩展流量汇聚平台。所采集的流量数据,通过去重、过滤、打标等技术,平稳、敏态地按需供给到安全、审计、应用等不同部门的多平台复用,打破跨部门数据共享壁垒。
使用BPF技术实现云原生环境内部容器Pod东西向流量的抓取和监控。通过Vxlan或Erspan隧道技术,将捕获的流量按需分发至统一的流量汇聚平台,实现虚拟化环境采集的数据源输出。
3.多协议解析
具备识别和处理多种网络协议的能力,支持对TCP/IP、HTTP、HTTPS、MySQL、WebSocket、DNS等应用层协议的识别和解析,实现会话级别的监控指标关联及可视化展示。全链路追踪交易路径,自动识别异步交易进行会话缝合,实现面向网络、系统、应用、进程级别的全栈式监控。
4.弹性资源池化
采用开放式架构设计,支持与各种现有和新兴技术集成,具备各种跨品牌设备的资源池化组网模式,保证系统的灵活性和扩展性,从而适应不断变化的技术需求和业务场景。
5.数据分析方面
在传统监控基础上,融合现代可观测性和高级分析能力,引入基线学习、关联分析等技术,智能并动态展示数据分析结果。通过从后台获取流量、日志、配置、资产等多元数据;利用数据模型、维度信息、指标信息、智能算法等技术手段,搭建流量监控、智能分析等中台系统;在业务系统端到端监控可视化的传统能力上,实现资产活跃度、业务互访关系、跨区异常访问、负载均衡及DNS数据分析、防火墙策略活跃度、业务系统安全防护栏等场景化数据分析产品,从资产发现、数据可视化、隐患巡检分析、回溯审计、持续优化等方面深入挖掘、充分释放数据价值,为用户提供一站式自服务输出。
实践成果
民生银行网络流量分析可观测平台进行流量统计、协议解析,实现链路追踪和实时监控;引入智能分析、基线学习、异常检测等技术,实现监控数据可视化、告警智能化。随着数据中心的运维工作逐渐向AIOps转变,利用网络流量数据,在有效监控的基础上,进行数据整合、数据关联、数据应用,实现基于业务与用户体验的可视化分析同时,增加场景化的功能分析模块,并对用户实现自服务输出,增强网络运维团队与其他部门的协作和沟通,提高工作效率。
1.智能告警及平台联动自愈能力
基于网络流量分析工具生成的各项监控指标数据,实现覆盖网络、应用、系统的全面告警体系,告警通过阈值、基线、异常检测等技术,确保告警准确性和有效性。当告警触发后联动专家知识库对告警根因进行智能化分析。将带有分析结论的告警信息发送给网管、自动化平台及SOC安全监控等平台,触发预设的修复流程实现自动化故障处理闭环。大幅减少运维团队对故障处理的人工干预,提升运维处置效率,保障业务连续性和稳定性。
2.场景化自服务输出能力
流量分析平台通过有效整合CMDB、配置、日志等信息,配合智能化算法,为跨部门协同提供多种场景化自服务输出能力,并不断迭代更新。
(1)业务路径追踪。结合流量、日志、配置等数据实现面向业务的路径透视,从传统环境到虚拟化云、容器环境,突破了防火墙、负载均衡前后端NAT关联关系的难点,自动化构建从入口到后端数据库的全链路、全栈可观测性。该路径图集成流量指标,路径设备日志及SNMP等监控数据进行关联分析。实现了对承载的业务系统进行实时监控、跟踪和分析,提升运维效率。
(2)数据包专家分析自服务。原始网络流量数据包分析在数据分析及故障处理等场景都是非常关键的手段,但其对使用人员要求较高,需要依赖于TCP/IP基础知识及经验储备。为降低运维人员使用门槛及难度,民生银行推出在线解包专家分析自服务。其内置智能分析,自动发现异常事件,通过专家知识库,提供清晰的图文说明及分析报告。通过自服务将数据包分析能力赋能至其他非网络专业部门,打破技术壁垒。
(3)防火墙策略活跃度展示。通过防火墙前后流量与策略的匹配实现策略命中分析并和CMDB集成识别IP身份,帮助网络运维人员进行策略收敛,保障策略的安全性及合规性。同时,将策略配置及命中信息通过自服务方式对其他部门开放,帮助运维部门更好了解、掌握相关业务跨区的访问关系,辅助业务上线、下线变更等运维工作。
(4)协议层数据追踪。大多数应用异常无法通过网络状态发现,所以分析应用状态才能让可观测性更贴近业务,通过解析HTTP、DNS、MySQL、RPC、Dubbo、ZMQ等应用协议后,可快速发现隐藏更深的隐患,为应用系统稳定运行保驾护航。
3.链路追踪根因故障定位
安全认证中心业务会不定时出现无响应的异常,影响业务正常使用。通过链路追踪对异常的请求分析后,发现整个请求的响应时间基本都消耗在安全认证中心网关这个微服务上,该微服务的响应时间占用了整个调用链的72%。通过查看安全认证中心网关微服务进程的持续剖析(CPU On Profile)后,发现故障时间点的CPU使用量远高于正常时间的,同时发现处理正则的函数使用CPU异常,共占据了56%的CPU。应用部门通过在处理正则的函数增加DEBUG日志后,定位到根因是为正则处理的数据过长时会导致进程hang住,经过修复后问题得以解决。
展望未来
未来,在云原生的快速发展下,面对混合云架构多云多活状态,基于网络流量分析可观测的应用将实现端到端可视化监控、实时展示和分析监控指标数据;准确捕捉运行态的任何异常声音,及时预警和响应,甚至自动发现问题及自动修复,确保系统稳定运行。总之,民生银行将继续致力于网络流量分析可观测能力的探索和研究,形成于传统、微服务、混合云全网一体化的智能分析监控平台,提供实时、全栈的数据输出服务能力。流量采集方面,深挖eBPF采集技术,实现应用API调用追踪,达到从基础设施到业务系统的全栈式监控目标;数据分析方面,通过专家知识图谱、机器学习、AI算法库等多维技术,推动数据分析产品的快速迭代及敏捷交付,为实现AIops高级阶段打下良好基础,助力民生银行实现数字化转型目标。
(此文刊发于《金融电子化》2024年9月上半月刊)
新媒体中心
主任 / 邝源
编辑 / 姚亮宇 傅甜甜 张珺 邰思琪