技术应用 | 新一代全景式智能运维平台的探索与实践

学术   财经   2024-12-05 11:12   北京  

海通期货股份有限公司

信息技术管理部总经理  赵智鹏


建设全景式信创智能运维平台的必要性

为实现公司经营战略和改革发展目标,顺应证券期货业“十四五”科技发展要求,海通期货股份有限公司(以下简称海通期货)制定了自己的科技发展“十四五”规划,旨在塑造公司依托于科技发展的企业文化基因,瞄准和攻克关键核心技术,把握数字化创新发展方向,建立科技研发平台和业务平台,增强自主创新能力与业务支撑能力。海通期货近几年IT规模越来越大,运维体量的快速增长和新技术的引用(如分布式架构、开源软件、云计算、大数据)给运维带来全新的挑战,对资产数据一致性、监控全景视图、实时运行分析、快速应急处置的需求也愈发迫切。面对新形势,并结合中国人民银行、原银保监会、证监会联合下发的《金融标准化“十四五”发展规划》纲要,海通期货信息技术部主动突围,2022年初启动新一代全景式智能运维平台体系建设工程,结合期货行业数字化建设指导意见、场景特点及信创的政策要求,建立一套以“数字化基础平台+数据治理+信创为核心技术体系”的全景式智能运维平台,打通系统间数据孤岛,拉通运维侧的数据流和业务流,实现运维数据和资产的闭环管理、全景监控和全流程覆盖,大幅提高业务运行保障能力和快速响应能力(见图1)。

图1  系统建设图


本文从打造运维数字化基础平台、构建运维体系可观测性、支持信创三个方面进行介绍海通期货在智能运维领域的探索与实践。


运维数字化基础平台建设实践

海通期货经过多年的IT建设,运维工具众多,运维数据非常丰富,但因为众多系统未实现标准化,存在数据孤岛,加上运维数据维度庞杂,难以综合利用,为此构建了统一的运维数字化基础平台。该平台以大数据和实时流技术为依托,以流批处理技术为核心,构建统一的数据集成、存储、分析、监控以及数据服务的能力,通过对运维基础数据和功能在管理方式上进行重构,从根本上解决了烟囱式建设所导致的IT运维孤岛问题,系统架构图见图2。

图2  系统架构图


在数据底座的建设中,遇到很大的问题是运维数据治理。之前的运维数据标准化程度不够高,想建设更高阶的运维场景,用算法消费数据来提供感知和决策能力时,就必须先做数据治理。因此,我们对所有的数据做了摸底,统一运维数据的建设标准,通过自动化程序完成各类数据的采集,根据数据标准模型完成数据的加工处理,最后汇聚到运维数字化基础平台上,对外提供数据消费的接口。下游端的各种工具应用(如日志分析、多维监控、统一告警、容量分析等),数据直接来自于基础平台的数据服务。这个过程中,数据治理是难度比较大的一件事情,我们花了很大精力来构建运维领域的数据模型、指标体系,以及对数据的标准化治理(见图3),为后续的智能化打下坚实的基础。

图3  运维数据治理过程


运维数字化基础平台还可以提供数据加工和数据服务的能力,高效满足前台数据分析和应用的需求,总结为以下四点:一是基于大数据平台,通过Flink集群的实时计算,达到秒级响应、实时计算的能力,提供大吞吐量的数据处理能力;二是全量数据,每天实时采集监控指标、日志、配置信息、告警等各种运维数据,这些全部集中到数据底座进行加工;三是数据治理,数据经过加工清理,然后分门别类存放;四是数据开放,提供易用的数据服务接口及类SQL的数据探测、分析、查询方式,方便其他系统进行对接和构建所需应用。


运维可观测性实践

可观测性是指一个系统能否提供充足的信息,供运维工具完成状态感知、异常定位、容量性能评估等。具体就是要求系统:一是能够检测到问题(例如,服务停机、错误、响应缓慢);二是拥有足够的信息以有效地确定根本原因(例如,详细的事件日志、细粒度的资源使用信息,以及应用程序跟踪)。


可观测性的数据分为三类,包括提供指标、日志、调用链的信息。常规的监控只需要告警和仪表盘就够了,可观测性需要更细节的数据,如细粒度的日志和调用链数据,甚至底层的依赖关系数据。除了指标、日志、调用链信息,这些数据所在的监控对象也比较关键,监控对象通常存放在CMDB中,且存储了监控对象之间的关联,这类数据也被称为元数据(MetaData)。


为了对业务系统进行完整的监控,我们首先确定了各种监控对象,然后从多种采集器上收集指标、日志数据,连接到监控对象上,这些原始的指标数据需要通过治理保证统一规范。最终为监控对象包裹完整的可观测性数据,满足故障发现和故障定位的需要。具体构建过程说明如下。


(1)监控对象与关系的建立。CMDB是监控对象的存储中心,以应用架构为中心,建立监控对象体系是比较好的实践方式。同时也要注意将设备与监控对象的网络环境打通,便于后续的根源定位。对于变更依赖分析,CMDB中配置了系统所包含的各个软件模块、每个软件模块有几个实例,分别部署到哪些主机上、主机相连的网络设备,以及主机或网络设备所在的机架、机柜、机房等。


(2)指标数据的建立。为监控对象准备指标数据,不同的监控对象的数据来源可能不一样,如服务器、网络设备、存储设备的数据基本来自于带外采集源;操作系统、中间件来自于Agent直接采集,业务指标更多的来自于日志数据或者数据库的数据统计。有些指标数据是二次数据,如系统健康度、采集覆盖度等,通过数据平台计算得到。也有的监控对象,同时从多个数据源收集数据,相互补充才能得到比较完整的指标覆盖,这里面有可能涉及到数据调和的过程,确保数据口径一致不冲突。


(3)日志数据的建立。日志对于排错、业务调用分析、关键字告警、业务突变检测都至关重要。对于日志,可以通过多种来源收集,如日志文件收集、Syslog收集、API推送等。这些日志数据也会附加在监控对象上。


(4)运维数据的治理。诸多类型的数据,来源不同、命名习惯不同、采集粒度不同,通过平台的数据预处理模块,对数据进行实时加工和标准化处理,确保数据的有机融合和一致。这为算法应用、告警应用、容量应用、故障自愈等消费方打好了基础。


信创项目实践

信创建设是行业的重要任务,海通期货制定有信创专项工作发展战略,积极履行自己的责任和义务。随着相关项目的落地,信创的硬件设备(服务器、网络设备)、数据库、中间件等占比不断提高,运维工作面临非常大的考验,不论是在实施过程中还是后期维护都存在着不少困难。一是信创产品与传统软硬件有一定的技术差异性,缺乏专业的信创运维人员。二是当前生态建设还不够完善,系统软件兼容性需要长期磨合。三是信创环境技术成熟度低,稳定性有待考验,缺少专业的监控运维工具。基于以上问题,建立专业的支持信创环境运维服务的平台,实现跨平台对信创软硬件设备提供运维监控管理功能,实现全方位、多视角地监控和管理,成为当前信创项目建设的重要课题。


海通期货在建设全景智能运维平台中发挥自身的技术优势,实现横跨信创及非信创环境的混合运维,保障所有软硬件基础设施运行稳定,主要能力包括:一是平台自身全面支持和适配信创的应用环境,平台所使用的中间件、数据库、运行所使用的操作系统、硬件设备完全信创化。二是平台实现了对运维设备的全部纳管。包括了传统服务器、网络设备、安全设备、存储设备、业务系统和信创服务器、网络设备、存储设备等。三是支持信创硬件设备通过SNMP、IPMI、Redfish、SYSLOG等技术手段,采集设备的配置信息、警告信息、监控指标信息、日志信息。四是支持对信创操作系统、数据库、中间件通过自研采集器,适配和采集监控指标、配置信息、运行日志等数据。


未来运维之路思考

近年的行业实践得到的见解是AIOPS离不开优质的运维数据,完备且有关联的数据是AIOPS的前提,很多企业AIOPS落地效果一般,和数据质量不高有明显的关系,事实上大量企业的运维数据质量堪忧,这是制约智能化运维发展的桎梏。目前,我们的数据基建做得比较扎实,智能化运维的良好土壤已经具备,平台内嵌的几个智能化算法如告警压缩算法、业务基线检测告警、离群检测告警已经开始局部验证。也在尝试结合规则引擎、知识图谱、机器学习构建综合型智能运维引擎。在可见的未来,基于数据的AIOPS、智能化诊断技术将发挥更加靓眼的作用和效果。

图4  综合智能引擎带来可预测能力


(此文刊发于《金融电子化》2024年10月上半月刊)








新媒体中心

主任 / 邝源

编辑 / 姚亮宇  傅甜甜  张珺  邰思琪

金融电子化
面向金融界科技人员、业务人员,在金融信息化建设中,为领导决策提供参考,为科技人员和业务人员提供交流的园地以及了解科技应用的窗口,为读者提供金融信息化发展最前沿的各类知识和信息。
 最新文章