根据基调听云研发VP 杨金全在 2024 年 6 月 1 日双态成都用户大会上的演讲整理。
信息技术的发展带来了全新的业务逻辑、商业逻辑和服务逻辑,无论是为了改善用户体验、员工体验、合作伙伴体验,还是提升供应链效率、加快 IT 创新和产品交付速度,数字化转型已成为企业、政府的必然选择。企业对于数字化转型的需求从未如此强烈。
在数字化转型过程中,即使是如银行业一般的技术实力突出的行业,也面临着系统稳定性问题。在存量时代,用户体验决定了业务的增长。
在采用新的分布式技术的过程中,系统复杂性增加,运维和业务的依赖关系的复杂性也随之增加。传统的监控方法和技术在某些情况下可能无法完全解决现有的系统稳定性问题。
根据相关统计,有超过 97% 的从业者迫切需要从监控方法转向可观测性解决方案,以管理多云和混合环境。
中国互联网协会近期公示的《应用可观测性平台通用能力技术要求》中明确定义:可观测性是指应用程序和基础设施的实时监控、诊断和分析能力,包括收集、存储、可视化和分析相关数据以了解系统状态和行为。
可观测性可以帮助运维人员了解系统的运行情况、及时发现问题并进行处理。同时也可以帮助研发人员了解系统的瓶颈和性能问题,提高系统的可靠性和性能。
可观测性平台在提升运维效率、保障系统稳定性方面正发挥着越来越重要的作用。为了解决复杂环境下运维稳定性保障的问题,企业需要建设一套可观测性平台。
CNCF 规定了可观测性五大信号,即指标、追踪、日志、性能分析和转储,但基调听云在长期的客户落地实践中发现,CNCF 五大信号只是基础数据,只能解决系统基础问题。在五大信号之外,可观测性平台还必须具备包含拓扑、用户旅途、业务、网络和元信息五大扩展信号数据,将十大信号数据融入统一的系统,并建立数据模型和制度,以统一利用全域的运维数据。
而建设这样一个统一的模型的最佳路径是建设一个运维的数据湖仓,对数据进行统一管理和消费,以支持指标异常检测等功能。
传统的数据仓在交互等操作上存在一些低效的问题,而在大模型的辅助下,通过自然语言与运维平台沟通,可以大幅提升运维效率。大模型在提升运维沟通效率和解决传统沟通界面问题上具备非常大的潜力。
数据治理是建立可观测性平台的首要任务,需要针对运维中的观测对象进行分层处理。分层观测对象包括主机、进程、容器、应用、用户体验和业务等,需进行全域数据采集以支持后续分析。
数据治理需在数据采集阶段即开始,包括标签设定等工作,以提升效率和数据质量,确保数据关联关系的建立,为数据分析和治理奠定基础,以避免后期高昂的代价。
数据湖仓结合了数据湖和数据仓库的特点,提供了一个统一的数据架构,支持存储大量可观测性原始数据与多种数据格式。原始数据的现场还原能力在很大程度上影响着故障排查和原因分析的结果,基于云原生架构的优势,数据湖仓实现了存算分离和高可用,可极大地支持后续的数据分析和应用。
数据湖仓作为数据存储和分析的基础,其交互式引擎的性能对于实时数据分析至关重要。交互式引擎应支持流式数据处理和实时查询,以满足紧急情况下快速获取数据价值的需求。
指标体系是系统问题发现的关键手段,但发现异常指标后,需深入数据湖仓获取数据细节进行分析。现有工具在异常指标发现后,往往缺乏细节数据的支持,需要额外借助其他数据源进行分析。观云平台全新推出的「见微」,支持发现数据在不同维度之间的差异与变化,快速找到异常数据与其他正常数据之间的关联关系和差异,帮助运维人员找出导致异常的具体原因。
可观测性平台建设过程中,一般存在以用户为中心和以应用为中心两种主流思路,二者在平台的建设中有不同的侧重点。从稳定性保障的实践角度看,应用是为用户服务的,将用户置于可观测性平台建设的中心位置,提升用户体验、减少并解决用户投诉,是十分必要的。
轻应用平台允许开发者快速构建、部署和运行轻量级应用程序。观云平台中也提供了这样一个轻应用平台。通过观云平台独创的轻应用框架,任何人都可以快速构建和发布具备可观测性分析和管理能力的轻应用。
轻应用平台基于低代码平台构建,在运维稳定性保障体系中,通过轻用、低代码的平台,简化数据消费过程,只需要掌握基本的前端开发能力,即可快速开发和部署自己的可观测性轻应用,极大地降低了应用的开发成本,支持快速开发和定制化的实现。
推荐阅读
来个“分享、点赞、在看”👇