云观测建设的主要挑战及云观测工具的选择考量

科技   科技   2024-07-11 13:37   上海  


可观测性是云原生领域最热门的话题之一。随着越来越多的组织投入到可观测性建设中,可观测性领域面临的挑战发生了新变化:


  • 工具种类多:市场上涌现出大量观测工具,不同工具的技术手段各异,工具选型困难。

  • 数据关联差:观测工具开放性差,不同工具的数据难以关联,增加运维复杂度。

  • 投入产出低:在降本增效的大背景下,需要平衡观测工具的软硬件投入与产出。


本文结合天旦运维经验以及对可观测性的理解,探讨当前面临的这些挑战。


如何评估可观测工具‍‍‍‍


谈可观测性建设,不得不提及Peter Bourgon的观测三支柱。很多组织对照这些观测信号,收集各类数据,收集的数据量是以前的数十上百倍,更多的数据意味着更多的成本,可观测性建设不应该是简单的收集各类数据。可观测性也不应该是一个大而全的体系,几乎把所有工具都填充到体系内。


服务于业务才应该是可观测的本质,因此可观测性建设应该以业务为中心,需要平衡投入产出,并且要匹配组织规模。基于以上共识,我们提出“可观测三角“模型,用以理解和评估可观测性工具,帮助寻找技术与业务的平衡。

可观测三角模型


1、观测粒度


观测粒度越细,收集数据的规模也越大,反之亦然。我们按照从粗到细对观测粒度排序:Metric<Traces<Logs<Profiles<Dumps,最常收集的信号是Metric、Traces、Logs。恰当的信息压缩可以有效降低资源消耗,一般Metric的收集规模最小,而Logs的收集规模往往是巨大的,在规模上经常超过它报告的生产流量。


是否超过业务的生产流量是重要的参考位,一旦超过生产流量,我们不禁要问到底谁才是真正的业务?也因此APM工具大多数选择采样,而针对eBPF等类Profiles工具,基于同样的原因,作为开发调试工具在排查问题时开启是合适的,不建议在线上全量开启。打个比方,如果Metric类似于量血压,那么日志则像是验血,而APM和eBPF则像是X光扫描,不同的手段需要适配不同的场景,没有好坏之分,因此在观测的粒度选择上,是可观测性工具选择需要关注的第一个视角。


2、观测广度


观测的广度分两个方面,一方面是需要观测的系统范围大小,另一方面是工具对各层IT组件的支持能力,观测对象的范围越广,收集数据的规模也越大,反之亦然。一般组织都会对业务系统分类定级,重要系统的观测水平高于一般系统,联机交易类系统高于管理类系统。


其次不同的观测工具能力不同,覆盖的场景也不同,我们需要从不同角度考察工具的支持能力,包括:不同组件语言支持度、侵入性、实时性、开放性等。例如,针对端到端监控的场景,我们需要观测从网络设备->物理服务器->容器->应用->业务等不同层的状态。一般Logs几乎可以适配所有层的观测,网络互联数据其次,而eBPF、Prometheus、APM等则更擅长系统层和应用层的观测。因此在观测广度的选择上,需要以业务为中心,按需观测,也是需要关注的话题。


3、观测成本


观测成本可以分为两类,一类是容易量化的软硬件成本,另一类是不易量化的建设维护成本。针对容易量化的部分,观测数据的规模越大,对计算、存储和网络资源的消耗也越大,等同于增加的成本。根据观察,Logs的资源消耗几乎是Metric的数十倍,Trace的资源消耗介于Metric和Logs之间,APM、eBPF等工具在全解析运行下,成本要高于Logs。软件的成本主要取决于管理对象的规模,当管理对象规模越大,软件的成本也越大,其成本归根结底是人力成本,选择"开源+自有开发人员"和选择"商业软件+服务",成本并无显著区别。


针对不容易量化的建设维护成本,三分建设七分运维。工具建设成本包括实施成本、应用配合改造成本等,当然很多时候我们还会关注快速落地见效的能力,这部分成本占有一定的比例。系统的运行维护成本包括软硬件维保成本、日常使用维护更新的成本、维护人员成本等,这部分成本才是更主要成本,一个运维支撑类系统的运维是否友好,运维工作量大不大,直接决定着这个系统的可运行性。因此观测成本也是可观测性建设中非常重要的一个视角。


在降本增效的大背景下,从第一性原理出发,探讨可观测工具的评价选型。天旦BPC另辟蹊径,利用互联数据,以业务为中心,破解云上观测的难题,下篇将分享天旦在业务可观测工具建设上的思考。




天旦Netis
上海天旦网络科技发展有限公司是国际领先的业务与网络性能管理领域的软件产品企业,针对关键业务保障、交易分析、大数据采集和挖掘等方面提供专业的产品和解决方案。