Kmesh: 监控指标和访问日志功能详解

文摘 2024-11-29 09:31 中国香港

Kmesh 是内核原生Sidecarless服务网格数据平面。它借助 "eBPF "和 "可编程内核"，将流量治理下沉到操作系统内核，大大的降低了服务网格的资源开销和网络延迟。

通过eBPF，流量数据可以直接在内核中获取，并且能够使用 "bpf map"将数据传递到用户空间。Kmesh使用这些数据构建监控指标和访问日志。

如何获取原始数据

在内核中，可以直接获取socket携带的流量信息。

bpf_tcp_sock 中携带的数据如下：

struct bpf_tcp_sock {
 __u32 snd_cwnd;  /* Sending congestion window  */
 __u32 srtt_us;  /* smoothed round trip time << 3 in usecs */
 __u32 rtt_min;
 __u32 snd_ssthresh; /* Slow start size threshold  */
 __u32 rcv_nxt;  /* What we want to receive next  */
 __u32 snd_nxt;  /* Next sequence we send  */
 __u32 snd_una;  /* First byte we want an ack for */
 __u32 mss_cache; /* Cached effective mss, not including SACKS */
 __u32 ecn_flags; /* ECN status bits.   */
 __u32 rate_delivered; /* saved rate sample: packets delivered */
 __u32 rate_interval_us; /* saved rate sample: time elapsed */
 __u32 packets_out; /* Packets which are "in flight" */
 __u32 retrans_out; /* Retransmitted packets out  */
 __u32 total_retrans; /* Total retransmits for entire connection */
 __u32 segs_in;  /* RFC4898 tcpEStatsPerfSegsIn
     * total number of segments in.
     */
 __u32 data_segs_in; /* RFC4898 tcpEStatsPerfDataSegsIn
     * total number of data segments in.
     */
 __u32 segs_out;  /* RFC4898 tcpEStatsPerfSegsOut
     * The total number of segments sent.
     */
 __u32 data_segs_out; /* RFC4898 tcpEStatsPerfDataSegsOut
     * total number of data segments sent.
     */
 __u32 lost_out;  /* Lost packets   */
 __u32 sacked_out; /* SACK'd packets   */
 __u64 bytes_received; /* RFC4898 tcpEStatsAppHCThruOctetsReceived
     * sum(delta(rcv_nxt)), or how many bytes
     * were acked.
     */
 __u64 bytes_acked; /* RFC4898 tcpEStatsAppHCThruOctetsAcked
     * sum(delta(snd_una)), or how many bytes
     * were acked.
     */
 __u32 dsack_dups; /* RFC4898 tcpEStatsStackDSACKDups
     * total number of DSACK blocks received
     */
 __u32 delivered; /* Total data packets delivered incl. rexmits */
 __u32 delivered_ce; /* Like the above but only ECE marked packets */
 __u32 icsk_retransmits; /* Number of unrecovered [RTO] timeouts */
};

注意: 上述数据并没完全用于监控指标和访问日志功能。Kmesh将在后续的开发中逐步补充这些指标。

现阶段使用的数据有：

struct tcp_probe_info {
    __u32 type;
    struct bpf_sock_tuple tuple;
    __u32 sent_bytes;
    __u32 received_bytes;
    __u32 conn_success;
    __u32 direction;
    __u64 duration; // ns
    __u64 close_ns;
    __u32 state; /* tcp state */
    __u32 protocol;
    __u32 srtt_us; /* smoothed round trip time << 3 in usecs */
    __u32 rtt_min;
    __u32 mss_cache;     /* Cached effective mss, not including SACKS */
    __u32 total_retrans; /* Total retransmits for entire connection */
    __u32 segs_in;       /* RFC4898 tcpEStatsPerfSegsIn
                          * total number of segments in.
                          */
    __u32 segs_out;      /* RFC4898 tcpEStatsPerfSegsOut
                          * The total number of segments sent.
                          */
    __u32 lost_out;      /* Lost packets   */
};

除了这些socket携带的数据外，Kmesh通过socket_storage在建立链接时存储临时数据。当链接关闭时，从之前存储的临时数据中获取链接持续时间等数据。

数据处理

Kmesh在内核中获取了来自链接的数据后，会通过ringbuf将数据传递给用户态。

Kmesh在用户态将ringbuf的数据解析之后，根据这些数据中携带的源服务和目标服务信息更新metricController中的缓存和构建metricLabels。

构建的metricLabels有workload粒度的也有service粒度的。但workload粒度的监控指标最多是集群中pod数量的平方，因此Kmesh提供一个启动开关，使用户能够按需启用监控指标功能和访问日志功能。

namespacedhost := ""
for k, portList := range dstWorkload.Services {
    for _, port := range portList.Ports {
        if port.TargetPort == uint32(dstPort) {
            namespacedhost = k
            break
        }
    }
    if namespacedhost != "" {
        break
    }
}

建立工作负载粒度的度量和服务粒度的度量metricLabels后，更新缓存。

每5秒钟，监控指标信息都会通过Prometheus API更新到Prometheus中。

在处理指标时，会一起生成访问日志。每次链接关闭时，都会将生成的Accesslog打印到Kmesh的日志中。

Kmesh监控指标功能和访问日志功能的整体架构图如下所示：

指标细节

现阶段Kmesh L4层监控的指标如下：

工作负载粒度:

Name	Describe
kmesh_tcp_workload_connections_opened_total	源工作负载和目标工作负载之间总共建立了多少次链接
kmesh_tcp_workload_connections_closed_total	源工作负载和目标工作负载之间总共关闭了多少次链接
kmesh_tcp_workload_received_bytes_total	目标工作负载接收到了多少的数据
kmesh_tcp_workload_sent_bytes_total	源工作负载发送了多少的数据
kmesh_tcp_workload_conntections_failed_total	源工作负载和目标工作负载之间建立链接失败了多少次

服务粒度:

Name	Describe
kmesh_tcp_connections_opened_total	源工作负载和目标服务之间总共建立了多少次链接
kmesh_tcp_connections_closed_total	源工作负载和目标服务之间总共关闭了多少次链接
kmesh_tcp_received_bytes_total	目标服务接收到了多少的数据
kmesh_tcp_sent_bytes_total	源工作负载发送了多少的数据
kmesh_tcp_conntections_failed_total	源工作负载和目标服务之间建立链接失败了多少次

监控指标例子:

kmesh_tcp_workload_received_bytes_total{connection_security_policy="mutual_tls",destination_app="httpbin",destination_canonical_revision="v1",destination_canonical_service="httpbin",destination_cluster="Kubernetes",destination_pod_address="10.244.0.11",destination_pod_name="httpbin-5c5944c58c-v9mlk",destination_pod_namespace="default",destination_principal="-",destination_version="v1",destination_workload="httpbin",destination_workload_namespace="default",reporter="destination",request_protocol="tcp",response_flags="-",source_app="sleep",source_canonical_revision="latest",source_canonical_service="sleep",source_cluster="Kubernetes",source_principal="-",source_version="latest",source_workload="sleep",source_workload_namespace="default"} 231

也能够通过prometheus dashboard查看监控指标。具体步骤参考Kmesh可观测性文档

现阶段Kmesh访问日志展示的字段如下：

Name	Describe
src.addr	请求的源地址和端口
src.workload	源工作负载名称
src.namespace	源工作负载所在的namespace
dst.addr	请求的目标地址和端口
dst.service	目标服务的域名
dst.workload	目标工作负载的名称
dst.namespace	目标工作负载的命名空间
direction	流量流向，OUTBOUND表示从节点流出，INBOUND表示从流入节点
sent_bytes	本次链接发送的数据量
received_bytes	本次链接接收的数据量
duration	本次链接的持续时间

Accesslog Result:

accesslog: 2024-09-14 08:19:26.552709932 +0000 UTC 
src.addr=10.244.0.17:51842, src.workload=prometheus-5fb7f6f8d8-h9cts, src.namespace=istio-system, 
dst.addr=10.244.0.13:9080, dst.service=productpage.echo-1-27855.svc.cluster.local, dst.workload=productpage-v1-8499c849b9-bz9t9, dst.namespace=echo-1-27855, direction=INBOUND, sent_bytes=5, received_bytes=292, duration=2.733902ms

Summary

Kmesh直接从套接字获取流量数据，并将其作为ringbuf传递到用户空间，以生成监控指标和访问日志。

避免在用户空间拦截流量并以本地方式获取指标。定期批量更新用户空间中的指标，避免在大流量时增加网络延迟。

随后，我们还将开发跟踪功能，以补充 Kmesh 的可观测能力。

欢迎感兴趣的同学加入Kmesh开源社区!

Kmesh GitHub:

https://github.com/kmesh-net/kmesh

Kmesh Website: https://kmesh.net/

12月7日，Kmesh技术专家，华为云Grid可靠性首席技术专家刘翔，Istio社区Steering Committee委员，Kmesh Maintainer徐中虎将在华为云开源开发者论坛上带来《服务网格的未来：Kmesh的设计思想与演进方向》技术分享及重磅发布！点击下图或阅读原文报名参会，参与现场技术交流！

转发本文并在评论区留下你希望现场交流的云原生技术话题，即有机会获得云原生开源项目限定周边礼品1份！获奖结果将于12月5日于本文评论区公示，您也可以联系Kmesh社区助手k8s2222回复“开源论坛”参与互动。

更多阅读

文章转载自容器魔方。点击这里阅读原文了解更多。

CNCF概况（幻灯片）

扫描二维码联系我们！

CNCF (Cloud Native Computing Foundation)成立于2015年12月，隶属于Linux Foundation，是非营利性组织。

CNCF（云原生计算基金会）致力于培育和维护一个厂商中立的开源生态系统，来推广云原生技术。我们通过将最前沿的模式民主化，让这些创新为大众所用。请关注CNCF微信公众号。

http://mp.weixin.qq.com/s?__biz=MzI5ODk5ODI4Nw==&mid=2247550479&idx=2&sn=363bdc82962ced3e098894ab5dac8cf5

CNCF

云原生计算基金会（CNCF）致力于培育和维护一个厂商中立的开源生态系统，来推广云原生技术。我们通过将最前沿的模式民主化，让这些创新为大众所用。

最新文章

LFOSSA 一年一度 Cyber Monday 即将开启！

CNCF Weekly 24-48

Strimzi 0.44.0 的集群伸缩自动再均衡功能

Kmesh: 监控指标和访问日志功能详解

新认证：KCA (Kyverno Certified Associate)

精彩预告 | Karmada助力小红书打造混合云多集群架构

基于K8s和CloudNativePG的云中立PostgreSQL数据库

CNCF最新技术雷达，Fluid脱颖而出，它来自何处？

Keycloak 完成模糊测试审计

新认证：OpenTelemetry Certified Associate (OTCA)

CNCF发布技术景观雷达和参考架构，弥补云原生生态系统的差距

CubeFS之Blobstore子系统IO流程介绍

使用 Knative 构建无服务器和事件驱动的应用程序（LFS246）课程上线！

学习维护者的基本知识

KubeVirt + Kube-OVN 实现双栈网络支持：基于 managedTap的最佳实践

Karpenter 正式支持阿里云，助力优化 ACK 集群自动扩展

塑造生成式人工智能的未来

最新免费课程：OpenTelemetry 入门（LFS148）出炉

解锁成长与人才：为何维护者应与CNCF合作进行指导

openGemini社区11月例会议题

KubeEdge边缘设备管理系列（一）：基于物模型的设备管理API设计与实现

HAMi vGPU 原理分析 Part2：hami-webhook 原理分析

CNCF Weekly 24-47

Kube-OVN 1.13 发布：更高的质量与全新的功能，感谢社区的支持！

Shipwright v0.14.0 发布

PyPI 的 Sigstore 驱动的认证现已普遍可用

宣布CNCF 2025活动安排

openGemini v1.3.0稳定版本正式发布

SpinKube 简介

宣布云原生英雄挑战

狙击 K8s 用户的“流氓”专利：分布式软件定义网络 (dSDN)

定居 - Score 在 CNCF 生态系统中的旅程

是时候踏上Dockerless之路了

标准化与多样性齐头并进的 KubeCon 见闻

openGemini社区多副本性能优化小组成员公示

Argo内部：一部关于简化Kubernetes部署的自动化工具的新纪录片

KubeEdge 如何构建适应边缘网络的安全可信隧道

推出集成的 Backstage 和 Headlamp 体验

K8s 自定义调度器 Part1：通过 Scheduler Extender 实现自定义调度逻辑

openGemini社区新晋Committer徐业：开源如萤光聚，最终汇聚成一束束耀眼的光芒

KCL 开源社区最新动态 | 更流畅的 IDE 与工具链体验！

【公告】2025年认证考试价格即将调整

下午直播｜Fluid 引入Openkruise进行缓存Runtime扩缩容的实践

Cilium 项目旅程报告概览

eBPF 威胁模型和验证器代码审计

开启 OpenSearch 的未来

帮助我们测试 OpenTofu 1.9.0-alpha2

CNCF Weekly 24-46

CNCF 欢迎 wasmCloud 升级到孵化阶段

Keycloak 26：跨组织的可扩展认证

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉