eBPF Talk: ringbuf 经验分享

文摘 2024-08-26 08:10 新加坡

最近在使用 ringbuf 的 bpf_ringbuf_reserve() 时踩了一个坑，记录一下。

ringbuf 简介

ringbuf 是 BPF 中能够取代 PERF_EVENT_ARRAY 的特殊 map 类型，提供了类似的 helpers:

bpf_ringbuf_output(): 将数据写入 ringbuf。
bpf_ringbuf_reserve(): 为数据预留空间。
bpf_ringbuf_submit(): 提交预留的数据。
bpf_ringbuf_discard(): 丢弃预留的数据。
bpf: Implement BPF ring buffer and verifier support for it^[1] since 5.8 kernel.

根据该 commit，推荐的用法是 bpf_ringbuf_reserve() 加 bpf_ringbuf_submit()/bpf_ringbuf_discard()，而不是 bpf_ringbuf_output()；因为 bpf_ringbuf_output() 需要拷贝数据。

`bpf_ringbuf_reserve()` 有锁吗？

答案：有。

直接翻看 bpf_ringbuf_reserve() 的源码：

// https://github.com/torvalds/linux/blob/5be63fc19fcaa4c236b307420483578a56986a37/kernel/bpf/ringbuf.c#L408


static void *__bpf_ringbuf_reserve(struct bpf_ringbuf *rb, u64 size)
{
    // ...

    cons_pos = smp_load_acquire(&rb->consumer_pos);

    if (in_nmi()) {
        if (!spin_trylock_irqsave(&rb->spinlock, flags))
            return NULL;
    } else {
        spin_lock_irqsave(&rb->spinlock, flags);
    }

    pend_pos = rb->pending_pos;
    prod_pos = rb->producer_pos;
    new_prod_pos = prod_pos + len;

    // ...

    /* pairs with consumer's smp_load_acquire() */
    smp_store_release(&rb->producer_pos, new_prod_pos);

    spin_unlock_irqrestore(&rb->spinlock, flags);

    return (void *)hdr + BPF_RINGBUF_HDR_SZ;
}

BPF_CALL_3(bpf_ringbuf_reserve, struct bpf_map *, map, u64, size, u64, flags)
{
    struct bpf_ringbuf_map *rb_map;

    if (unlikely(flags))
        return 0;

    rb_map = container_of(map, struct bpf_ringbuf_map, map);
    return (unsigned long)__bpf_ringbuf_reserve(rb_map->rb, size);
}

在写 bpf 代码时，没留意该锁对性能的影响，导致性能变得很差。示例：

static __always_inline void
record_event(struct xdp_md *xdp)
{
    struct event_t *event;

    event = bpf_ringbuf_reserve(&ringbuf, sizeof(*event));
    if (!event)
        return;

    event->pkt_len = xdp->data_end - xdp->data;
    if (event->pkt_len <= MTU)
        return;

    __fill_event(event, xdp);
    bpf_ringbuf_submit(event, &ringbuf);
}

对于这种情况，需要将 bpf_ringbuf_reserve() 调整到 if 语句之后，避免不必要的锁操作：

static __always_inline void
record_event(struct xdp_md *xdp)
{
    struct event_t *event;
    int pkt_len;

    pkt_len = xdp->data_end - xdp->data;
    if (pkt_len <= MTU)
        return;

    event = bpf_ringbuf_reserve(&ringbuf, sizeof(*event));
    if (!event)
        return;

    event->pkt_len = pkt_len;
    __fill_event(event, xdp);
    bpf_ringbuf_submit(event, &ringbuf);
}

有没有更高效率的使用办法呢？

`bpf_ringbuf_query()` BPF_RB_AVAIL_DATA

查看 bpf_ringbuf_query() 的 helper 文档：

/*
 * bpf_ringbuf_query
 *
 *  Query various characteristics of provided ring buffer. What
 *  exactly is queries is determined by *flags*:
 *
 *  * **BPF_RB_AVAIL_DATA**: Amount of data not yet consumed.
 *  * **BPF_RB_RING_SIZE**: The size of ring buffer.
 *  * **BPF_RB_CONS_POS**: Consumer position (can wrap around).
 *  * **BPF_RB_PROD_POS**: Producer(s) position (can wrap around).
 *
 *  Data returned is just a momentary snapshot of actual values
 *  and could be inaccurate, so this facility should be used to
 *  power heuristics and for reporting, not to make 100% correct
 *  calculation.
 *
 * Returns
 *  Requested value, or 0, if *flags* are not recognized.
 */
static __u64 (*bpf_ringbuf_query)(void *ringbuf, __u64 flags) = (void *) 134;

可以通过 bpf_ringbuf_query() 获取 ringbuf 未消费的数据量，从而推算出可用来塞数据的空间大小。

static __always_inline void
record_event(struct xdp_md *xdp)
{
    struct event_t *event;
    __u64 avail_data;
    int pkt_len;

    pkt_len = xdp->data_end - xdp->data;
    if (pkt_len <= MTU)
        return;

    avail_data = bpf_ringbuf_query(&ringbuf, BPF_RB_AVAIL_DATA);
    if (RINGBUF_SIZE - avail_data < sizeof(*event))
        return;

    event = bpf_ringbuf_reserve(&ringbuf, sizeof(*event));
    if (!event)
        return;

    event->pkt_len = pkt_len;
    __fill_event(event, xdp);
    bpf_ringbuf_submit(event, &ringbuf);
}

不过，查询 BPF_RB_AVAIL_DATA 得付出一点代价：

// https://github.com/torvalds/linux/blob/5be63fc19fcaa4c236b307420483578a56986a37/kernel/bpf/ringbuf.c#L299

static unsigned long ringbuf_avail_data_sz(struct bpf_ringbuf *rb)
{
    unsigned long cons_pos, prod_pos;

    cons_pos = smp_load_acquire(&rb->consumer_pos);
    prod_pos = smp_load_acquire(&rb->producer_pos);
    return prod_pos - cons_pos;
}

BPF_CALL_2(bpf_ringbuf_query, struct bpf_map *, map, u64, flags)
{
    struct bpf_ringbuf *rb;

    rb = container_of(map, struct bpf_ringbuf_map, map)->rb;

    switch (flags) {
    case BPF_RB_AVAIL_DATA:
        return ringbuf_avail_data_sz(rb);
    case BPF_RB_RING_SIZE:
        return ringbuf_total_data_sz(rb);
    case BPF_RB_CONS_POS:
        return smp_load_acquire(&rb->consumer_pos);
    case BPF_RB_PROD_POS:
        return smp_load_acquire(&rb->producer_pos);
    default:
        return 0;
    }
}

其中的 smp_load_acquire() 涉及到内存屏障，会有一定的开销。

参考：LINUX KERNEL MEMORY BARRIERS^[2].

ringbuf 的大小要求

在使用 ringbuf 时，max_entries 必须是 2 的幂次方、而且还要求是 PAGE_SIZE 的倍数。

// https://github.com/torvalds/linux/blob/5be63fc19fcaa4c236b307420483578a56986a37/kernel/bpf/ringbuf.c#L189

static struct bpf_map *ringbuf_map_alloc(union bpf_attr *attr)
{
    struct bpf_ringbuf_map *rb_map;

    if (attr->map_flags & ~RINGBUF_CREATE_FLAG_MASK)
        return ERR_PTR(-EINVAL);

    if (attr->key_size || attr->value_size ||
        !is_power_of_2(attr->max_entries) ||
        !PAGE_ALIGNED(attr->max_entries))
        return ERR_PTR(-EINVAL);

    rb_map = bpf_map_area_alloc(sizeof(*rb_map), NUMA_NO_NODE);
    if (!rb_map)
        return ERR_PTR(-ENOMEM);

    bpf_map_init_from_attr(&rb_map->map, attr);

    rb_map->rb = bpf_ringbuf_alloc(attr->max_entries, rb_map->map.numa_node);
    if (!rb_map->rb) {
        bpf_map_area_free(rb_map);
        return ERR_PTR(-ENOMEM);
    }

    return &rb_map->map;
}

总结

记住以下 3 点经验：

使用 bpf_ringbuf_reserve() 时，要注意锁的开销。
可以通过 bpf_ringbuf_query() 查询 ringbuf 的未消费数据量，从而推算出可以用来塞数据的空间大小。
ringbuf 的 max_entries 必须是 2 的幂次方、而且还要求是 PAGE_SIZE 的倍数。

参考资料

[1]

bpf: Implement BPF ring buffer and verifier support for it: https://github.com/torvalds/linux/commit/457f44363a8894135c85b7a9afd2bd8196db24ab

[2]

LINUX KERNEL MEMORY BARRIERS: https://www.kernel.org/doc/Documentation/memory-barriers.txt

http://mp.weixin.qq.com/s?__biz=MjM5MTQxNTk5MA==&mid=2247485697&idx=1&sn=0a8f2bd5f299dfdf156e7e39df0bcceb

eBPF Talk

专注于 eBPF 技术，以及 Linux 网络上的 eBPF 技术应用

最新文章

eBPF Talk: 修复了 bpftool 中存在了 7 年的 BUG

eBPF Talk: 自制查看 bpf prog 反汇编的工具

eBPF Talk: 我禁用了 freplace tailcall freplace

eBPF Talk: guard spinlock

eBPF Talk: CPUMAP 简介

eBPF Talk: trace sockops 程序

eBPF Talk: 改进 XDP 解析 TCP options

eBPF Talk: 又修了一个 tailcall 有关的 BUG

eBPF Talk: ringbuf 经验分享

eBPF Talk: XDP 解析所有 TCP options

eBPF Talk: 给 x86 BPF JIT 做下优化

eBPF Talk: BPF 读取 TOA 的 4 种方式

eBPF Talk: 手撕 verifier log 一例

eBPF Talk: 耗时 10 个月，修复了又一个 tailcall 的 bug

eBPF Talk: 在设备层统计网络包延迟

eBPF Talk: 跟踪 ipv4 sysctl 配置变更

eBPF Talk: 使用 drgn 学习 bpf

eBPF Talk: 跟踪 RPS/XPS 配置变更

eBPF Talk: 跟踪 IRQ 绑核

eBPF Talk: 一行代码两行泪

eBPF Talk: vista 支持对 XDP/tc-bpf 进行抓包

eBPF Talk: 混部环境下无损升级 XDP 程序的思路

eBPF Talk: pwru 继承者 vista

eBPF Talk: challenge verifier

eBPF Talk: binary search

eBPF Talk: bpf prog stats

eBPF Talk: packet range check

Linux 网络：性能杀手 spinlock

eBPF Talk: 踩坑 XDP on Mellanox

eBPF Talk: tc-bpf 转发网络包

eBPF Talk: eBPF 程序模块化与单测构想

eBPF Talk: 给 XDP 程序写 unittest

eBPF Talk: 使用 metadata 将信息从 XDP 传给 AF_XDP

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

eBPF Talk: ringbuf 经验分享

ringbuf 简介

bpf_ringbuf_reserve() 有锁吗？

bpf_ringbuf_query() BPF_RB_AVAIL_DATA

ringbuf 的大小要求

总结

`bpf_ringbuf_reserve()` 有锁吗？

`bpf_ringbuf_query()` BPF_RB_AVAIL_DATA