eBPF Talk: binary search

文摘科技 2023-05-22 08:10 新加坡

其实，bpf 子系统里并没有一个叫 bpf_binary_search() 的 helper 函数。

但并不是说，在 eBPF 里就实现不了二分查找了。

小需求

怎么判断一个 IP 地址是否在某几个 CIDR 里？

已知方法有二：

lpm_trie^[1]
eBPF Talk: 实战经验之 loop

但它们各自有各自的优缺点：

lpm_trie 实用性强，适合以 CIDR 为 key 的比较复杂的场景。
lpm_trie 在性能上并不占优势，它的查找性能不稳定，取决于 CIDR 的 bit 分布情况，不适用于高效地判断一个 IP 是否在某几个 CIDR 里的场景。
loop 方法的实现简单，性能稳定，对于少量（可能小于等于 8）CIDR 的情况，它能比较高效地判断一个 IP 是否在这几个 CIDR 里。
loop 方法的缺点也比较明显，随着 CIDR 的数量的增加，它的性能会线性下降。

有没有一种查找性能稳定、且查找性能跟 loop 方法差不多的方法呢？

如果不直接限定在 eBPF 里，那么，答案就是二分查找了。

二分查找

对二分查找算法不是很熟悉，上 ChatGPT：

int binarySearch(int arr[], int left, int right, int target) {
    while (left <= right) {
        int mid = left + (right - left) / 2;

        // Check if target is present at the middle
        if (arr[mid] == target)
            return mid;

        // If target is greater, ignore the left half
        if (arr[mid] < target)
            left = mid + 1;

        // If target is smaller, ignore the right half
        else
            right = mid - 1;
    }

    // Target was not found
    return -1;
}

eBPF 里的二分查找

抄，但不能直接抄：

struct delay_cidr {
    __u32 start;
    __u32 end;
};

typedef struct {
    struct delay_cidr cidrs[DELAY_CIDR_CAPACITY];
} delay_cidrs_t;

static const volatile delay_cidrs_t delay_cidrs;
static const volatile __u32 delay_cidrs_len = 0;

static __always_inline bool
__should_delay_sip(__be32 ip)
{
    __u32 lo = 0;
    __u32 hi = delay_cidrs_len - 1;
    __u32 addr = bpf_ntohl(ip);

#pragma clang loop unroll(full)
    for (__u32 index = 0; index < 32; index++) {
        if (lo > hi)                    // Checking lo > hi for the end of binary search.
            return false;

        __u32 mid = (lo + hi) >> 1;
        if (mid >= DELAY_CIDR_CAPACITY) // It's required to do bound check for mid.
            return false;

        struct delay_cidr *cidr = (typeof(cidr))&delay_cidrs.cidrs[mid];
        if (addr >= cidr->start && addr <= cidr->end) {
            return true;
        }

        if (addr < cidr->start) {
            hi = mid - 1;
        } else {
            lo = mid + 1;
        }
    }

    return false;
}

其中需要注意：

将 IP 地址转换为 __u32 类型，是为了方便比较。
eBPF 里只支持有限次数的循环，所以不能直接套用 while (lo <= hi)。
访问 cidrs 数组前，需要先对 mid 进行边界检查。
先判断 IP 地址是否在 mid 对应的 CIDR 里，再调整 lo 和 hi。

完美，以上代码片段实现了 log2 级别的查找性能。

但是，以上代码片段通不过 verifier，报错 "R3 unbounded memory access, make sure to bounds check any such access"。

eBPF 里的二分查找（`bpf_loop`）

因为上面的代码片段过不了 verifier，所以，我们需要换一种思路：借助 bpf_loop() helper 函数。

struct delay_ctx {
    __u32 lo, hi;
    __u32 ip;
    bool found;
};

static long loop_delay_cidrs(__u32 index, struct delay_ctx *ctx)
{
    if (!ctx)                               // It's required to check NULL ctx.
        return 1;

    if (ctx->lo > ctx->hi)                  // Checking lo > hi for the end of binary search.
        return 1;

    __u32 mid = (ctx->lo + ctx->hi) >> 1;
    if (mid >= DELAY_CIDR_CAPACITY)         // It's required to do bound check for mid.
        return 1;

    struct delay_cidr *cidr = (typeof(cidr))&delay_cidrs.cidrs[mid];
    if (ctx->ip >= cidr->start && ctx->ip <= cidr->end) {
        ctx->found = true;
        return 1;
    }

    if (ctx->ip < cidr->start) {
        ctx->hi = mid - 1;
    } else {
        ctx->lo = mid + 1;
    }

    return 0;
}

static __always_inline bool
__should_delay_sip(__be32 ip)
{
    struct delay_ctx ctx = {
        .lo = 0,
        .hi = delay_cidrs_len - 1,
        .ip = bpf_ntohl(ip),
        .found = false,
    };

    bpf_loop(32, loop_delay_cidrs, &ctx, 0);

    return ctx.found;
}

该代码片段的实现逻辑跟 for 循环的实现逻辑一样，但是，它可以通过 verifier。

不过嘛，bpf_loop() helper 函数要求 5.17 内核。

bpf: Add bpf_loop helper^[2] since 5.17 kernel.

小结

没有做性能测试，不过能够在 eBPF 里实现二分查找是一件很有意思的事情，不是吗？

二分查找的实现思路有两个：

通过 for 循环实现。
通过 bpf_loop() helper 函数实现。

其中，相比 bpf_loop() helper 的实现方式，for 循环实现的方式更具有普适性。

问题：有没有办法解决 for 循环实现方式的 verifier 问题呢？

参考资料

[1]

lpm_trie: https://github.com/torvalds/linux/blob/master/kernel/bpf/lpm_trie.c

[2]

bpf: Add bpf_loop helper: https://github.com/torvalds/linux/commit/e6f2dd0f80674e9d5960337b3e9c2a242441b326

http://mp.weixin.qq.com/s?__biz=MjM5MTQxNTk5MA==&mid=2247484971&idx=1&sn=80a660ea461b706b61c61152f92c6d07

eBPF Talk

专注于 eBPF 技术，以及 Linux 网络上的 eBPF 技术应用

最新文章

eBPF Talk: 修复了 bpftool 中存在了 7 年的 BUG

eBPF Talk: 自制查看 bpf prog 反汇编的工具

eBPF Talk: 我禁用了 freplace tailcall freplace

eBPF Talk: guard spinlock

eBPF Talk: CPUMAP 简介

eBPF Talk: trace sockops 程序

eBPF Talk: 改进 XDP 解析 TCP options

eBPF Talk: 又修了一个 tailcall 有关的 BUG

eBPF Talk: ringbuf 经验分享

eBPF Talk: XDP 解析所有 TCP options

eBPF Talk: 给 x86 BPF JIT 做下优化

eBPF Talk: BPF 读取 TOA 的 4 种方式

eBPF Talk: 手撕 verifier log 一例

eBPF Talk: 耗时 10 个月，修复了又一个 tailcall 的 bug

eBPF Talk: 在设备层统计网络包延迟

eBPF Talk: 跟踪 ipv4 sysctl 配置变更

eBPF Talk: 使用 drgn 学习 bpf

eBPF Talk: 跟踪 RPS/XPS 配置变更

eBPF Talk: 跟踪 IRQ 绑核

eBPF Talk: 一行代码两行泪

eBPF Talk: vista 支持对 XDP/tc-bpf 进行抓包

eBPF Talk: 混部环境下无损升级 XDP 程序的思路

eBPF Talk: pwru 继承者 vista

eBPF Talk: challenge verifier

eBPF Talk: binary search

eBPF Talk: bpf prog stats

eBPF Talk: packet range check

Linux 网络：性能杀手 spinlock

eBPF Talk: 踩坑 XDP on Mellanox

eBPF Talk: tc-bpf 转发网络包

eBPF Talk: eBPF 程序模块化与单测构想

eBPF Talk: 给 XDP 程序写 unittest

eBPF Talk: 使用 metadata 将信息从 XDP 传给 AF_XDP

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

eBPF Talk: binary search

小需求

二分查找

eBPF 里的二分查找

eBPF 里的二分查找（bpf_loop）

小结

参考资料

eBPF 里的二分查找（`bpf_loop`）