一个 TCP 发送缓冲区问题的解析

科技 2024-07-02 07:50 湖南

扫描关注一起学嵌入式，一起学习，一起成长

最近遇到一个问题，简化模型如下：

Client 创建一个 TCP 的 socket，并通过 SO_SNDBUF 选项设置它的发送缓冲区大小为 4096 字节，连接到 Server 后，每 1 秒发送一个 TCP 数据段长度为 1024 的报文。Server 端不调用 recv()。预期的结果分为以下几个阶段：

Phase 1 Server 端的 socket 接收缓冲区未满，所以尽管 Server 不会 recv()，但依然能对 Client 发出的报文回复 ACK;

Phase 2 Server 端的 socket 接收缓冲区被填满了，向 Client 端通告零窗口(Zero Window)。Client 端待发送的数据开始累积在 socket 的发送缓冲区;

Phase 3 Client 端的 socket 的发送缓冲区满了，用户进程阻塞在 send() 上。

实际执行时，表现出来的现象也"基本"符合预期。

不过当我们在 Client 端通过 ss -nt 不时监控 TCP 连接的发送队列长度时，发现这个值竟然从 0 最终增长到 14480，它轻松地超了之前设置的 SO_SNDBUF 值(4096)

# ss -nt
State   Recv-Q   Send-Q         Local Address:Port              Peer Address:Port
ESTAB   0        0              192.168.183.130:52454           192.168.183.130:14465
State   Recv-Q   Send-Q         Local Address:Port              Peer Address:Port
ESTAB   0        1024           192.168.183.130:52454           192.168.183.130:14465
State   Recv-Q   Send-Q         Local Address:Port              Peer Address:Port
ESTAB   0        2048           192.168.183.130:52454           192.168.183.130:14465
......
State   Recv-Q   Send-Q         Local Address:Port              Peer Address:Port
ESTAB   0        13312          192.168.183.130:52454           192.168.183.130:14465
State   Recv-Q   Send-Q         Local Address:Port              Peer Address:Port
ESTAB   0        14336          192.168.183.130:52454           192.168.183.130:14465
State   Recv-Q   Send-Q         Local Address:Port              Peer Address:Port
ESTAB   0        14480          192.168.183.130:52454           192.168.183.130:14465

有必要解释一下这里的 Send-Q 的含义。我们知道，TCP 是的发送过程是受到滑动窗口限制。

这里的 Send-Q 就是发送端滑动窗口的左边沿到所有未发送的报文的总长度。

那么为什么这个值超过了 SO_SNDBUF 呢？

双倍 SO_SNDBUF

当用户通过 SO_SNDBUF 选项设置套接字发送缓冲区时，内核将其记录在 sk->sk_sndbuf 中。

@sock.c: sock_setsockopt
{
   case SO_SNDBUF:
       .....
       sk->sk_sndbuf = mat_x(u32, val * 2, SOCK_MIN_SNDBUF)
}

注意，内核在这里玩了一个小 trick，它在 sk->sk_sndbuf 记录的的不是用户设置的 val，而是 val 的两倍！

也就是说，当 Client 设置 4096 时，内核记录的是 8192 ！

那么，为什么内核需要这么做呢？我认为是因为内核用 sk_buff 保存用户数据有额外的开销，比如 sk_buff 结构本身、以及 skb_shared_info 结构，还有 L2、L3、L4 层的首部大小.这些额外开销自然会占据发送方的内存缓冲区，但却不应该是用户需要 care 的，所以内核在这里将这个值翻个倍，保证即使有一半的内存用来存放额外开销，也能保证用户的数据有足够内存存放。

但是，问题现象还不能解释，因为即使是 8192 字节的发送缓冲区内存全部用来存放用户数据(额外开销为 0，当然这是不可能的)，也达不到 Send-Q 最后达到的 14480 。

sk_wmem_queued

既然设置了 sk->sk_sndbuf, 那么内核就会在发包时检查当前的发送缓冲区已使用内存值是否超过了这个限制，前者使用 sk->wmem_queued 保存。

需要注意的是，sk->wmem_queued = 待发送数据占用的内存 + 额外开销占用的内存，所以它应该大于 Send-Q

@sock.h 
bool sk_stream_memory_free(const struct sock* sk)
{
    if (sk->sk_wmem_queued >= sk->sk_sndbuf)  // 如果当前 sk_wmem_queued 超过  sk_sndbuf，则返回 false，表示内存不够了
        return false;
    .....
}

sk->wmem_queued 是不断变化的，对 TCP socket 来说，当内核将 skb 塞入发送队列后，这个值增加 skb->truesize (truesize 正如其名，是指包含了额外开销后的报文总大小)；而当该报文被 ACK 后，这个值减小 skb->truesize。

tcp_sendmsg

以上都是铺垫，让我们来看看 tcp_sendmsg 是怎么做的。总的来说内核会根据发送队列(write queue)是否有待发送的报文，决定是创建新的 sk_buff，或是将用户数据追加(append)到 write queue 的最后一个 sk_buff

int tcp_sendmsg(struct sock *sk, struct msghdr *msg, size_t size)
{
    mss_now = tcp_send_mss(sk, &size_goal, flags);
    
    // code committed
    while (msg_data_left(msg)) {
        int copy = 0;
        int max = size_goal;

        skb = tcp_write_queue_tail(sk);
        if (tcp_send_head(sk)) {
            ......
            copy = max - skb->len;
        }

        if (copy <= 0) {
        /* case 1：alloc new skb */
new_segment：
            if (!sk_stream_memory_free(sk))
                goto wait_for_sndbuf;  // 如果发送缓冲区满了 就阻塞进程 然后睡眠

            skb = sk_stream_alloc_skb(sk,
                          select_size(sk, sg),
                          sk->sk_allocation,
                          skb_queue_empty(&sk->sk_write_queue));
        }
        ......
        /* case 2：copy msg to last skb */
        ......
}

Case 1.创建新的 sk_buff

在我们这个问题中，Client 在 Phase 1 是不会累积 sk_buff 的。也就是说，这时每个用户发送的报文都会通过 sk_stream_alloc_skb 创建新的 sk_buff。

在这之前，内核会检查发送缓冲区内存是否已经超过限制，而在Phase 1 ，内核也能通过这个检查。

static inline bool sk_stream_memory_free(const struct sock* sk)
{
    if (sk-?sk_wmem_queued >= sk->sk_sndbuf)
        return false;
    ......    
}

Case 2.将用户数据追加到最后一个 sk_buff

而在进入 Phase 2 后，Client 的发送缓冲区已经有了累积的 sk_buff，这时，内核就会尝试将用户数据(msg中的内容)追加到 write queue 的最后一个 sk_buff。

需要注意的是，这种搭便车的数据也是有大小限制的，它用 copy 表示

@tcp_sendmsg

int max = size_goal;

copy = max - skb->len;

这里的 size_goal 表示该 sk_buff 最多能容纳的用户数据，减去已经使用的 skb->len，剩下的就是还可以追加的数据长度。

那么 size_goal 是如何计算的呢？

tcp_sendmsg
  |-- tcp_send_mss
       |-- tcp_xmit_size_goal
       
static unsigned  int tcp_xmit_size_goal(struct sock* sk, u32 mss_now, int large_allowed)
{
    if (!large_allowed || !sk_can_gso(sk))
        return mss_now;        
    .....
    size_goal = tp->gso_segs * mss_now;
    .....
    return max(size_goal, mss_now);
}

继续追踪下去，可以看到，size_goal 跟使用的网卡是否使能了 GSO 功能有关。

GSO Enable：size_goal = tp->gso_segs * mss_now
GSO Disable: size_goal = mss_now

在我的实验环境中，TCP 连接的有效 mss_now 是 1448 字节，用 systemtap 加了探测点后，发现 size_goal 为 14480 字节！是 mss_now 的整整 10 倍。

所以当 Clinet 进入 Phase 2 时，tcp_sendmsg 计算出 copy = 14480 - 1024 = 13456 字节。

可是最后一个 sk_buff 真的能装这么多吗？

在实验环境中，Phase 1 阶段创建的 sk_buff ，其 skb->len = 1024, skb->truesize = 4372 (4096 + 256，这个值的详细来源请看 sk_stream_alloc_skb)

这样看上去，这个 sk_buff 也容纳不下 14480 啊。

再继续看内核的实现，再 skb_copy_to_page_nocache() 拷贝之前，会进行 sk_wmem_schedule()

tcp_sendmsg
{
    /* case 2：copy msg to last skb */
    ......
    if (!sk_wmem_schedule(sk, copy))
        goto wait_for_memory;
    
    err = skb_copy_to_page_nocache(sk, &msg->msg_iter, skb, 
                                   pfrag->page,
                                   pfrag->offset,
                                   copy);
}

而在 sk_wmem_schedule 内部，会进行 sk_buff 的扩容(增大可以存放的用户数据长度).

tcp_sendmsg
  |--sk_wmem_schedule
        |-- __sk_mem_schedule
__sk_mem_schedule(struct sock* sk, int size, int kind)
{
    sk->sk_forward_alloc += amt * SK_MEM_QUANTUM;
    allocated = sk_memory_allocated_add(sk, amt, &parent_status);
    ......
    // 后面有一堆检查，比如如果系统内存足够，就不去看他是否超过 sk_sndbuf
}

通过这种方式，内核可以让 sk->wmem_queued 在超过 sk->sndbuf 的限制。

我并不觉得这样是优雅而合理的行为，因为它让用户设置的 SO_SNDBUF 形同虚设！那么我可以增么修改呢？

关掉网卡 GSO 特性
修改内核代码, 将检查发送缓冲区限制移动到 while 循环的开头。

    while (msg_data_left(msg)) {
        int copy = 0;
        int max = size_goal;

+       if (!sk_stream_memory_free(sk))
+            goto wait_for_sndbuf;

        skb = tcp_write_queue_tail(sk);
        if (tcp_send_head(sk)) {
            if (skb->ip_summed == CHECKSUM_NONE)
                max = mss_now;
            copy = max - skb->len;
        }

        if (copy <= 0) {
new_segment:
            /* Allocate new segment. If the interface is SG,
             * allocate skb fitting to single page.
             */
-            if (!sk_stream_memory_free(sk))
-                goto wait_for_sndbuf;

原文：https://segmentfault.com/a/1190000021488755

文章来源于网络，版权归原作者所有，如有侵权，请联系删除。

关注【一起学嵌入式】，回复“加群”进技术交流群。

觉得文章不错，点击“分享”、“赞”、“在看” 呗！

http://mp.weixin.qq.com/s?__biz=Mzg3ODU3Nzk3MQ==&mid=2247511853&idx=2&sn=945a31255b9e6111c4c9e4cd6d5822c5

一起学嵌入式

结伴而行，RTOS、Linux编程、C/C++，以及经验分享、行业资讯、物联网等技术知识。一起学习，一起成长

最新文章

嵌入式开发中常用的几种通信接口总结

EtherCAT协议介绍

使用 char 类型的变量一定要注意

关于RT-Thread，玩点不一样的

分享一个跨平台通用的 GUI 框架

嵌入式软件开发，要注意兼容性问题

这里有好多免费开发板，助力嵌入式开发（白送，不用评测！）

嵌入式C开发，全局变量越少越好

分享一些实用的嵌入式 C 代码

嵌入式软件开发一定要搞懂原码, 反码, 补码

PID控制算法精华和参数整定三大招

这些题目助你学习C语言递归调用

嵌入式软件常用的轻量级校验算法

嵌入式C语言常用的代码模块库

嵌入式软件的自动初始化机制

两种 C 语言之间的差异

分析一段莫名的延时输出问题

基于状态机的通用接收模块

带你了解嵌入式行业中的创新性LGA封装

嵌入式Linux程序如何开机自启动

可以分析单片机跑RTOS运行情况的工具

一图展示常用的几种网络IO模型

一款全开源的智能手表项目

图解｜内存页面迁移技术

动图展示软件版本号的含义

嵌入式软件的架构设计

射频工程师晋升路线，从小白到大佬，这一篇就够了！

推荐给嵌入式工程师一些常用软件工具

一个通用的 LED 显示模块，基于面向对象和简单工厂模式

以HelloWorld来分析程序的运行机制

MCU固件的几种Flash划分方式

详细总结 OPC UA 协议

CAN通信之DBC文件详解

总结单片机拉电阻的作用

总结电机控制相关的关键内容

一款好用的串口调试助手，支持绘图和关键字高亮

一个 TCP 发送缓冲区问题的解析

STM32双定时器+ADC+DMA实战案例

手把手教你嵌入式 linux 根文件系统原理和制作方法

一款开源的多功能串口工具，小而美且灵活多变

如何排查I2C通信失败的问题

明明硬件比软件难，但为什么硬件工程师待遇还不如软件

推荐一款超大容量瑞芯微RK3588J工业核心板

嵌入式软件的业务逻辑代码应该如何写

基于 EEPROM 的简易类文件的数据读写库

一名嵌入式工程师的工作日常

讲解MCU串口如何自动识别波特率

一图展示CPU 飙升到 100% 的 9 大原因

了解一下华为推出的编程语言--仓颉

嵌入式Linux日志log快速定位方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉