一文彻底理解零拷贝技术：zero-copy

科技 2024-11-21 21:28 北京

大家好，我是岛主小风哥，今天我们聊一聊零拷贝。

计算机处理的任务大体可以分为两类：CPU密集型与IO密集型。

当前流行的互联网应用更多的属于IO密集型，传统的IO标准接口都是基于数据拷贝的。这篇文章，我们主要关注该怎样从数据拷贝的角度来优化IO性能，让你的程序在IO性能方面赶超P8。

为什么IO接口要基于数据拷贝？

操作系统本质上就是一个管家，目的就是更加公平合理的给各个进程分配硬件资源，在操作系统出现之前，程序员需要直面各类硬件，就像这样：

在这一时期程序员真可谓掌控全局，掌控全局带来的后果就是你需要掌控所有细节，这显然不利于生产力的释放。

操作系统应用而生。

计算机系统就变成这样了：

现在应用程序不需要和硬件直接交互了，仅从IO的角度上看，操作系统变成了一个类似路由器的角色，把应用程序递交过来的数据分发到具体的硬件上去，或者从硬件接收数据并分发给相应的进程。

数据传递是通过什么呢？就是我们常说的buffer，所谓buffer就是一块可用的内存空间，用来暂存数据。

操作系统这一中间商导致的问题就是：你需要首先把东西交给操作系统，操作系统再转手交给硬件，这就必然涉及到数据拷贝。

这就是为什么传统的IO操作必然需要进行数据拷贝的原因所在。关于操作系统系统完整的阐述请参见博主的《深入理解操作系统》。

然而数据拷贝是有性能损耗的，接下来我们用一个实例来让大家对该问题有一个更直观的认知。

网络服务器

浏览器打开一个网页需要很多数据，包括看到的图片、html文件、css文件、js文件等等，当浏览器请求这类文件时服务器端的工作其实是非常简单的：服务器只需要从磁盘中抓出该文件然后丢给网络发送出去。

代码基本上类似这样：

read(fileDesc, buf, len);
write(socket, buf, len);

这两段代码非常简单，第一行代码从文件中读取数据存放在buf中，然后将buf中的数据通过网络发送出去。

注意观察buf，服务器全程没有对buf中的数据进行任何修改，buf里的数据在用户态逛了一圈后挥一挥衣袖没有带走半点云彩就回到了内核态。

这两行看似简单的代码实际上在底层发生了什么呢？

答案是这样的：

在程序看来简单的两行代码在底层是比较复杂的，看到这张图你应该真心感激操作系统，操作系统就像一个无比称职的管家，替你把所有脏活累活都承担下来，好让你悠闲的在用户态指点江山。

这简单的两行代码涉及：四次数据拷贝以及四次上下文切换：

read函数会涉及一次用户态到内核态的切换，操作系统会向磁盘发起一次IO请求，当数据准备好后通过DMA技术把数据拷贝到内核的buffer中，注意本次数据拷贝无需CPU参与。
此后操作系统开始把这块数据从内核拷贝到用户态的buffer中，此时read()函数返回，并从内核态切换回用户态，到这时read(fileDesc, buf, len);这行代码就返回了，buf中装好了新鲜出炉的数据。
接下来send函数再次导致用户态与内核态的切换，此时数据需要从用户态buf拷贝到网络协议子系统的buf中，具体点该buf属于在代码中使用的这个socket。
此后send函数返回，再次由内核态返回到用户态；此时在程序员看来数据已经成功发出去了，但实际上数据可能依然停留在内核中，此后第四次数据copy开始，利用DMA技术把数据从socket buf拷贝给网卡，然后真正的发送出去。

这就是看似简单的这两行代码在底层的完整过程。

你觉得这个过程有什么问题吗？

发现问题

有的同学肯定已经注意到了，既然在用户态没有对数据进行任何修改，那为什么要这么麻烦的让数据在用户态来个一日游呢？直接在内核态从磁盘给到网卡不就可以了吗？

恭喜你，答对了！

这种优化思路就是所谓的零拷贝技术，Zero Copy。

总体上来看，优化数据拷贝会有以下三个方向：

用户态不需要真正的去访问数据，就像上面这个示例，用户态根本不需要知道buf里面装的是什么。在这种情况下无需把数据从内核态拷贝到用户态然后再把数据从用户态拷贝回内核态。
数据无需用户态感知，数据拷贝完全发生在内核态。
内核态不要真正的去访问数据，用户态程序可以绕过内核直接和硬件交互，这样就避免了内核的参与，从而减少数据拷贝的可能。
内核无需感知数据。
如果内核态和用户态不得不进行数据交互，则优化用户态与内核态数据的交互方式。

知道了解决问题的思路，我们来看下为了实现零拷贝，计算机系统中都有哪些巧妙的设计。

mmap

是的，就是mmap。

对于本文提到的网络服务器我们可以这样修改代码：

buf = mmap(file, len);
write(socket, buf, len);

你可能会想仅仅将read替换为mmap会有什么优化吗？

如果你真的理解了mmap就会知道，mmap仅仅将文件内容映射到了进程地址空间中，并没有真正的拷贝到进程地址空间，这节省了一次从内核态到用户态的数据拷贝。

同样的，当调用write时数据直接从内核buf拷贝给了socket buf，而不是像read/write方法中把用户态数据拷贝给socket buf。

我们可以看到，利用mmap我们节省了一次数据拷贝，上下文切换依然是四次。

尽管mmap可以节省数据拷贝，但维护文件与地址空间的映射关系也是有代价的，除非CPU拷贝数据的时间超过维系映射关系的代价，否则基于mmap的程序性能可能不及传统的read/write。

此外，如果映射的文件被其它进程截断，在Linux系统下你的进程将立即接收到SIGBUS信号，因此这种异常情况也需要正确处理。

除了mmap之外，还有其它办法也可以实现零拷贝。

sendfile

你没有看错，在Linux系统下为了解决数据拷贝问题专门设计了这一系统调用：

#include <sys/sendfile.h>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

Windows下也有一个作用类似的API：TransmitFile。

这一系统调用的目的是在两个文件描述之间拷贝数据，但值得注意的是，数据拷贝的过程完全是在内核态完成，因此在网络服务器的这个例子中我们将把那两行代码简化为一行，也就是调用这里的sendfile。

使用sendfile将节省两次数据拷贝，因为数据无需传输到用户态：

调用sendfile后，首先DMA机制会把数据从磁盘拷贝到内核buf中，接下来把数据从内核buf拷贝到相应的socket buf中，最后利用DMA机制将数据从socket buf拷贝到网卡中。

我们可以看到，同使用传统的read/write相比少了一次数据拷贝，而且内核态和用户态的切换只有两次。

有的同学可能已经看出了，这好像不是零拷贝吧，在内核中这不是还有一次从内核态buf到socket buf的数据拷贝吗？这次拷贝看上去也是没有必要的。

的确如此，为解决这一问题，单纯的软件机制已经不够用了，我们需要硬件来帮一点忙，这就是DMA Gather Copy。

sendfile 与DMA Gather Copy

传统的DMA机制必须从一段连续的空间中传输数据，就像这样：

很显然，你需要在源头上把所有需要的数据都拷贝到一段连续的空间中：

现在肯定有同学会问，为什么不直接让DMA可以从多个源头收集数据呢？

这就是所谓的DMA Gather Copy。

有了这一特性，无需再将内核文件buf中的数据拷贝到socket buf，而是网卡利用DMA Gather Copy机制将消息头以及需要传输的数据等直接组装在一起发送出去。

在这一机制的加持下，CPU甚至完全不需要接触到需要传输的数据，而且程序利用sendfile编写的代码也无需任何改动，这进一步提升了程序性能。

当前流行的消息中间件kafka就基于sendfile来高效传输文件。

其实你应该已经看出来了，高效IO的秘诀其实很简单：尽量少让CPU参与进来。

实际上sendfile的使用场景是比较受限的，大前提是用户态无需看到操作的数据，并且只能从文件描述符往socket中传输数据，而且DMA Gather Copy也需要硬件支持，那么有没有一种不依赖硬件特性同时又能在任意两个文件描述符之间以零拷贝方式高效传递数据的方法呢？

答案是肯定的！这就要说到Linux下的另一个系统调用了：splice。

Splice

这里还要再次强调一下不管是sendfile还是这里的splice系统调用，使用的大前提都是无需在用户态看到要传递的数据。

让我们再来看一下传统的read/write方法。

在这一方法下必须将数据从内核态拷贝的用户态，然后在从用户态拷贝回内核态，既然用户态无需对该数据有任何操作，那么为什么不让数据传输直接在内核态中进行呢？

现在目标有了，实现方法呢？

答案是借助Linux世界中用于进程间通信的管道，pipe。

还是以网络服务器为例，DMA把数据从磁盘拷贝到文件buf，然后将数据写入管道，当在再次调用splice后将数据从管道读入socket buf中，然后通过DMA发送出去，值得注意的是向管道写数据以及从管道读数据并没有真正的拷贝数据，而仅仅传递的是该数据相关的必要信息。

你会看到，splice和sendfile是很像的，实际上后来sendfile系统调用经过改造后就是基于splice实现的，既然有splice那么为什么还要保留sendfile呢？答案很简单，如果直接去掉sendfile，那么之前依赖该系统调用的所有程序将无法正常运行。

作者简介

畅销书《计算机底层的秘密》作者。
公众号“码农的荒岛求生”作者。

温馨提示：

因最近微信公众平台推送规则改变，很多读者反馈没有及时看到更新的文章。根据最新规则，建议多点击“推荐阅读、分享、收藏”等，成为常读用户。

推荐阅读：

请点下【在看】给小编加鸡腿

http://mp.weixin.qq.com/s?__biz=MjM5NDQ0NjM5Mg==&mid=2650593126&idx=7&sn=bb283ffdc60c12faa0ff8f60e985c1cd

21ic电子网

即时传播电子科技信息，汇聚业界精英精彩视点。

最新文章

系统bug？小米SU7集体撞墙！

华为这台新机，又要捅破天

MCU优选第5期：创“芯”设计：STM32WB09KE开发板测评合集

电信巨头宣布：关停NB-IoT网络！

为什么要在光耦输入端并一个电阻？怎么理解CTR？

写给小白的大模型入门科普

从微架构设计看ARM发展之路

3年烧光近百亿，折叠屏手机“鼻祖”宣告破产！

说碳化硅高富帅是有原因的！

ST官宣：40nm MCU让华虹代工！

苹果电视来了！就这？

印度初创公司在72小时内打印出火箭发动机

LDO电源PCB设计要点

一文彻底理解零拷贝技术：zero-copy

原作者回击！知名博主“何同学”被曝盗用开源项目

极海正式推出自研AUTOSAR MCAL软件包和配置工具，加速汽车创新应用量产落地

创新高！雷军交出史上最强业绩

一个好问题：电压跟随器放大倍数是1，那还不如不放大？省个元件多好

软件无线电(SDR)的架构及相关术语

RF 系统中的调制技术简介

硬件工程师接单时，如何合理报价？

突发！华为、荣耀供货商旗下4家公司宣告结业

台积电与美国正式签约：将获66亿美元补贴+50亿美元贷款！

4nm制程！比亚迪推出定制芯片BYD 9000

小徒弟抄了一个2分钱的电路，还分析的有模有样！

电容ESR寄生电阻越低越好？

S参数的模态转换和三大特性

超外差接收机设计时，一般需要考虑哪些因素？

猝不及防！华为Mate 70来了，80分钟破百万台

AUTO TECH & APSME 2025︱迎机遇、创发展，汽车电子+功率半导体技术盛会，邀您共精彩！（广州·11月20日）

国产MCU专栏第100期：技能宝库更新！芯圣MCU应用案例赏析

太全面！99家国产芯片相关上市公司汇总

训斥员工被吐槽霸道，董明珠：你们真好笑，我是老板

C语言编程新手：如何判断结构体(struct)相等？

分享一下单片机自定义printf函数

国内330亿大型晶圆厂，即将诞生！

马斯克“政府效率部”公开招人！一看一个不吱声…

突发！半导体重大资产重组

集成电路，到底是谁发明的？

雷军成车展顶流，官宣“小米驾校”！

国产手机，告别性价比……

2025：x86 对决 Arm ！

关于RS485自动收发那些天坑

光刻机巨头，抛出重要信号！

PI全新1700V氮化镓开关IC，再次刷新GaN赛道纪录！

突发！南京巨头大规模裁员，赔偿N+3

曝台积电被起诉，涉嫌歧视员工！

大专生加工零件误差仅头发丝1/20，还没毕业就有企业抢着要！

小米汽车校招曝光：年收入18薪！

电容故障检测：揭密电容、ESR、相位角和耗散因数

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉