多线程打包压缩数据，提高数据传输速度

文摘 2024-12-09 09:30 辽宁

最近在给服务器迁移数据，但是数据实在太大，迁移起来非常慢，于是不得不打包进行传输，但是打包压缩还是比较慢，于是想到利用多线程打包压缩来提高速度。这次内容我们来介绍一下如何多线程打包压缩数据。

顺序读写与随机读写

不知道大家是否有这样的经历，当进行数据传输过程中，如果文件特别多，传输起来就比较慢，而将数据打包为一个文件传输，速度就快很多。这是由于磁盘的特性所决定的。

所谓顺序读写是将文件写到硬盘一个连续的区域，而随机读写是在零零散散的存储空间或数据存放地址不集中在某个连续空间，进行数据的读取和写入。大文件可以进行顺序读写。很显然，顺序读写要优于随机读写，且机械硬盘的寻道时间也无法忽略，顺序读写减少了磁盘寻道的时间。这就是为什么传输一个大文件比传输同样大小的很多小文件要快很多的原因。

比如bioconda的安装目录，下面有非常多的小文件，如果一个个传输非常慢，这个时候如果将整个目录打包压缩为一个大文件，则传输起来就会快很多。

打包压缩

打包压缩是对文件操作的两个过程，往往可以通过一条命令完成，因此往往容易混淆。

打包是对文件夹进行处理，将多个文件合成一个，打包并不改变文件大小。而压缩非常容易理解，是将单个文件进行压缩，减小文件大小，便于传输，节省磁盘空间。

在Linux系统下有很多压缩算法，比如gzip，bzip2，pigz等，还有更古老的zip软件。gzip和bzip2是文件压缩工具，默认直接对源文件进行处理，压缩比率在2/3左右，都可以进行设置。加上un，为unpack的意思，表示解压缩。

gzip a.txtgunzip a.txt.gz

tar是一个比较复杂的命令，tar主要用于打包，由于tar能调用gzip或者bzip2进行压缩，而打包和压缩经常如windows系统一样合并为一个过程，新手经常将二者混淆，
-c 建立打包档案，可搭配 -v 来察看过程中被打包的档名(filename)
-t 察看打包档案的内容含有哪些档名，重点在察看『档名』就是了；
-x 解打包或解压缩的功能，可以搭配 -C (大写) 在特定目录解开
辅选项：
-j 透过 bzip2 的支持进行压缩/解压缩：此时档名最好为 *.tar.bz2
-z 透过 gzip 的支持进行压缩/解压缩：此时档名最好为 *.tar.gz
-v 在压缩/解压缩的过程中，将正在处理的文件名显示出来！
-f filename -f 后面要立刻接要被处理的档名！
对于初学者，记住c是creat，创建，x是解包，z对应gzip，j对应bzip2即可，所以常用的命令如下：

gz文件操作

tar -zcvf filename.tar.gz A B C #打包压缩为gz结尾文件tar -zxvf filename.tar.gz # 解压缩.tar.gz 结尾文件

bz2文件操作

tar -jcvf filename.tar.bz2 A B C #打包压缩为bz2结尾文件tar -jxvf filename.tar.bz2 # 解压缩.tar.bz2结尾文件

多线程打包压缩

tar和gzip或者bzip配合可以完成绝大部分的工作，通常文件都不大，感受不到太大的差距，但是当文件很多且非常大时，使用多线程操作可以极大减少打包压缩和解压缩时间。

pigz可以实现多线程的压缩和解压缩，使用起来非常简单，只需要通过-p选项添加多线程即可。

pigz -p 12 a.txt # 使用12线程进行压缩pigz -d -p 12 a.txt.gz # 使用12线程进行解压缩

pigz没有整合到tar选项参数中，一种方法是先使用tar命令对文件进行打包，然后在使用多线程进行压缩。

tar -cvf filename.tar A B C #打包压缩为gz结尾文件pigz -p 12 filename.tar # 解压缩.tar.gz 结尾文件

但这样比较麻烦，而且中间文件过大，比如你只有40T磁盘，用掉20T，如果要打包压缩这20T数据，使用上面方法就无法完成了，首先打包就需要占用20T，这样磁盘就满了。这个时候就可以通过选项参数直接多线程打包压缩。这样生成的文件只有10T左右，磁盘是够用的。

tar命令中的--use-compress-program可以指定单独的压缩工具，并且可以在里面设置多线程。

#多线程打包压缩文件tar -I 'pigz -p 12 -k' -pcvf filename.tar.gz A B C #多线程解压缩文件tar -I 'pigz -p 12 -k' -pxvf filename.tar.gz # 使用管道多线程压缩tar -cvf  A B C | pigz -p 12 -k >filename.tar.gz

基因学苑

生物云计算专家

最新文章

你只管提要求，剩下的交给AI

2025新春特辑：买课程再送一年云服务器练习

AI辅助生物信息分析

2025新春特辑：买课程再送一年云服务器练习

如何利用vscode远程打开图片和网页

看了那么多教程，为何还学不好生物信息？

关于生物信息找工作，50个问答给你说清楚

2025新春特辑：买课程再送一年云服务器练习

tldr：为生物软件添加一个中文注释

【建议收藏】基因学苑文章列表（2025年1月）

利用codespaces快速下载生物数据

学生物信息，做法证先锋

tldr：为命令行添加一个中文注释

2025年学生信，看这套视频就够了

再见了搜狗输入法

2025年学生信，看这套视频就够了

传输数据，还得是Filezilla

2025年学生信，看这套视频就够了

专业写文献的AI，它还是来了

极简工作环境配置

2025年，该学习生物信息了

史诗级升级，bioconda使用本地数据库

2025学生信，看这套教程就够了

《宏基因组数据分析》直播课程开始报名

边唠嗑边搜索

学生物信息，做法证先锋

2025学生信，看这套教程就够了

国内做生信，岂能不会更改镜像

Linux系统如何安装二进制R包

2025学生信，看这套教程就够了

2024学生信，看这套教程就够了

AI编程，就用cursor

考上研上岸，学生信起飞

Github Copilot免费使用啦

考上研上岸，学生信起飞

再也不嘲笑你了

2025想学生信，看这套教程就够了

小工具，大作用

2024学生信，看这套教程就够了

《AI在生物信息中应用》直播课程本周开课

快速升级bioconda

利用codespaces快速下载生物数据

多线程打包压缩数据，提高数据传输速度

2024学生信，看这套教程就够了

一分钟部署生物信息分析环境

学会生信，虽千万人吾往矣

如何使用AI来辅助生物信息分析？

学会生信，与1200万人竞争

安装生物软件新途径

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉