哈哈，有人爬我网站，我把他教育了一顿！

科技 2024-12-08 14:47 广东

作为一个站长，你是不是对爬虫不胜其烦？爬虫天天来爬，速度又快，频率又高，服务器的大量资源被白白浪费。

看这篇文章的你有福了，我们今天一起来报复一下爬虫，直接把爬虫的服务器给干死机。

本文有一个前提：你已经知道某个请求是爬虫发来的了，你不满足于单单屏蔽对方，而是想搞死对方。

很多人的爬虫是使用Requests来写的，如果你阅读过Requests的文档，那么你可能在文档中的Binary Response Content[1]这一小节，看到这样一句话：

The gzip and deflate transfer-encodings are automatically decoded for you.
（Request）会自动为你把gzip和deflate转码后的数据进行解码

网站服务器可能会使用gzip压缩一些大资源，这些资源在网络上传输的时候，是压缩后的二进制格式。客户端收到返回以后，如果发现返回的Headers里面有一个字段叫做Content-Encoding，其中的值包含gzip，那么客户端就会先使用gzip对数据进行解压，解压完成以后再把它呈现到客户端上面。浏览器自动就会做这个事情，用户是感知不到这个事情发生的。而requests、Scrapy这种网络请求库或者爬虫框架，也会帮你做这个事情，因此你不需要手动对网站返回的数据解压缩。

这个功能原本是一个方便开发者的功能，但我们可以利用这个功能来做报复爬虫的事情。

我们首先写一个客户端，来测试一下返回gzip压缩数据的方法。

我首先在硬盘上创建一个文本文件text.txt，里面有两行内容，如下图所示：

然后，我是用gzip命令把它压缩成一个.gz文件：

cat text.txt | gzip > data.gz

接下来，我们使用FastAPI写一个HTTP服务器server.py：

from fastapi import FastAPI, Response
from fastapi.responses import FileResponse


app = FastAPI()


@app.get('/')
def index():
    resp = FileResponse('data.gz')
    return resp

然后使用命令uvicorn server:app启动这个服务。

接下来，我们使用requests来请求这个接口，会发现返回的数据是乱码，如下图所示：

返回的数据是乱码，这是因为服务器没有告诉客户端，这个数据是gzip压缩的，因此客户端只有原样展示。由于压缩后的数据是二进制内容，强行转成字符串就会变成乱码。

现在，我们稍微修改一下server.py的代码，通过Headers告诉客户端，这个数据是经过gzip压缩的：

from fastapi import FastAPI, Response
from fastapi.responses import FileResponse


app = FastAPI()


@app.get('/')
def index():
    resp = FileResponse('data.gz')
    resp.headers['Content-Encoding'] = 'gzip'  # 说明这是gzip压缩的数据
    return resp

修改以后，重新启动服务器，再次使用requests请求，发现已经可以正常显示数据了：

这个功能已经展示完了，那么我们怎么利用它呢？这就不得不提到压缩文件的原理了。

文件之所以能压缩，是因为里面有大量重复的元素，这些元素可以通过一种更简单的方式来表示。压缩的算法有很多种，其中最常见的一种方式，我们用一个例子来解释。假设有一个字符串，它长成下面这样：

1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111

我们可以用5个字符来表示：192个1。这就相当于把192个字符压缩成了5个字符，压缩率高达97.4%。

如果我们可以把一个1GB的文件压缩成1MB，那么对服务器来说，仅仅是返回了1MB的二进制数据，不会造成任何影响。但是对客户端或者爬虫来说，它拿到这个1MB的数据以后，就会在内存中把它还原成1GB的内容。这样一瞬间爬虫占用的内存就增大了1GB。如果我们再进一步增大这个原始数据，那么很容易就可以把爬虫所在的服务器内存全部沾满，轻者服务器直接杀死爬虫进程，重则爬虫服务器直接死机。

你别以为这个压缩比听起来很夸张，其实我们使用很简单的一行命令就可以生成这样的压缩文件。

如果你用的是Linux，那么请执行命令：

dd if=/dev/zero bs=1M count=1000 | gzip > boom.gz

如果你的电脑是macOS，那么请执行命令：

dd if=/dev/zero bs=1048576 count=1000 | gzip > boom.gz

执行过程如下图所示：

生成的这个boom.gz文件只有995KB。但是如果我们使用gzip -d boom.gz对这个文件解压缩，就会发现生成了一个1GB的boom文件，如下图所示：

只要大家把命令里面的count=1000改成一个更大的数字，就能得到更大的文件。

我现在把count改成10，给大家做一个演示（不敢用1GB的数据来做测试，害怕我的Jupyter崩溃）。生成的boom.gz文件只有10KB：

服务器返回一个10KB的二进制数据，没有任何问题。

现在我们用requests去请求这个接口，然后查看一下resp这个对象占用的内存大小：

可以看到，由于requests自动会对返回的数据解压缩，因此最终获得的resp对象竟然有10MB这么大。

如果大家想使用这个方法，一定要先确定这个请求是爬虫发的，再使用。否则被你干死的不是爬虫而是真实用户就麻烦了。

本文的写作过程中，参考了文章网站gzip炸弹 – 王春伟的技术博客[2]，特别感谢原作者。

参考文献

[1] Binary Response Content: https://2.python-requests.org/en/master/user/quickstart/#binary-response-content

[2] 网站gzip炸弹 – 王春伟的技术博客: http://da.dadaaierer.com/?p=577

码农逆袭

致力于码农逆袭•搞钱思维•技术提升•职场突围•思维跃迁，15万+码农成长翻身第一站，陪有梦想的你一起成长。

最新文章

第一桶金的秘密，只有10%的人知道

炸裂，带着RPA10倍赋能自媒体解决方案来了

明年我要和破局圈友们一起干一件大事

Postman 最强平替诞生了！

中国永远不会倒闭的四个行业

知名爬虫库Requests作者，也失业了......

每天骑的共享单车是什么通信原理，有人了解过吗？

为什么我们公司还在用 Python 开发项目?

靠AI年入百万？一个不会编程的浙江小伙，仅花1小时用AI做了一款App后……

友好的 Python：封装和复用

知乎高赞：为什么别选计算机专业？

为啥我敢说Python是数据分析界的扛把子语言？

为什么我们公司还在用 Python 开发项目?

2023年收入最高的10种编程语言

再次封神，Python 3.13 的 JIT 方案又新又好！

一张照片，抖音小姐姐就都能跳舞了

Python3.13来了！封神

Postman 最强平替诞生了！

一样是学IT的，凭什么爬虫轻松过万？

哈哈，有人爬我网站，我把他教育了一顿！

OpenAI直接明牌，王炸！连续直播12天

免翻官方ChatGPT 4.0 和 Claude Pro，稳定有售后

闹大了！前实习生篡改代码攻击大模型训练，字节跳动起诉索赔800万

用ChatGPT+RPA+可灵批量生成1000张图片

免翻官方ChatGPT 4.0 和 Claude Pro，稳定有售后

5个牛逼赛道，普通人也能年入百万

（一条千万阅读的帖子）程序员能纯靠技术度过中年危机吗？

少年天才！15 岁山东初中生做 CTO，开源项目刚被数百万元收购了

一个薪资被严重低估的方向...

虽迟但到，阿里巴巴公布“姜萍事件”调查结果公布，令人惊讶...

我常用几个实用的Python爬虫库，收藏~

一个小公司的技术开发心酸事（已倒闭）

95后程序员月薪2万背着电脑送外卖，送单途中改Bug

收藏！史上最简单的升级ChatGPT Plus教程，3分钟搞定升级难题

10个杀手级的Python自动化脚本！

一起AI出海赚美金吧

真学不动了！Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

这样用ChatGPT和Claude每年省1600块钱

太狠了，Python实现个人手机定位分析！

打工人加班，这样发笑翻朋友圈

团队准备解散了

利用 Python 开发手机 App 实战

创业3次亏损过亿，第四次个人IP年入千万，成长只有一种，不断自我突破

专补大模型短板的RAG入门与实战书来了！

用AI搞了6位数输入！

家里的书太多了，送送送！

这个AI工具帮朋友省了1600块钱

Kimi背后的提示词被曝光了，仅需一句话即可套取！

实现百倍提效的秘密

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉