如何优化 Python 爬虫的速度？

科技 2024-11-08 14:01 山西

嗨，我是虎哥。今天我们聊聊如何优化 Python 爬虫速度的问题。

作为一个资深程序员，说实话，光用 urllib 单线程爬取数据确实有点“整活儿的架势”，但速度那真是不敢恭维。

既然今天要抓取的是十万级别的数据量，单线程显然力不从心，那我们就需要一些进阶优化策略了。

1. 多线程/多进程爬虫来一波！

在 Python 中，如果只用单线程，那性能基本上就被锁死在单核上。多线程和多进程是我们最常见的加速手段，尤其是爬虫任务中，网络 I/O 耗时较多的情况，这招就特别管用。

使用 `threading` 模块

Python 的 threading 模块可以帮助我们在单进程中并发处理多个任务，尽管 Python 的 GIL（全局解释器锁）可能会让多线程的效果打折扣，但在 I/O 操作方面，还是可以显著提升效率。下面我们用 requests 库（比 urllib 好用）和 threading 试试看。

import threading
import requests

def fetch_url(url):
    try:
        response = requests.get(url)
        print(f"Fetched {url} with status: {response.status_code}")
    except Exception as e:
        print(f"Failed to fetch {url}: {e}")

urls = ["http://example.com/page" + str(i) for i in range(100)]  # 假设有100个页面

threads = []
for url in urls:
    t = threading.Thread(target=fetch_url, args=(url,))
    threads.append(t)
    t.start()

for t in threads:
    t.join()  # 等待所有线程结束

注意：使用多线程确实可以提升速度，但在 Python 中，它的效果在 CPU 密集型任务上可能有限。不过我们这个爬虫主要是网络 I/O 密集型任务，所以线程还是可以带来不错的提速效果。

多进程加持：`multiprocessing` 模块

相比于多线程，多进程可以绕过 GIL 限制，实现真正的并行。比如用 multiprocessing.Pool 来并发处理。

from multiprocessing import Pool
import requests

def fetch_url(url):
    try:
        response = requests.get(url)
        print(f"Fetched {url} with status: {response.status_code}")
    except Exception as e:
        print(f"Failed to fetch {url}: {e}")

urls = ["http://example.com/page" + str(i) for i in range(100)]

# 创建一个进程池
with Pool(4) as p:  # 4个进程
    p.map(fetch_url, urls)

线程和进程选哪个好？

如果爬虫任务主要是 I/O 密集型（比如下载网页），用多线程更好；但如果涉及大量数据处理或者复杂计算，选用多进程会更适合。

2. 协程来扛大旗：`asyncio` + `aiohttp`

说到速度优化，不提协程那可是要被同行笑话的。Python 的 asyncio 库和 aiohttp 库是处理 I/O 密集型任务的神器，可以让我们轻松实现高并发网络请求。这也是我个人的首选方案，性能强悍且更省资源。

import aiohttp
import asyncio

async def fetch_url(session, url):
    try:
        async with session.get(url) as response:
            print(f"Fetched {url} with status: {response.status}")
    except Exception as e:
        print(f"Failed to fetch {url}: {e}")

async def main(urls):
    async with aiohttp.ClientSession() as session:
        tasks = [fetch_url(session, url) for url in urls]
        await asyncio.gather(*tasks)

urls = ["http://example.com/page" + str(i) for i in range(100)]

# 运行主协程
asyncio.run(main(urls))

协程方式不仅能让请求更快返回，还能让内存占用相对更低，非常适合大规模爬取任务。asyncio 是我写爬虫时的标配，如果你没用过，一定要试一试。

3. 把数据量做分批次请求

十万级别的数据如果一次性全部爬取，会对网站、带宽和我们的内存都造成很大压力。分批次请求可以让任务更稳妥、更好管理，也方便后期数据处理。

比如每次抓取 1000 条数据，然后休息几秒钟。这样不仅可以规避 IP 被封的风险，还能分散内存负担，避免“爬到一半崩溃重来的悲剧”。

import time

batch_size = 1000
for i in range(0, len(urls), batch_size):
    batch = urls[i:i+batch_size]
    asyncio.run(main(batch))  # 假设 main 是我们上面定义的异步主函数
    time.sleep(5)  # 假装自己是“温柔的爬虫”，间歇性休息

这个“温柔策略”有助于我们更安全地爬数据，不会一下子因为流量过大被网站关小黑屋。

4. 减少不必要的请求，缓存没错

爬虫数据量上来后，重复请求的问题常常会被我们忽略，这就导致一些不必要的网络消耗。利用缓存机制可以有效减少不必要的重复请求。

我们可以用 requests-cache 库来缓存 GET 请求，避免重复访问相同 URL 时浪费流量。

import requests
from requests_cache import CachedSession

session = CachedSession(cache_name="demo_cache", backend="sqlite", expire_after=3600)

def fetch_url(url):
    response = session.get(url)
    print(f"Fetched {url} from {'cache' if response.from_cache else 'web'} with status: {response.status_code}")

for url in urls:
    fetch_url(url)

这种缓存策略特别适合内容不经常变化的网页，可以显著降低请求次数和爬取时间。

5. 用代理池搞定IP限制

如果爬取目标网站很严格，比如有 IP 限制，那代理池就是我们的“救命稻草”了。利用代理池，不仅能突破 IP 限制，还能提高爬取速度。

proxy 库是个不错的选择，也可以搭配一些免费或者付费代理池服务来实现。

import requests

proxies = [
    "http://proxy1.com:8080",
    "http://proxy2.com:8080",
    # 更多代理地址
]

def fetch_url(url):
    proxy = {"http": proxies[0]}  # 可以在每次请求时随机选择一个代理
    response = requests.get(url, proxies=proxy)
    print(f"Fetched {url} with proxy {proxy}")

for url in urls:
    fetch_url(url)

不过需要注意，代理质量参差不齐，有的甚至不能用。爬虫中，如果真的需要长时间抓取大量数据，建议考虑付费代理池，稳定、速度快，效果会好很多。

6. 分布式爬虫来一波？

如果爬取任务量特别大，那我们可以考虑使用分布式爬虫工具，比如 Scrapy 搭配 Scrapy-Redis 或 PySpider 等等。

分布式爬虫可以将任务分配给多个机器共同完成，不仅速度快，还更安全。大公司很多数据采集都是用这种方式搞定的。

结尾

总结一下，Python 爬虫优化的方向其实就是通过增加并发性、合理管理请求频率和避免重复操作来加速。多线程、多进程、协程、分布式，都是可以让爬虫更快的技巧。至于怎么选择，还得根据具体场景来决定。

不过话说回来，写爬虫的时候，技术优化只是其中一环，遵守爬虫礼仪也很重要，不然数据没爬完，IP先被封了，那就尴尬了😂。

好了，今天的爬虫加速秘籍就分享到这里啦，希望对你们有所帮助！

对编程、职场感兴趣的同学，大家可以联系我微信：golang404，拉你进入“程序员交流群”。

🔥虎哥私藏精品热门推荐🔥

虎哥作为一名老码农，整理了全网最全《python高级架构师资料合集》。

资料包含了《IDEA视频教程》、《最全python面试题库》、《最全项目实战源码及视频》及《毕业设计系统源码》，总量高达 650GB，全部 免费领取。

http://mp.weixin.qq.com/s?__biz=Mzg2NDY1NzMzNw==&mid=2247509882&idx=1&sn=f3fda1165e8ca6040919b6d261442a11

Python技术迷

回复：python，领取Python面试题。分享AI编程，AI工具，Python技术栈，Python教程，Python编程视频，Pycharm项目，Python爬虫，Python数据分析，Python核心技术，Python量化交易。

13 个有趣的 Python 高级脚本

微信钱包资金被盗如何找回资金？

怎么感觉IT一下子就业崩溃了。。。

又一个超实用的Python打包神器！

某途员工爆料：开始大规模裁员，预计比例40%-60%，聊完立马卷铺盖走人，没有交接没有过渡期~

面试官：请解释什么是线程锁，举例说明如何使用线程锁。。。

X兴员工爆料：C9科班硕在中兴15年了，现在是5a，月薪是21k，正在接受领导全方位否定

神仙公司名单（武汉）

注销微信支付会有影响吗？

绝了！身边的都在作弊笔试，面试也可以作弊~

面试官：你怎么理解 Python 中的可变对象和不可变对象？

X疆员工爆料：为了赶进度，天天加班，一年的项目，几个月就赶出来了。结果，项目刚交付，他们就被释放了。

神仙公司名单（深圳）

海康威视员工爆料：HR找我谈话，说不要没有经验的员工，让我要不就转外包公司，要不就直接拿N走人。。

值得去的神仙外企（西安）

微信账号注销了还能恢复吗？

比亚迪员工爆料：离职后再想回去，基本没戏了，hr明确表示，“拒绝二进宫！”除非领导特批。。

值得去的神仙外企（太原）

微信终于能找回「已删好友」微信号了！

不愧是字节跳动，这薪资很实在！

神仙公司名单（郑州）

离职交接后，线上出bug，接口是我开发的。。

神仙公司名单（郑州）

某行员工，因降薪，上吊维权~

神仙公司名单（长沙）

python中的模块、库、包有什么区别？

华为员工爆料：晚上突然接到领导电话，问愿不愿意到非洲上班，工资45000元，5年，双倍年终奖.....

神仙公司名单（杭州）

如何备份微信聊天记录,以免被删除?

如何用Python搭建一个网站？

原来人家早招满了，后面的面试是溜狗呢。。。

神仙公司名单（长沙）

如何一键恢复微信删除的聊天记录？

第一次见两个月的外包，用完人就丢。。。

面试官：创建2个进程，如何在这两个进程之间如何通信呢？

Lighthouse：打造高效网站的利器

怎么删除微信支付帐单信息？