我常用几个实用的Python爬虫库，收藏~

科技 2024-10-30 17:03 广东

Python中有非常多用网络数据采集的库，功能非常强大，有的用于抓取网页，有的用于解析网页，这里介绍6个最常用的库。

1. BeautifulSoup

BeautifulSoup是最常用的Python网页解析库之一，可将 HTML 和 XML 文档解析为树形结构，能更方便地识别和提取数据。

BeautifulSoup可以自动将输入文档转换为 Unicode，将输出文档转换为 UTF-8。此外，你还可以设置 BeautifulSoup 扫描整个解析页面，识别所有重复的数据（例如，查找文档中的所有链接），只需几行代码就能自动检测特殊字符等编码。

from bs4 import BeautifulSoup  
  
# 假设这是我们从某个网页获取的HTML内容（这里直接以字符串形式给出）  
html_content = """  
<html>  
<head>  
    <title>示例网页</title>  
</head>  
<body>  
    <h1>欢迎来到BeautifulSoup示例</h1>  
    <p class="introduction">这是一个关于BeautifulSoup的简单示例。</p>  
    <a href="https://www.example.com/about" class="link">关于我们</a>  
</body>  
</html>  
"""  
  
# 使用BeautifulSoup解析HTML内容，这里默认使用Python的html.parser作为解析器  
# 你也可以指定其他解析器，如'lxml'或'html5lib'，但需要先安装它们  
soup = BeautifulSoup(html_content, 'html.parser')  
  
# 提取并打印<title>标签的文本内容  
print("网页标题:", soup.title.string)  # 网页标题: 示例网页  
  
# 提取并打印<p>标签的文本内容，这里使用class属性来定位  
print("介绍内容:", soup.find('p', class_='introduction').string)  # 介绍内容: 这是一个关于BeautifulSoup的简单示例。  
  
# 提取并打印<a>标签的href属性和文本内容  
link = soup.find('a', class_='link')  
print("链接地址:", link['href'])  # 链接地址: https://www.example.com/about  
print("链接文本:", link.string)  # 链接文本: 关于我们  
  
# 注意：如果HTML内容中包含多个相同条件的标签，你可以使用find_all()来获取它们的一个列表  
# 例如，要获取所有<a>标签的href属性，可以这样做：  
all_links = [a['href'] for a in soup.find_all('a')]  
print("所有链接地址:", all_links)  # 假设HTML中有多个<a>标签，这里将列出它们的href属性  
# 注意：上面的all_links列表在当前的HTML内容中只有一个元素，因为只有一个<a>标签

2. Scrapy

Scrapy是一个流行的高级爬虫框架，可快速高效地抓取网站并从其页面中提取结构化数据。

由于 Scrapy 主要用于构建复杂的爬虫项目，并且它通常与项目文件结构一起使用

Scrapy 不仅仅是一个库，还可以用于各种任务，包括监控、自动测试和数据挖掘。这个 Python 库包含一个内置的选择器（Selectors）功能，可以快速异步处理请求并从网站中提取数据。

# 假设这个文件名为 my_spider.py，但它实际上应该放在 Scrapy 项目的 spiders 文件夹中  
  
import scrapy  
  
class MySpider(scrapy.Spider):  
    # Spider 的名称，必须是唯一的  
    name = 'example_spider'  
  
    # 允许爬取的域名列表（可选）  
    # allowed_domains = ['example.com']  
  
    # 起始 URL 列表  
    start_urls = [  
        'http://example.com/',  
    ]  
  
    def parse(self, response):  
        # 这个方法用于处理每个响应  
        # 例如，我们可以提取网页的标题  
        title = response.css('title::text').get()  
        if title:  
            # 打印标题（在控制台输出）  
            print(f'Title: {title}')  
  
        # 你还可以继续爬取页面中的其他链接，这里只是简单示例  
        # 例如，提取所有链接并请求它们  
        # for href in response.css('a::attr(href)').getall():  
        #     yield scrapy.Request(url=response.urljoin(href), callback=self.parse)  
  
# 注意：上面的代码只是一个 Spider 类的定义。  
# 要运行这个 Spider，你需要将它放在一个 Scrapy 项目中，并使用 scrapy crawl 命令来启动爬虫。  
# 例如，如果你的 Scrapy 项目名为 myproject，并且你的 Spider 文件名为 my_spider.py，  
# 那么你应该在项目根目录下运行以下命令：  
# scrapy crawl example_spider

3. Selenium

Selenium 是一款基于浏览器地自动化程序库，可以抓取网页数据。它能在 JavaScript 渲染的网页上高效运行，这在其他 Python 库中并不多见。

在开始使用 Python 处理 Selenium 之前，需要先使用 Selenium Web 驱动程序创建功能测试用例。

Selenium 库能很好地与任何浏览器（如 Firefox、Chrome、IE 等）配合进行测试，比如表单提交、自动登录、数据添加/删除和警报处理等。

from selenium import webdriver  
from selenium.webdriver.common.keys import Keys  
from selenium.webdriver.common.by import By  
from selenium.webdriver.support.ui import WebDriverWait  
from selenium.webdriver.support import expected_conditions as EC  
  
# 设置WebDriver的路径（根据你的系统路径和WebDriver版本修改）  
driver_path = '/path/to/your/chromedriver'  
  
# 初始化WebDriver  
driver = webdriver.Chrome(executable_path=driver_path)  
  
try:  
    # 打开网页  
    driver.get('https://www.example.com')  
  
    # 等待页面加载完成（这里使用隐式等待，针对所有元素）  
    # 注意：隐式等待可能会影响性能，通常在脚本开始时设置一次  
    driver.implicitly_wait(10)  # 秒  
  
    # 查找并输入文本到搜索框（假设搜索框有一个特定的ID或类名等）  
    # 这里以ID为'search'的输入框为例  
    search_box = driver.find_element(By.ID, 'search')  
    search_box.send_keys('Selenium WebDriver')  
  
    # 提交搜索（假设搜索按钮是一个类型为submit的按钮或是一个可以点击的输入框）  
    # 如果搜索是通过按Enter键触发的，可以直接在search_box上使用send_keys(Keys.ENTER)  
    # 这里假设有一个ID为'submit'的按钮  
    submit_button = driver.find_element(By.ID, 'submit')  
    submit_button.click()  
  
    # 等待搜索结果加载完成（这里使用显式等待作为示例）  
    # 假设搜索结果页面有一个特定的元素，我们等待它出现  
    wait = WebDriverWait(driver, 10)  # 等待最多10秒  
    element = wait.until(EC.presence_of_element_located((By.ID, 'results')))  
  
    # 执行其他操作...  
  
finally:  
    # 关闭浏览器  
    driver.quit()

4. requests

不用多说，requests 是 Python 中一个非常流行的第三方库，用于发送各种 HTTP 请求。它简化了 HTTP 请求的发送过程，使得从网页获取数据变得非常简单和直观。

requests 库提供了丰富的功能和灵活性，支持多种请求类型（如 GET、POST、PUT、DELETE 等），可以发送带有参数、头信息、文件等的请求，并且能够处理复杂的响应内容（如 JSON、XML 等）。

import requests  
  
# 目标URL  
url = 'https://httpbin.org/get'  
  
# 发送GET请求  
response = requests.get(url)  
  
# 检查请求是否成功  
if response.status_code == 200:  
    # 打印响应内容  
    print(response.text)  
else:  
    # 打印错误信息  
    print(f'请求失败，状态码：{response.status_code}')

5. urllib3

urllib3 是 Python内置网页请求库，类似于 Python 中的requests库，主要用于发送HTTP请求和处理HTTP响应。它建立在Python标准库的urllib模块之上，但提供了更高级别、更健壮的API。

urllib3可以用于处理简单身份验证、cookie 和代理等复杂任务。

import urllib3  
  
# 创建一个HTTP连接池  
http = urllib3.PoolManager()  
  
# 目标URL  
url = 'https://httpbin.org/get'  
  
# 使用连接池发送GET请求  
response = http.request('GET', url)  
  
# 检查响应状态码  
if response.status == 200:  
    # 打印响应内容（注意：urllib3默认返回的是bytes类型，这里我们将其解码为str）  
    print(response.data.decode('utf-8'))  
else:  
    # 如果响应状态码不是200，则打印错误信息  
    print(f'请求失败，状态码：{response.status}')  
  
# 注意：urllib3没有直接的方法来处理JSON响应，但你可以使用json模块来解析  
# 如果响应内容是JSON，你可以这样做：  
# import json  
# json_response = json.loads(response.data.decode('utf-8'))  
# print(json_response)

6. lxml

lxml是一个功能强大且高效的Python库，主要用于处理XML和HTML文档。它提供了丰富的API，使得开发者可以轻松地读取、解析、创建和修改XML和HTML文档。

from lxml import etree  
  
# 假设我们有一段HTML或XML内容，这里以HTML为例  
html_content = """  
<html>  
  <head>  
    <title>示例页面</title>  
  </head>  
  <body>  
    <h1>欢迎来到我的网站</h1>  
    <p class="description">这是一个使用lxml解析的示例页面。</p>  
    <ul>  
      <li>项目1</li>  
      <li>项目2</li>  
    </ul>  
  </body>  
</html>  
"""  
  
# 使用lxml的etree模块来解析HTML或XML字符串  
# 注意：对于HTML内容，我们使用HTMLParser解析器  
parser = etree.HTMLParser()  
tree = etree.fromstring(html_content, parser=parser)  
  
# 查找并打印<title>标签的文本  
title = tree.find('.//title').text  
print("页面标题:", title)  
  
# 查找并打印class为"description"的<p>标签的文本  
description = tree.find('.//p[@class="description"]').text  
print("页面描述:", description)  
  
# 查找所有的<li>标签，并打印它们的文本  
for li in tree.findall('.//li'):  
    print("列表项:", li.text)  
  
# 注意：lxml也支持XPath表达式来查找元素，这里只是简单展示了find和findall的用法  
# XPath提供了更强大的查询能力

其他爬虫工具

除了Python库之外，还有其他爬虫工具可以使用。

八爪鱼爬虫

八爪鱼爬虫是一款功能强大的桌面端爬虫软件，主打可视化操作，即使是没有任何编程基础的用户也能轻松上手。

官网：https://affiliate.bazhuayu.com/hEvPKU

八爪鱼支持多种数据类型采集，包括文本、图片、表格等，并提供强大的自定义功能，能够满足不同用户需求。此外，八爪鱼爬虫支持将采集到的数据导出为多种格式，方便后续分析处理。

亮数据爬虫

亮数据平台提供了强大的数据采集工具，比如Web Scraper IDE、亮数据浏览器、SERP API等，能够自动化地从网站上抓取所需数据，无需分析目标平台的接口，直接使用亮数据提供的方案即可安全稳定地获取数据。

网站：https://get.brightdata.com/weijun

亮数据浏览器支持对多个网页进行批量数据抓取，适用于需要JavaScript渲染的页面或需要进行网页交互的场景。

Web Scraper

Web Scraper是一款轻便易用的浏览器扩展插件，用户无需安装额外的软件，即可在Chrome浏览器中进行爬虫。插件支持多种数据类型采集，并可将采集到的数据导出为多种格式。无论是Python库还是爬虫软件，都能实现数据采集任务，可以选择适合自己的。当然记得在使用这些工具时，一定要遵守相关网站的爬虫政策和法律法规。

95后程序员月薪2万背着电脑送外卖，送单途中改Bug
收藏！史上最简单的升级ChatGPT Plus教程，3分钟搞定升级难题

推荐一款人人都使用的提效工具

我每天都在卖这个完全克隆ChatGPT与Claude的工具，国内环境也能直上，价格不到官方一半，想通过ChatGPT和Claude为工作提效，可以扫码了解并购买

为工作提效，扫码了解GPT与Claude双系统

扫码加我微信，围观朋友圈，拓展视野

码农逆袭

致力于码农逆袭•搞钱思维•技术提升•职场突围•思维跃迁，15万+码农成长翻身第一站，陪有梦想的你一起成长。

最新文章

第一桶金的秘密，只有10%的人知道

炸裂，带着RPA10倍赋能自媒体解决方案来了

明年我要和破局圈友们一起干一件大事

Postman 最强平替诞生了！

中国永远不会倒闭的四个行业

知名爬虫库Requests作者，也失业了......

每天骑的共享单车是什么通信原理，有人了解过吗？

为什么我们公司还在用 Python 开发项目?

靠AI年入百万？一个不会编程的浙江小伙，仅花1小时用AI做了一款App后……

友好的 Python：封装和复用

知乎高赞：为什么别选计算机专业？

为啥我敢说Python是数据分析界的扛把子语言？

为什么我们公司还在用 Python 开发项目?

2023年收入最高的10种编程语言

再次封神，Python 3.13 的 JIT 方案又新又好！

一张照片，抖音小姐姐就都能跳舞了

Python3.13来了！封神

Postman 最强平替诞生了！

一样是学IT的，凭什么爬虫轻松过万？

哈哈，有人爬我网站，我把他教育了一顿！

OpenAI直接明牌，王炸！连续直播12天

免翻官方ChatGPT 4.0 和 Claude Pro，稳定有售后

闹大了！前实习生篡改代码攻击大模型训练，字节跳动起诉索赔800万

用ChatGPT+RPA+可灵批量生成1000张图片

免翻官方ChatGPT 4.0 和 Claude Pro，稳定有售后

5个牛逼赛道，普通人也能年入百万

（一条千万阅读的帖子）程序员能纯靠技术度过中年危机吗？

少年天才！15 岁山东初中生做 CTO，开源项目刚被数百万元收购了

一个薪资被严重低估的方向...

虽迟但到，阿里巴巴公布“姜萍事件”调查结果公布，令人惊讶...

我常用几个实用的Python爬虫库，收藏~

一个小公司的技术开发心酸事（已倒闭）

95后程序员月薪2万背着电脑送外卖，送单途中改Bug

收藏！史上最简单的升级ChatGPT Plus教程，3分钟搞定升级难题

10个杀手级的Python自动化脚本！

一起AI出海赚美金吧

真学不动了！Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

这样用ChatGPT和Claude每年省1600块钱

太狠了，Python实现个人手机定位分析！

打工人加班，这样发笑翻朋友圈

团队准备解散了

利用 Python 开发手机 App 实战

创业3次亏损过亿，第四次个人IP年入千万，成长只有一种，不断自我突破

专补大模型短板的RAG入门与实战书来了！

用AI搞了6位数输入！

家里的书太多了，送送送！

这个AI工具帮朋友省了1600块钱

Kimi背后的提示词被曝光了，仅需一句话即可套取！

实现百倍提效的秘密

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉