BeautifulSoup，一个神奇的 HTML 解析器！

文摘 2024-11-08 10:00 广东

大家好，今天我们要学习的工具是BeautifulSoup，这是一个用于解析HTML和XML文档的Python库，常常被用于爬虫项目中。无论你是想提取网页中的数据，还是对HTML文档进行修改，BeautifulSoup都能帮助你轻松搞定。

它的最大优点是非常简单易用，即使你是Python新手，也可以很快上手。今天，我们将一起探讨如何使用BeautifulSoup来解析网页，提取网页中的信息，甚至处理一些常见的HTML问题。让我们开始吧！

安装 BeautifulSoup

首先，你需要安装beautifulsoup4库。如果你没有安装过，可以通过pip命令来安装。

代码示例 1：安装 BeautifulSoup

pip install beautifulsoup4

安装完毕后，你还需要安装requests库来发送HTTP请求。因为我们要从网页中获取HTML内容，所以需要配合使用requests。

pip install requests

安装好这两个库后，我们就可以开始解析网页了。

使用 BeautifulSoup 解析 HTML

在使用BeautifulSoup解析HTML时，我们通常需要先获取网页的HTML源代码。通过requests发送一个GET请求，我们可以获取网页内容，然后用BeautifulSoup来解析它。

代码示例 2：解析网页 HTML

import requests
from bs4 import BeautifulSoup

# 发送 GET 请求获取网页内容
response = requests.get('https://www.example.com')

# 用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 打印解析后的HTML结构
print(soup.prettify())  # prettify 会格式化输出HTML

代码解析：

requests.get()：发送GET请求并获取网页HTML内容。
BeautifulSoup(response.text, 'html.parser')：将HTML字符串解析为BeautifulSoup对象，第一个参数是HTML源码，第二个参数是指定解析器，这里我们使用'html.parser'。
soup.prettify()：将BeautifulSoup对象转化为一个美化过的HTML格式字符串。

这段代码将输出一个格式化的HTML结构，让你更容易理解网页的结构。

提取网页中的特定内容

通过BeautifulSoup，你可以非常方便地提取HTML文档中的任何部分，比如标题、链接、图片等。常见的方法有find()和find_all()，分别用来找到第一个匹配的标签和所有匹配的标签。

代码示例 3：提取网页标题和链接

import requests
from bs4 import BeautifulSoup

# 发送 GET 请求获取网页内容
response = requests.get('https://www.example.com')

# 解析 HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 提取网页标题
title = soup.title.string
print(f"网页标题：{title}")

# 提取所有的链接
links = soup.find_all('a')  # 查找所有 <a> 标签
for link in links:
    print(link.get('href'))  # 获取 <a> 标签中的 href 属性

代码解析：

soup.title.string：获取<title>标签的内容，即网页的标题。
soup.find_all('a')：查找所有的<a>标签，它们通常包含网页中的链接。
link.get('href')：获取每个<a>标签的href属性，即链接的URL。

通过这段代码，你可以快速提取网页中的标题和所有链接。

查找指定标签或类

除了提取网页中的所有标签，你可能只对某些特定标签感兴趣。BeautifulSoup允许你根据标签名、ID、类名等属性来精确查找元素。

代码示例 4：根据类名查找元素

import requests
from bs4 import BeautifulSoup

# 发送 GET 请求获取网页内容
response = requests.get('https://www.example.com')

# 解析 HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 查找具有指定类名的所有元素
items = soup.find_all(class_='example-class')

# 打印这些元素
for item in items:
    print(item.text)

代码解析：

soup.find_all(class_='example-class')：查找所有具有指定类名example-class的元素。注意，class是Python的关键字，因此在BeautifulSoup中使用class_来避免冲突。
item.text：获取每个元素的文本内容，去掉HTML标签。

处理 HTML 中的表格数据

HTML表格是网页中常见的数据展示方式。通过BeautifulSoup，你可以轻松地提取表格中的数据并进行处理。

代码示例 5：提取表格数据

import requests
from bs4 import BeautifulSoup

# 发送 GET 请求获取网页内容
response = requests.get('https://www.example.com/table')

# 解析 HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 查找表格
table = soup.find('table')

# 提取表格中的所有行
rows = table.find_all('tr')

# 打印每一行中的所有单元格内容
for row in rows:
    cells = row.find_all('td')  # 查找所有 <td> 标签，即表格中的数据单元格
    cell_data = [cell.text for cell in cells]
    print(cell_data)

代码解析：

soup.find('table')：查找第一个<table>标签，表示HTML中的表格。
table.find_all('tr')：查找所有的<tr>标签，它们表示表格中的行。
row.find_all('td')：查找每一行中的所有<td>标签，它们表示表格的单元格。

这段代码可以帮助你提取表格中的数据，方便进一步处理。

小贴士：使用 CSS 选择器

BeautifulSoup还支持通过CSS选择器来查找元素，这在处理复杂HTML结构时非常方便。

代码示例 6：使用 CSS 选择器

import requests
from bs4 import BeautifulSoup

# 发送 GET 请求获取网页内容
response = requests.get('https://www.example.com')

# 解析 HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 使用 CSS 选择器查找元素
element = soup.select_one('div.example-class p')  # 查找 class 为 'example-class' 的 div 内的第一个 p 元素
print(element.text)

代码解析：

soup.select_one('div.example-class p')：通过CSS选择器查找<div>标签中类名为example-class的元素下的第一个<p>标签。

CSS选择器是非常强大的工具，允许你像使用网页样式一样选择元素。

总结

今天，我们一起学习了如何使用BeautifulSoup来解析HTML，提取网页数据。从发送请求获取HTML，到使用各种方法查找和处理HTML元素，BeautifulSoup都能为你提供强大的支持。

今天的Python学习之旅就到这里啦！记得动手敲代码，实践是提高技能的最佳方式。祝大家学习愉快，Python学习节节高！

http://mp.weixin.qq.com/s?__biz=MzkxOTg2NjA3NA==&mid=2247483708&idx=1&sn=19de819cd8825ea4f4c6f0f5f3bf2fe0

梦起时分

关注我了解更多信息

在单位里，领导常拿来立威的对象，基本都长这样：1.书生气、素质高；2.脸皮薄、不敢吵；3.资历浅、没靠山；4.无主见、易受摆布

在单位里，你只有这样，别人才能不敢惹你：1、不说废话，不怕冷场；2、喜怒不形于色；3、出手必见成效

有高人预测，到 2025 年，我国可能会出现以下六大变化趋势

在单位里，为工作生气的人真的很傻：1.只要按时发放工资就行；2.别怕领导；3.别被同事负面情绪影响；4.拒绝内耗，保持成长

在单位里，吃过大亏的人才懂得：1.管住嘴沉默是金；2.领导的话别全信；3.该争取时争取；4.控制住自己的脾气；5.别把同事当朋友

在单位里，你千万不要向领导汇报这三件事：1、个人负面情绪或不满；2、同事间的闲言碎语；3、不要随意评价别人

在单位里，没人告诉你的5条人情世故：1.做事要留痕；2.少主动给建议；3.干活别太快；4.少掺和别人事；5.积极汇报工作

在单位里，能干到高层的人，都有这些共同的特点：1.脸皮比墙厚；2.气场有压迫感；3.胆量过人；4.社交手段高明

在单位里，想要混得好，千万要记住：1.和男领导相处，满足他好为人师；2.和女领导相处，提供情绪价值；3.和直属领导相处，表好态度

在单位里，领导一定要“除掉”的人，都有以下共同特征：1、能力过硬，威胁领导；2、太强势，领导镇不住；3、总让领导下不了台

numpy，一个必学的 Python 数学库！

在单位里，一个奇怪的现象，领导最放心的反而是这4种人：1.从不主动邀功；2.准时完成任务；3.不热衷办公室社交；4.默默按时上班

BeautifulSoup，超简单的网页解析库，解析网页不费力！

Scrapy，一个快速高效的爬虫框架，抓取全网数据！

在单位里，想要混得好，千万要记住：1.和男领导相处，满足他好为人师；2.和女领导相处，提供情绪价值；3.和直属领导相处，表好态度

Dask：一个超强大的 Python 并行计算库！

在单位里，主要领导调走，聪明的老员工一定不会干这“三件事”：1.不再联系；2.不再上心；3.不再维护

Flask，简洁而强大的 Web 开发框架！

在单位里，有这3个迹象，你就该离职了：1、收入和付出长期不对等； 2、领导和同事始终不认可你； 3、个人成长停滞，长期内耗

TensorFlow，一个无敌的机器学习库！

SQLAlchemy，一个强大的 Python ORM 库！

BeautifulSoup，一个神奇的 HTML 解析器！

PyInstaller，一个简单易用的打包工具！

tqdm，一个优雅的进度条库！

Alembic，一个数据库迁移管理库！

Pydantic，一个数据验证的神器！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉