Beautiful Soup - 轻轻松松玩转网页数据提取

文摘 2024-11-15 15:04 重庆

Beautiful Soup - 轻轻松松玩转网页数据提取

网页数据提取啊，没用过Beautiful Soup的小伙伴可能觉得挺费劲。用正则表达式吧，写起来头大；直接处理HTML代码吧，又容易出错。这不，今天就带大家认识一下这个Python界的“万能铲”—— Beautiful Soup ，看看它是怎么帮我们轻松搞定网页数据提取的。

装它贼简单，一行代码的事：


pip install beautifulsoup4

还得装个解析器，推荐用lxml：


pip install lxml

拿到HTML后，创建Beautiful Soup对象就是第一步：


from bs4 import BeautifulSoup
html_doc = “”“
<html>
    
    
        
Beautiful Soup真好用
        
Python真有趣
    
</html>
”“”
soup = BeautifulSoup(html_doc， 'lxml')

💡温馨提示：创建对象时别忘了指定解析器，不然默认用的可能是Python自带的解析器，速度会慢不少。

想找标签？find()和find_all()就够用了：


# 找第一个p标签
first_p = soup.find('p')
print(first_p.text)  # 输出：Beautiful Soup真好用
# 找所有p标签
all_p = soup.find_all('p')
for p in all_p：
    print(p.text)

会写CSS选择器的小伙伴有福了，select()方法简直是为你量身定做：


# 找class为note的元素
notes = soup.select('.note')
# 找id为special的p标签
special = soup.select('p#special')

💡温馨提示：用select()方法时，返回的永远是列表，就算只找到一个元素也是列表。

Beautiful Soup给标签准备了不少属性，随手就能拿到你想要的内容：


tag = soup.find('p')
print(tag.text)      # 获取文本内容
print(tag.string)    # 获取文本内容（只有一个子节点时）
print(tag['class'])  # 获取class属性

想找相邻的标签？next_sibling和previous_sibling帮你搞定：


first_p = soup.find('p')
next_p = first_p.next_sibling.next_sibling  # 跳过换行符
print(next_p.text)

💡温馨提示：用next_sibling时可能会遇到换行符，多用一次就能跳过去。

来个真实的例子，抓取网页中的文章标题：


import requests
from bs4 import BeautifulSoup
def get_titles(url)：
    response = requests.get(url)
    soup = BeautifulSoup(response.text， 'lxml')
    titles = soup.select('h1.post-title')  # 假设标题在h1标签中
    return [title.text.strip() for title in titles]

写代码遇到问题别着急，打印出来看看结构准没错：


print(soup.prettify())  # 格式化输出，结构一目了然

Beautiful Soup就是这么好用，网页数据提取分分钟搞定。掌握了这些基础用法，你也能轻松应对大部分数据提取场景。动手试试，你会发现原来爬取数据这么简单！

记住几个坑：编码问题记得指定utf-8；解析结果为空检查选择器是否正确；网页加载太慢可以加个超时。

码字不易，希望这些内容对你有帮助。要是还有不明白的，评论区见！

http://mp.weixin.qq.com/s?__biz=MzkxNDUyMjcwNg==&mid=2247515898&idx=1&sn=25603785b0394088de13e8f7b27e9b7a

CQTV新视界

重庆广电城市TV旗下优质内容品牌，感谢您的关注！

最新文章

赔付超16.5亿元！事关重庆医保参保人医保待遇，请留意！

Chardet：轻松搞定文本编码识别的神器

Celery：给你的Python添加异步魔法！

Bokeh，为数据赋予生命的可视化神器！

Black：给你的Python代码来个大扫除

Beautiful Soup - 轻轻松松玩转网页数据提取

异步编程的救星 - 用Asyncio让你的程序飞起来

Arrow，时间处理大师

APScheduler：定时任务神器

肝不好的人，可以吃香蕉吗？医生：想养肝，可以多吃这4类水果

经常喝豆浆和经常喝牛奶的人，会有什么不一样？谁的身体会更健康？

儿子恋爱后总要钱被妈妈送派出所网友：很有决断力的妈

四川仪陇一店主称雇老人收银被其长期偷钱，对方退款2万多后失联，当地回应

遮挡号牌、非法改装……武汉江夏交警：一律严查严处！

深圳一女子沿外墙管道徒手爬好几层楼，社区：已被救下

军工厂遭恐袭后土耳其机场全面升级安保措施

似姜不是姜，它是天然的“胰岛果”，能双向调节血糖，入秋后可以尝尝

上海中环一轿车翻越中央隔离栏，与对向车道车辆相撞

42岁上海理工大学副教授李佳逝世，同事：意外摔倒后受伤

女子先后和4人办婚礼骗了160多万元还是熟人介绍

福州又有两家医院试行“无陪护”病房

广州峡石村通过放飞大量“益蚊”控制伊蚊种群密度，七年未发生一例登革热病例

重庆警方破获制售假酒案集中销毁万余瓶假“茅台”

东北“三省一区”交旅融合暨汽车租赁高质量发展会议在哈尔滨召开

2023年度上海市科技功臣奖获得者丁健：首创新药不是叫出来的

浙江柯城：全国千余名选手将竞技灵鹫山古道越野赛

政策红利释放青岛空港进出境外籍旅客数量猛增

肾脏好不好，走路就知道？医生：走路时若有这3个表现千万要当心

山东济南市委常委、宣传部部长戴龙成调任福建莆田市委副书记

多名女子疑被下药迷奸！慌张男子落网！手机藏有不雅视频……

3人相约摘马蜂窝后路过多人被蜇伤：一女子抢救无效死亡，家属起诉索赔91万元

走路时突然腿发软，不一定是缺钙，小心是髌骨软化症！

江西南昌：科技创新赋能产业转型升级

青海：政银协作催生柴达木枸杞百亿产业链

四川广元一小孩掉进化粪池，爷爷救孙不幸身亡街办：警方已介入调查

网友曝西安一“安全监管”皮卡深夜“漂移”，相关部门：系西安沣东国际车城发展有限公司车辆交警部门正核实情况

婴儿离世被火化后未留骨灰，家长将医院殡仪馆告上法庭

茶叶到底是升尿酸还是降尿酸？痛风病人能不能吃？听听医生怎么说

70岁以上老年人在非高峰时段可免费乘地铁？上海地铁：谣言

眼睁睁看着人没了…女友含泪控诉：“他是八年制医学博士毕业，家里唯一的孩子”

仰望U9纽北测试发生意外爆胎，11月初将再次包场测试

业内人士：伍佰回应叶珂为假消息

一中学生遭班主任醉酒殴打头上多处骨折？官方通报：涉事老师停课停职！

致中国人死亡率全球第一的调味品，每家都在用，吃的时候需注意！

福州机场执行流量控制，成都至当地有航班备降，15时10分开始恢复航班进港

办完婚礼后不久分手，男子起诉女方返还彩礼、三金和婚宴支出22万余元！法院判了

烟台一财务被“老板”拉进群聊骗走30万元

广东省海洋综合执法队伍抓获1艘非法赴东沙海域海钓渔船

2024中国动植物考古学大会在郑州举办

玉米是冠心病“导火索”？医生提醒：不想心脏罢工，3食物别嘴馋

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉