requests库请求获取不到数据怎么办？不妨试试看这种妙法

科技科技 2024-09-22 09:03 湖南

下次点击上方“Python爬虫与数据挖掘”，进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

今

日

鸡

汤

荷笠带斜阳，青山独归远。

大家好，我是Python进阶者。

前言

前几天铂金群有个叫【艾米】的粉丝在问了一道关于Python网络爬虫的问题，如下图所示。

不得不说这个粉丝的提问很详细，也十分的用心，给他点赞，如果大家日后提问都可以这样的话，想必可以节约很多沟通时间成本。

其实他抓取的网站是爱企查，类似企查查那种。其实这个问题上次【杯酒】大佬已经给了一个另辟蹊径的解答方案，感兴趣的小伙伴可以前往：分享一次实用的爬虫经验，今天继续给大家安利一个来自【有点意思】大佬的解决方案。

一、思路

很多网站都对requests反爬了，这种时候，一般有两个选择，要不就找js接口，要不就用requests_html等其他工具，这里他使用了后者requests_html工具。

二、分析

一开始直接使用requests进行请求，发现得到的响应数据并不对，和源码相差万里，然后就考虑到网站应该是有反爬的，尝试加了一些ua，headers还是不行，于是乎想着使用requests_html工具小试牛刀。

三、代码

下面就奉上本次爬虫的代码，欢迎大家积极尝试。

# 作者：@有点意思
import re
import requests_html


def 抓取源码(url):
    user_agent = requests_html.user_agent()
    session = requests_html.HTMLSession()    
    headers = {
        "cookie": "BAIDUID=D664B1FA319D687E8EE0F9E8D643780A:FG=1; BIDUPSID=D664B1FA319D687E8EE0F9E8D643780A; PSTM=1620719199; __yjs_duid=1_c6692c2be6c2ffe04f29102282538ba81620719216498; BDUSS=dzdjlXdGsyTkhYdUFGeWFZOH40SmNWSkpDeUlPYS1UbU4xYklkYnFPY0Z5NTFoRVFBQUFBJCQAAAAAAAAAAAEAAAAmfcsXTUFPQlVDSEkyMDExAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAU-dmEFPnZhWD; BDUSS_BFESS=dzdjlXdGsyTkhYdUFGeWFZOH40SmNWSkpDeUlPYS1UbU4xYklkYnFPY0Z5NTFoRVFBQUFBJCQAAAAAAAAAAAEAAAAmfcsXTUFPQlVDSEkyMDExAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAU-dmEFPnZhWD; BAIDUID_BFESS=2C6304C3307DE9DB6DD487CC5C7C2DD3:FG=1; BDPPN=4464e3ebfa50be9e28b4d1c23e380603; _j54_6ae_=xlTM-TogKuTwIujX2VajREagog-ZV6RQfAmd; log_guid=0dad4e957fd92b3d86f994e0a93cee98; _j47_ka8_=57; __yjs_st=2_NzJkNjAyZjJmMmE1MTFmOTM1YWFlOWQwZWFlMjFkMTNmZDA0ZTlkNjRmNmUwM2NlZTQ4Y2Y4ZGM5ZjBjMDFlN2E0NzdiNDk4ZjdlNThmMmI4NjkxNDRjYmQ0MjZhMTZkMWYzMTBiYjUyMzJlMDdhMWQwZmQ2YjAwOWNiMTA5ZmJmNGNmNmE3OTk1ODZmZjkyMGQzZGZmNDdmZDJmZGU1MjE3MjgwMWRkNWYyMDlhNWNiYWM3YjNkMWI1MzU5NWM2MjEzYWMxODUyNDcyZDdjYTMzZDRiY2FlYTNmYmRiN2JkYzU1MWZiNWM3OTc4ZjExYmYwNGNlNTA5MjhjMWQ4Yl83XzEyZjk1ZDEw; Hm_lvt_ad52b306e1ae4557f5d3534cce8f8bbf=1637699929,1637713962,1637849108; Hm_lpvt_ad52b306e1ae4557f5d3534cce8f8bbf=1637849108; ab_sr=1.0.1_OTBkZjg4MzZjYjFhMWMyODgxZTM4MDZiNGViYTRkYjFhNDFiNWU1NWUyZjU4NDI3YjVjYTM1YTBiYTc1M2Y0ZTA5ZTI5YTZjNDQ4ZGFjMzE2NTU5ZTkwMWFkYWI0OGE5Nzc4MWFiOGU5N2VmNzJjMDdiYTk4NjYyY2E1NzQ4MzIzMDVmOTc2MDZjOTA0NTYyODNjNmUxNjAwNzlmNThlYQ==; _s53_d91_=93c39820170a0a5e748e1ac9ecc79371df45a908d7031a5e0e6df033fcc8068df8a85a45f59cb9faa0f164dd33ed0c72405da53b835d694f9513b3e1cb6e4a96799af3f84bd42f912f1c8ae0446a53f275c4e5a7894aeb6c9857d9df8629680517ba9801c04e1c714b46f860c3cbb2ecb1a3847388bf1b3c4bcbbd8119b62261a0a625c3c8b053758aa8fe29ec0f7fffe3b49bb0f77fea4df98a0f472d86bde82df374a7e5fb907b27d3187299c8b7ef65e28b9e042741e29587ab5829dfbafca8de50eb8162607986625ecd31d16a1f; _y18_s21_=4c8c0b95; RT=\"z=1&dm=baidu.com&si=nm8z611r2fr&ss=kwf1266k&sl=2&tt=xuh&bcn=https%3A%2F%2Ffclog.baidu.com%2Flog%2Fweirwood%3Ftype%3Dperf&ld=mmj&ul=ilwy\"",
        "User-Agent": user_agent
    } 
    
    r = session.get(url, headers=headers)
    html = r.html.html
    
    return html  # 注意！这里抓取到的源码和手动打开的页面源码不一样


def 解密(列表):  # unicode转化成汉字
    print(列表)
    return [eval(i) for i in 列表]


def 解析页面(html):
    公司列表 = re.findall(r'titleName":(".*?")', html, re.DOTALL)
    # 注意！此处编写正则时，要匹配的源码是函数“抓取源码”得到的html
    # 此处正则匹配时一定要把引号带上！否则eval会报错！
    return 解密(公司列表)    


if __name__ == "__main__":
    # 不用抓包，这里的url就是用户搜索时的页面
    url = "https://某某查网站/s?q=%E4%B8%8A%E6%B5%B7%E5%99%A8%E6%A2%B0%E5%8E%82&t=0"
    html = 抓取源码(url)
    print(html)
    公司列表 = 解析页面(html)
    print(公司列表)

这里大家可能觉得很奇怪，竟然有中文的函数命名和变量命名，这里是应原作者的要求，所以未做修改，但是不影响程序执行效果。

程序运行之后，可以看到目标字段都可以抓下来。

四、总结

我是Python进阶者。本文基于粉丝提问，针对一次有趣的爬虫经历，分享一个实用的爬虫经验给大家。下次再遇到类似这种使用requests库无法抓取的网页，或者看不到包的网页，不妨试试看文中的requests_html方法，说不定有妙用噢！

最后感谢【艾米】提问，感谢【【有点意思】】和【杯酒】大佬解惑，感谢小编精心整理，也感谢【磐奚鸟】积极尝试。

针对本文中的网页，除了文章这种“投机取巧”方法外，用selenium抓取也是可行的，速度慢一些，但是可以满足要求。小编相信肯定还有其他的方法的，也欢迎大家在评论区谏言。

小伙伴们，快快用实践一下吧！如果在学习过程中，有遇到任何问题，欢迎加我好友，我拉你进Python学习交流群共同探讨学习。

------------------- End -------------------

往期精彩文章推荐：

欢迎大家点赞，留言，转发，转载，感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群】

万水千山总是情，点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

http://mp.weixin.qq.com/s?__biz=MzU3MzQxMjE2NA==&mid=2247512998&idx=1&sn=7966b21167e60077cfb688200d691de9

Python爬虫与数据挖掘

人生苦短，我用Python。该公众号专注于分享Python网络爬虫、数据挖掘、数据分析、数据处理、数据可视化、自动化测试、运维、大数据、人工智能、云计算、机器学习等工具资源、热点资讯、相关技术文章、学习视频和学习资料等，期待您的加入~~~

Python网络爬虫过程中，构建网络请求的时候，参数`stream=True`的使用

盘点Python列表在删除时候的一个坑

盘点一个Pandas中explode()爆炸函数应用实际案例

数据可视化学习者的福音！“对比Excel”畅销书系第5本新书来啦，轻松学习Python数据可视化

手把手教你使用Python提取快递信息

把一个csv数据文件，第一行头文件（字段名）不变，按某列（第四列）降序排列，另行保存为csv 文件

Python网络爬虫过程中网页json格式数据存储你学会了嘛？

强烈推荐一个“可捞偏门但不违法”的副业（50K+）

我调试代码时，点击单步执行我的代码后，怎么就停在已连接上了呢

王者网页源码，中文显示乱码，尝试多种编码都不行，该怎么解决？

盘点一个Python自动化办公实战的工作教程

chrome浏览器selenium点击下载pdf时总是提示“已阻止不安全的下载”

Mongodb数据库转换为表格文件的库

这套卖了 20w 册的数据分析系列书，又出新书了

灰色代码部分：要是输入名字列表，又能输出结果，但是空列表的时候就输出不了？

影刀怎么办获取的源代码数据保存到本地呀

fiddler中显示乱码，哪位大佬知道怎么处理，decode已经选中过了？

300万条Excel数据，读取起来非常慢，我如果开其他的程序，还会保内存不足。。

为什么有时候按这个运行的三角符号却运行了其他节的代码，要是用ctrl+shift+f10就不会？

盘点6个Pandas中批量替换字符的方法

如何把一个python列表(有很多个元素)变成一个excel表格的第一列？

盘点6个Pandas中批量替换字符的方法

一个薪资被严重低估的方向，很稳...

盘点使用Pandas解决问题：对比两列数据取最大值的5个方法

盘点Python正则表达式中的贪婪模式和非贪婪模式

群友教你使用Python编程来实现“猜数字”游戏

盘点一道使用Python编程来实现高斯计算的基础算术题目

盘点一道Python基础实现代数运算的基础题目

来诈金花嘛？Python实现的那种

Python类变量和实例变量，傻傻分不清楚

盘点Pyecharts V1和V0.5之间的切换方法

手把手教你开展mofish库(摸鱼库)的打包发布

盘点一个名为摸鱼的Python库，一起来摸鱼吧！

手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

怎么在第一个PDF文件的中间，插入第二个PDF文件的内容？

AI给的和自己写的Python代码，都无法改变输入框的内容，替换也不行

python打包的exe文件为什么有时候运行很慢有时候很快？

Python可视化过程中.pictures.add这里一直报错，不明原因

requests库请求获取不到数据怎么办？不妨试试看这种妙法

Python网络爬虫之js逆向之远程调用(rpc)免去抠代码补环境简介

70k，确实可以封神了！

哪位大佬帮助解释下红框这里为什么需要下标？

QTPY5怎么装不上了？

Python打包完成后报错，如何解决？

原始数据都一样，为啥Pyecharts做出来的图一个是彩色的，另一个是黑白的？

盘点一个Python自动化办公实战问题

需求是统计excel表格每个sheet的行数，请问还有更快捷的方法么?

请问还有其他方法处理Pandas偶然出现的第三列的值么

想问一下Pycharm中这五个解释器有啥区别吗

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉