Python快速上手爬虫的7大技巧

科技 2024-09-29 22:20 江苏

来源：马哥Linux运维

Python应用最多的场景还是Web快速开发、爬虫、自动化运维。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。

1、基本抓取网页

get方法

post方法

2、使用代理IP

在开发爬虫过程中经常会遇到IP被封掉的情况，这时就需要用到代理IP；

在urllib2包中有ProxyHandler类，通过此类可以设置代理访问网页，如下代码片段：

3、Cookies处理

cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)，python提供了cookielib模块用于处理cookies，cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。

代码片段：

关键在于CookieJar()，它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后cookie也将丢失，所有过程都不需要单独去操作。

手动添加cookie：

4、伪装成浏览器

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况。

对有些 header 要特别留意，Server 端会针对这些 header 做检查：

1.User-Agent 有些 Server 或 Proxy 会检查该值，用来判断是否是浏览器发起的 Request。

2.Content-Type 在使用 REST 接口时，Server 会检查该值，用来确定 HTTP Body 中的内容该怎样解析。

这时可以通过修改http包中的header来实现，代码片段如下：

5、验证码的处理

对于一些简单的验证码，可以进行简单的识别。我们只进行过一些简单的验证码识别，但是有些反人类的验证码，比如12306，可以通过打码平台进行人工打码，当然这是要付费的。

6、gzip压缩

有没有遇到过某些网页，不论怎么转码都是一团乱码。哈哈，那说明你还不知道许多web服务具有发送压缩数据的能力，这可以将网络线路上传输的大量数据消减 60% 以上。这尤其适用于 XML web 服务，因为 XML 数据的压缩率可以很高。

但是一般服务器不会为你发送压缩数据，除非你告诉服务器你可以处理压缩数据。

于是需要这样修改代码：

这是关键：创建Request对象，添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据。

然后就是解压缩数据：

7、多线程并发抓取

单线程太慢的话，就需要多线程了，这里给个简单的线程池模板这个程序只是简单地打印了1-10，但是可以看出是并发的。

虽然说Python的多线程很鸡肋，但是对于爬虫这种网络频繁型，还是能一定程度提高效率的。

往期文章

推荐我常用的几个爬虫插件&工具，值得收藏~
推荐3款自动爬虫神器，再也不用手撸代码了
新式爬虫利器，网页解锁能力非常强大！
使用八爪鱼爬虫+Kimi AI分析小米SU7舆情数据，终于知道它为什么火了
推荐我常用的爬虫工具，三种爬虫方式，搞定反爬和动态页面
6个强大且流行的Python爬虫库，强烈推荐！

http://mp.weixin.qq.com/s?__biz=MzA3ODYwNDkzOQ==&mid=2659082111&idx=1&sn=0dac9891b56a1e3cb2904f1be8ab4864

Python大数据分析

分享Python编程、数据分析、爬虫、人工智能等

最新文章

7款电商数据必备的爬虫利器，强烈推荐~

开源项目：纯Python构建的中后台管理系统

用Python可视化分析热门股票

彻底杀疯了｜博士利用ChatGPT-4o做Python大数据分析，写论文，太方便了...

Python快速上手爬虫的7大技巧

我常用的几个Python金融数据接口库，非常好用~

用Python开发基金策略模拟工具

对比pip、conda等7种Python包管理工具

用Python轻松实现个人考勤管理

web scraper无代码爬虫工具怎么入门？

微软开源最强Python自动化爬虫神器！不用写一行代码！

Python网页应用开发神器Dash 2.18.1稳定版本来啦

MoviePy，一个超强的Python库

用Python写个电子木鱼，在线积攒功德🤣

强大的3款自动爬虫利器，再也不用手撸代码了

Python应用开发神器Dash 2.18新版本介绍

为什么Pandas是最流行的Python数据分析库？

登顶Nature | 揭秘python深度学习模型方向文章登上Nature正刊的原因！

常用的15个Matplotlib可视化图表，推荐~

Python爬虫必备的8大技巧，收藏~

python自动化办公？学这些就够用了

用Python写个网盘应用

比 requests 更强大 Python 库，让你的爬虫效率提高一倍！

机器学习到底是什么？附sklearn代码

不用写一行Python代码，“Excel” 能直接爬虫了

7种好看的数据可视化方式，很实用~

这10个Github 热门Python库，非常实用！

Python selenium爬虫被检测到，该怎么破？

我竟然"开发"了一款大模型应用，AI门槛这么低了吗？

Web Scraper，强大的浏览器爬虫插件！

对比这两款爬虫利器抓取抖音，编程小白也能玩

推荐常用的工作必备Python自动化代码

15 个好玩实用的Python包~

用Python写个待办事项网页应用

取代数据岗！某司从业人员已集体转行…

Python网页应用开发神器fac新版本发布

10个简单好用的Python装饰器

你还在Pandas中使用for循环吗？太慢了！

“我见过最牛的Python金融分析”

推荐我常用的几个爬虫插件&工具，值得收藏~

ibis：极具潜力的Python数据分析新框架

惊呆了｜GPT4o在Python大数据分析与论文写作能力爆棚…

收藏！这些Python自动化代码，你可能会用得到

这几个Python自动探索性数据分析库，非常好用~

关于举办“数据创造价值大数据分析与应用实战”专题培训班的通知

这个可视化 Python 打包神器，很实用！

ChatGPT金融实操(从未如此详尽)

做Python数据分析最好的编辑器是什么？

这几个高级爬虫软件真的强！

Python数据分析必备的工具有哪些

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉