Python爬虫必备的8大技巧，收藏！

科技 2024-11-06 08:50 湖北

想要快速学习爬虫，最值得学习的语言一定是Python，Python应用场景比较多，比如：Web快速开发、爬虫、自动化运维等等，可以做简单网站、自动发帖脚本、收发邮件脚本、简单验证码识别脚本。

爬虫在开发过程中也有很多复用的过程，今天就总结一下必备的8大技巧，以后也能省时省力，高效完成任务。

基本抓取网页

get方法

import urllib2
url = "http://www.baidu.com"response = urllib2.urlopen(url)print response.read()

post方法

import urllibimport urllib2
url = "http://abcde.com"form = {'name':'abc','password':'1234'}form_data = urllib.urlencode(form)request = urllib2.Request(url,form_data)response = urllib2.urlopen(request)print response.read()

使用代理IP

在开发爬虫过程中经常会遇到IP被封掉的情况，这时就需要用到代理IP；在urllib2包中有ProxyHandler类，通过此类可以设置代理访问网页，如下代码片段：

import urllib2
proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'})opener = urllib2.build_opener(proxy)urllib2.install_opener(opener)response = urllib2.urlopen('http://www.baidu.com')print response.read()

Cookies处理

cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)，python提供了cookielib模块用于处理cookies，cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。

代码片段：

import urllib2, cookielibcookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())opener = urllib2.build_opener(cookie_support)urllib2.install_opener(opener)content = urllib2.urlopen('http://XXXX').read()

关键在于CookieJar()，它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后cookie也将丢失，所有过程都不需要单独去操作。

手动添加cookie：

cookie = "PHPSESSID=91rurfqm2329bopnosfu4fvmu7; kmsign=55d2c12c9b1e3; KMUID=b6Ejc1XSwPq9o756AxnBAg="request.add_header("Cookie", cookie)

伪装成浏览器

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况。

对有些 header 要特别留意，Server 端会针对这些 header 做检查：

User-Agent 有些 Server 或 Proxy 会检查该值，用来判断是否是浏览器发起的 Request
Content-Type 在使用 REST 接口时，Server 会检查该值，用来确定 HTTP Body 中的内容该怎样解析

这时可以通过修改http包中的header来实现，代码片段如下：

import urllib2headers = {    'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}request = urllib2.Request(    url = 'http://my.oschina.net/jhao104/blog?catalog=3463517',    headers = headers)print urllib2.urlopen(request).read()

页面解析

对于页面解析最强大的当然是正则表达式，这个对于不同网站不同的使用者都不一样，就不用过多的说明

其次就是解析库了，常用的有两个lxml和BeautifulSoup

对于这两个库，我的评价是，都是HTML/XML的处理库，Beautifulsoup纯python实现，效率低，但是功能实用，比如能用通过结果搜索获得某个HTML节点的源码；lxml C语言编码，高效，支持Xpath。

验证码的处理

对于一些简单的验证码，可以进行简单的识别。本人也只进行过一些简单的验证码识别。但是有些反人类的验证码，比如12306，可以通过打码平台进行人工打码，当然这是要付费的。

gzip压缩

有没有遇到过某些网页，不论怎么转码都是一团乱码。哈哈，那说明你还不知道许多web服务具有发送压缩数据的能力，这可以将网络线路上传输的大量数据消减 60%以上。这尤其适用于XML web 服务，因为 XML 数据的压缩率可以很高。

但是一般服务器不会为你发送压缩数据，除非你告诉服务器你可以处理压缩数据。

于是需要这样修改代码：

import urllib2, httplibrequest = urllib2.Request('http://xxxx.com')request.add_header('Accept-encoding', 'gzip')opener = urllib2.build_opener()f = opener.open(request)

这是关键：创建Request对象，添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据。

然后就是解压缩数据：

import StringIOimport gzip
compresseddata = f.read()compressedstream = StringIO.StringIO(compresseddata)gzipper = gzip.GzipFile(fileobj=compressedstream)print gzipper.read()

多线程并发抓取

单线程太慢的话，就需要多线程了，这里给个简单的线程池模板这个程序只是简单地打印了1-10，但是可以看出是并发的。

虽然说Python的多线程很鸡肋，但是对于爬虫这种网络频繁型，还是能一定程度提高效率的。

from threading import Threadfrom Queue import Queuefrom time import sleep# q是任务队列#NUM是并发线程总数#JOBS是有多少任务q = Queue()NUM = 2JOBS = 10#具体的处理函数，负责处理单个任务def do_somthing_using(arguments):    print arguments#这个是工作进程，负责不断从队列取数据并处理def working():    while True:        arguments = q.get()        do_somthing_using(arguments)        sleep(1)        q.task_done()#fork NUM个线程等待队列for i in range(NUM):    t = Thread(target=working)    t.setDaemon(True)    t.start()#把JOBS排入队列for i in range(JOBS):    q.put(i)#等待所有JOBS完成q.join()

如果觉得有用，就请关注、点赞、在看、分享到朋友圈吧！

最新文章

惊爆！72.1K star 一款开源、功能强大实时监控与可视化的超炫神器！

推荐一个Python可视化模块，简单又好用！

太强了！14.7K star！Windows系统居然还有开源替代版了？！

裁员了，很严重，大家做好准备吧！

每个测试开发都要学的【自动化部署】，Devops，CI/CD！

IT技术人员如何做一次高水平工作汇报？

测试人员如何进行竞品分析？

Python爬虫必备的8大技巧，收藏！

强！63.2K star！一款可完全替代Postman、Insomnia 的开源替代品！

用Python实现十大经典排序算法(附动图)

互联网大厂职级：P6/P7/P8技能、薪资和成长路线全攻略！

说透性能测试：每个测试人都能学好的性能测试！

测试策略是什么？在团队开发过程中如何落地？

面试官问你：为什么频繁连接MySQL数据库会消耗很多资源？

软件质量保障中，如何降低漏测？可以从哪些方面入手！

推荐渗透测试中新手必练的10个靶场！

取代传统测试，这才是测试人未来5年最好的就业方向！

Selenium自动化测试实现滑动滑块验证码自动识别！

推荐一款专为Nginx设计的图形化管理工具: Nginx UI！

爆了！又一款高性能、无侵入的 Java 性能监控神器！

日常办公实用技巧：利用Python 操作 Excel 数据封装函数！！！

自动化测试中使用Pytest Fixture？推荐10种常见用法！

2024年最值得去的公司（互联网行业TOP30企业排名一览）

推荐10 个令人惊叹的 Python 自动化脚本！

一键生成 Dockerfile，告别手写烦恼！

几个被淘汰的Python库，请不要再用！

6个常见故障及排查方法，是个测试就得会~

随时撸代码，推荐两款工具，可随时在手机上玩转 Python！

动图展示 10 大 Git 命令，让你轻松掌握Git

历经五轮面试终于拿到微信的offer，却只能无奈放弃！

推荐6个最好的 JavaScript 和 Node.js 自动化网络爬虫工具！

「最佳实践」一款非常强大的开源性能测试工具Sysbench：开发者必备技能！

推荐一款Windows自动化利器: pywinauto！

前端 Chrome 调试技巧最全汇总！值得学习！

揭秘最为知名的黑客工具之一：Netcat！适用于安全测试、渗透测试、黑客攻击！

取代测试岗，国内又一新兴岗位在崛起！这才是测试人未来5年最好的就业方向！

强！推荐一款Python开源自动化脚本工具：AutoKey！

如何使用Postman搞定带有token认证的接口实战！

面试官问你：CPU狂飙900%，该怎么处理？

推荐一款流量录制回放工具：JVM-sandbox-repeater！

年薪96w！真心建议大家冲一冲新兴领域，工资高前景好

Python懒人必备：推荐7个高效实用的装饰器！

《黑神话 . 悟空》员工工资收入曝光！

年薪68w！全体测试人的新方向，工资高前景好！

JAVA应用测试，线上故障排查分析全套路！

推荐60+VSCode插件，终有一款你喜欢的！

推荐一款开源、一站式SQL审核查询平台！功能强大、安全可靠！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉