速读:分享一款免费、可视化、易上手的数据爬虫软件。
在当今这个信息爆炸的时代,数据采集变得尤为重要。无论是进行市场研究、竞争分析还是内容营销,高效的数据采集工具都是我们不可或缺的助手。数据采集的方式有很多种,但是,爬虫技术无疑是最为有效和重要的一种方法。所谓爬虫,就是一个按照一定的规则自动浏览网页并抓取网页内容的程序。
在学习爬虫之前,首先要掌握一门编程语言,比如Python,这个功能强大的编程语言非常适合编写爬虫程序。虽然Python是一门相对简单易学的语言,但对于很多非技术人员都是一个门槛,于是网上便有各种各样类似“9.9元入门”“0元学Python”等课程售卖。今天我们分享一个不需要编写代码即可使用的、可视化的、几分钟就可以上手的爬虫软件——EasySpider。
本次分享仅为学习交流,严禁使用爬虫软件进行任何违法违规的操作,如爬取不允许爬取的各类机关网站等。使用本软件所造成的一切后果由使用者自负。
软件介绍
EasySpider是一款开源且完全免费的可视化网络爬虫工具。它基于Python语言开发,旨在帮助用户快速编写高效稳定的Python爬虫程序。与其他复杂的编程任务相比,EasySpider提供了一个图形化界面,只需要在网页上选择自己想要爬的内容并根据提示框操作即可完成爬虫设计和执行。
软件特性
开源免费无广告:代码开源,所有功能免费(商用除外),没有弹窗和外部广告。
跨平台:支持Windows、MacOS和Linux操作系统。
简单快速:通过图形化界面设计爬虫任务,通常2-5分钟即可完成一个任务的设计。
安全:无需注册,所有任务和数据保存在本地,不经过第三方服务器。
灵活:支持添加浏览器插件、执行JavaScript指令、使用Selenium操纵浏览器等高级功能。
并行多开:可以开启任意数量的执行程序,实现大规模数据的并行采集。
动态调试:支持自动标记/试运行操作,方便定位和调试问题。
自定义插件:支持外挂自定义插件,满足特定需求。
验证码识别:支持多种验证码识别方案,如图形验证码、reCAPTCHA等。
元素截图和OCR识别:支持元素截图、OCR识别及图片下载。
外部程序调用:可以调用系统外部程序,完成复杂需求。
API调用:通过API调用执行任务,实现高级自动化采集。
暂停运行:可随时暂停任务执行,便于手工调试页面和输入验证码。
Python环境自定义:允许修改执行时的Python环境,提高灵活性。
移动端模拟:支持模拟手机端设备采集数据。
灵活导入导出:支持读取Excel文件导入参数,导出为Excel/CSV/TXT文件或写入MySQL数据库。
任务迁移:任务可复制迁移到其他机器,无视操作系统环境。
页面滚动和IFRAME支持:支持设置页面滚动获取内容,包括多层嵌套的iframe数据采集。
Cookies修改:可获取和修改页面Cookies值。
命令行执行:支持以命令行方式执行任务,无缝嵌入其他程序中。
无头模式:支持无头模式运行,不会弹出浏览器窗口。
正则表达式:支持在任意位置使用正则表达式。
修改网页内容:可修改网页内容,满足精密采集需求定制。
代码调试:软件包自带执行源码,可用Python直接运行和调试代码。
下载文件:支持下载图片、PDF、压缩包等文件。
弹窗处理:支持处理浏览器的Alert和Confirm弹窗。
软件操作演示
软件提供了详细的操作教程,可以根据需要选择学习。
软件官网:https://www.easyspider.net/
软件项目仓库:https://github.com/NaiboWang/EasySpider
视频教程:https://www.bilibili.com/video/BV1th411A7ey/
下面简单用一个操作示例说明:
比如下面这个网址https://sillok.history.go.kr/mc/inspectionMonthList.do,想把页面里从【天命十一年9月】到【崇德八年8月】,里面所有月份中每一天的记录数据都爬取下来,如下面截图所示,每天的数据可能要点击多次才能到达,手动复制肯定麻烦,这时就可以使用EasySpider完成。
当然实际操作时我们也要学会分析网页结构,比如我们看到【每天的数据页】右上角带有翻页按钮,这就可以使用软件自带的翻页功能实现自动浏览、循环爬取指定数据。
从官网下载系统对应版本软件后,直接解压即可使用。
双击EasySpider.exe打开软件,选择界面语言后进入软件功能页面。
可以看到有两个按钮,【设计/修改任务】就是新设计一个爬虫任务;【查看/管理/执行任务】就是对已经设计好的任务进行修改或者执行开始操作,里面还预置了很多设计好的爬虫,可以参考学习或者直接使用。
根据上面提到的数据爬取需求,我们新设计一个爬虫,选择【设计/修改任务】打开设计页面,首先选择模式,有些网站需要选择带有用户信息的模式才能取得比较好的爬取效果,这里我们选择【使用带用户信息浏览器设计】,然后选择【开始设计】即可。
这时会弹出目前已有的任务列表,我们直接选择【创建新任务】,并在【新任务】的网址里输入我们要开始爬取的第一页内容,点击【开始设计】,这时会打开爬虫设计页面,同时还会打开一个谷歌浏览器窗口。
可以看到谷歌浏览器已经打开了刚才输入的网址,这里开始便是重要的流程了,我们先在这一页选择需要爬取的数据字段,然后不断翻页循环这个流程就可以。具体选择数据时,必须右键选择数据(因为左键已经关联了软件操作),选择后会看到可视化区域已经有选择数据的表单生成,可以随时调整选择的区域,完成选择后点击【采集数据】即可完成本页面数据的采集。然后操作台上会提示是否设置翻页操作,这时点击【设置翻页操作】,然后找到并右键选择页面上的【翻页按钮】,设置为翻页键即可。记住以上操作中左键是操作软件,右键是选择。
完成上述操作后,点击流程设计页面的【保存任务】按钮就可以完成这个爬虫的设计了。
关闭设计页面,到开始的【查看/管理/执行任务】中,找到刚设计的任务,点击任务信息,即可修改或者开始执行爬虫任务,开始执行前还可以选择循环爬取的次数/页数。
爬取过程无需干预,是自动进行的,爬取结束后,会在软件文件夹下的Data文件夹里生成一个Task_*的对应文件夹,里面就是本次任务执行的日志和爬取数据文档excel或者csv等格式。
总结
EasySpider以其强大的功能、友好的用户界面、以及开源免费的特点,成为了数据采集领域的一款利器。无论你是数据分析师、市场研究人员还是内容创作者,EasySpider都能为你提供极大的帮助。赶紧收藏吧,关键时刻能极大提高工作效率,或者现在就去体验一下吧,看看它是如何简化你的数据采集工作的!
今天先分享这些,【恶人笔记】只分享好人的东西,有什么需求可以后台留言,不定时更新~~