爬虫有风险,入门须谨慎

乐活   2024-11-11 15:34   四川  


我的个人博客:www.moonkite.cn

大家好,我是风筝 

经常听到有因为爬虫进去踩缝纫机的,但是那种情况基本上都只是利用爬虫手段做一部分功能,主要的问题还是其他的,比如通过某些黑客手段获取了非公开信息,爬虫只是一个获取信息的手段而已,或者是大规模爬虫,这种情况实际上就类似于 DDos 攻击了。

虽然大家都知道爬虫有风险,但是适度爬虫无伤大雅,要不然怎么会有那么多爬虫框架呢。我记得刚开始学 Python 就是写爬虫,不只是我,我记得那时候用 Python 写爬虫就像是「Hello World」的进阶版,用 requests或者web scraper爬虫框架。

那时候没事儿就写个爬虫,其实就是写点代码抓抓数据,当然肯定公开数据,非公开的数据咱也爬不到。大大小小的网站都爬过,但是肯定没犯法啊。最可笑的是,当时我写日报都是用 python 自动通过接口写,内容是在几条放之四海而皆准的事项里随机抽一条,反正领导也不看。最后还是被领导发现了,因为我一个同事把代码要过去了,但是他的日报内容都是一样的,而且每天发的时候也是分毫不差。

但是几乎所有网站都只欢迎搜索引擎的爬虫,因为搜索引擎能带来流量。当然也有例外,例如淘宝就不允许搜索引擎收录内容页,只能在搜索引擎搜到淘宝首页。还有受不了百度爬虫的,之前博客园,每天都有来自百度爬虫的巨大流量,导致服务器性能被影响,从而和百度发生了一系列不愉快,导致百度切断到博客园的爬虫,后面的事情大家都知道了,爬虫少了,被收录的内容就少了、权重就小了,最终流量也就小了。

偶尔也会有人过来问,“想抓取 xxx 的数据,能不能做,价格好商量”,没到这种时候,我就会到网上搜一下,“抓取xxx数据违法吗”,大部分情况下就直接劝退了,只是百分百确定不违法,而且数据比较少的情况下才会动手。

这两天看到一个新闻,抓取小红书用户信息、并且发私信引流,结果被罚款,而且被判缓刑3年。

2021年12月,小红书安全部门发现3300余账号异常发送引流私信,但无前端登录记录。

调查发现,引流私信由常州某网络公司开发的AI智能互动平台发出,该平台未经授权爬取小红书用户昵称、笔记评论等数据,并发送私信广告。

在私信中发送引流信息,将用户引流到第三发平台,2019年6月至2021年12月间,非法所得653万余元。

之后,陈某、钱某、周某三个人被抓获,最近法院判决出来了,三人被返款几十万,并且获得了缓刑3年的大礼包。

单就爬虫来说,抓取的都是用户的公开信息,发送私信也有正常的接口。如果你了解过小红书运营的话,很多账号都是这么搞的,小红书其实是明确禁止将用户引流到第三发平台的,但是只是社区运营的策略而已,如果你非要引流的话,最多也就是给你禁言、封号,肯定不会抓你去坐牢的。

我看到过很多人抓取小红书、抖音这些平台的数据做分析,也是各种方式都有,最大胆的方式就是直接怼接口,含蓄一点儿的用其他工具,比如无头浏览器、影刀这些自动化工具。

这些到底合不合法呢,确实不好说。还是建议各位做爬虫的时候,一定要谨慎再谨慎,不要没苦硬吃。

古时的风筝,一个程序员,一个写作者。

古时的风筝
努力成为独立开发者的程序员,分享我了解的关于编程、独立开发等知识,知不不言,言无不尽
 最新文章