可以直接看最后看如何回答这个问题。以下是一个案例。
高德地图提供了城市交通健康指数的走势,经过页面分析可以发现,这些数据是以Ajax请求响应的方式返回到客户端,然后在本地生成相应的曲线。因此,找到请求的URL后,使用爬虫抓取这些数据并不难。但是技术人员不能纯粹从技术角度出发,而需要进一步分析这种做法可能导致的问题和影响。
中国经济网报道了朝阳区法院判决的一个案件,万得抓取高德地图的这些拥堵指数数据。
被告公司未经许可,利用变换IP地址和伪造浏览器标识等不正当手段抓取“拥堵延时指数”数据,并将抓取的数据存储在某金融终端软件中,以商业目的向付费用户传播。
在爬虫程序中变换IP地址和伪造浏览器标识是很容易实现的,但是程序员却很少考虑其所可能造成的影响。高德地图的城市交通健康指数是经过其内部计算系统算出来的,付出一定的计算成本。大批量持续地抓取此类独有数据并用于商业目的,很容易被认定为“构成不正当竞争”。实际上,之前已经有不少类似的案例,万得为什么会去冒这个险?
程序员们,老板让你抓高德地图数据,你怎么办?辞职吗?显然你需要把爬虫程序设计技术、爬虫运营、合规性及法律规范之间的联系,给老板讲清楚,和老板沟通好几个问题:(1)抓取什么数据?抓这些数据要做什么用?商业目的吗?(2)抓取的频率如何?是否会造成破坏服务器的可能?是否有明显的合规性问题?(3)找几个类似的案例给老板看,说服老板,也是为了挽救老板和公司,避免不必要的损失。
学习和使用爬虫技术一定要注意合规性问题,深入理解爬虫程序设计技术、爬虫运营、合规性及法律规范之间的联系。相关资料:
案例:某大数据服务公司的“爬虫”数据采集违法案例解读
阅读我的书,合规性相关部分:Python爬虫大数据采集与挖掘