程序员们,老板让你抓高德地图数据,你该怎么办?辞职吗?

文摘   2024-07-15 16:50   黑龙江  

可以直接看最后看如何答这个问题。以下是一个案例。

高德地图提供了城市交通健康指数的走势,经过页面分析可以发现,这些数据是以Ajax请求响应的方式返回到客户端,然后在本地生成相应的曲线。因此,找到请求的URL后,使用爬虫抓取这些数据并不难。但是技术人员不能纯粹从技术角度出发,而需要进一步分析这种做法可能导致的问题和影响。


中国经济网报道了朝阳区法院判决的一个案件,万得抓取高德地图的这些拥堵指数数据

https://www.163.com/dy/article/J63POOM60514CQIE.html

被告公司未经许可,利用变换IP地址伪造浏览器标识等不正当手段抓取“拥堵延时指数”数据,并将抓取的数据存储在某金融终端软件中,以商业目的向付费用户传播。


在爬虫程序中变换IP地址和伪造浏览器标识是很容易实现的,但是程序员却很少考虑其所可能造成的影响。高德地图的城市交通健康指数是经过其内部计算系统算出来的,付出一定的计算成本。大批量持续地抓取此类独有数据并用于商业目的,很容易被认定为“构成不正当竞争”。实际上,之前已经有不少类似的案例,万得为什么会去冒这个险?

程序员们,老板让你抓高德地图数据,你怎么办?辞职吗?显然你需要把爬虫程序设计技术、爬虫运营、合规性及法律规范之间的联系,给老板讲清楚,和老板沟通好几个问题:(1)抓取什么数据?抓这些数据要做什么用?商业目的吗?(2)抓取的频率如何?是否会造成破坏服务器的可能?是否有明显的合规性问题?(3)找几个类似的案例给老板看,说服老板,也是为了挽救老板和公司,避免不必要的损失。

学习和使用爬虫技术一定要注意合规性问题,深入理解爬虫程序设计技术、爬虫运营、合规性及法律规范之间的联系。相关资料:

案例:某大数据服务公司的“爬虫”数据采集违法案例解读

阅读我的书,合规性相关部分:Python爬虫大数据采集与挖掘

互联网大数据处理技术与应用
互联网大数据与安全相关的各种技术,包括爬虫采集提取、大数据语义、挖掘算法、大数据安全、人工智能安全、相关技术平台以及各种应用。同时也会分享相关技术研究和教学的心得体会。
 最新文章