其中,大部分都是这家公司招聘来的开发人员。
好好的程序员,怎么就变成犯罪团伙、犯罪嫌疑人了呢?
原来,被查的这家公司主要是通过爬虫,爬取网络直播间的数据,然后再打包售卖牟利的。而被带走的很多程序员都是写爬虫的。
可能有人觉得这些程序员挺冤枉的,就是听老板的话干活,爬取的都是公开的数据,咋就不行了呢?搜索引擎背后不也是爬虫技术吗,咋没人去端百度呢?
没错,爬虫技术本身是没啥毛病的,但是市面上大多数企业中的爬虫的用法,基本都不合规,因为完全合规的爬虫根本没有商业价值。
目前,关于网络爬虫相关的约束,主要是2019年05月28日国家网信办发布的《数据安全管理办法(征求意见稿)》。
基本可以确定的是,如果爬虫使用不当,那么爬虫的开发者是有可能触犯法律的,而根据情况不同,获得的刑罚也有可能有差异。
要看开发和使用爬虫是否犯法,需要从爬什么数据、如何爬取数据以及爬到数据之后怎么用三个方面来判断。
1、属于著作权法保护的作品
因为有些网站发表的内容,如文章、评论等都是有著作权的,如果只是单纯的通过浏览器查看是不会触犯法律的。
但是,对于有著作权的作品,如果未经著作权人许可,以盈利为目的,对其作品进行复制是会触犯法律的。
如果是使用爬虫技术手段爬取数据之后将其保存下来或者传播,并且进行盈利,这种都是属于犯罪的。
2、用户的个人信息或者个人隐私
个人用户的个人信息,即使是用户自己放到一些网站上进行公开或者部分公开,如微博、微信等,不代表这些数据就可以被其他人随便获取!
所以,如果爬取的数据涉及到个人信息,都是违法的!
还有些爬虫企图绕过权限校验等,爬取用户未公开的信息,如个人私密相册照片等,都是属于侵犯用户的个人隐私的,这种也是违法的。
3、反不正当竞争保护的数据
目前有很多网站中的数据系由用户生成,且该等数据和内容系原告网站的主要竞争力来源。如大众点评上面的店铺评价、评论等信息,携程网上面的关于酒店的评价评论等信息等。
那么,未经允许,爬取其他网站的核心数据,很明显并没有遵守自愿、平等、公平、诚实信用的原则。就违反了反不当竞争法了。
如果是爬取公开的数据,通常不会被认为是侵权。Google、百度等搜索引擎都是这么爬取的。
那么,到底怎么爬数据是有可能触犯法律的呢,主要考虑是否涉及以下两种行为:
1、未遵守Robots协议
Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。
无视网站设置的Robots协议而随意抓取网站内容的行为将涉嫌构成对《反不正当竞争法》的第2条的违反,即违反诚实信用原则和商业道德的不正当竞争行为。
2、绕过防护措施对数据的访问,强行突破反爬措施
由于爬虫的批量访问会给网站带来巨大的压力和负担,因此许多网站经营者会采取技术手段,以阻止爬虫批量获取自己网站信息。
所以,很多爬虫工具为了爬取数据,会想办法通过各种手段绕过防护措施,但是,这种行为也是会触犯法律的。
企图通过技术手段,绕过网站的反爬机制,都属于《刑法》中规定的”侵入”,都是要被处罚的。
很多公司开发的爬虫遵守了Robots协议,也没有爬取不该爬取的数据,难道这样获取到的数据就可以随便使用了吗?其实也不是,如果使用不当,也会触犯法律的。
比如通过爬虫抓取到的数据进行盈利、损害他人利益、造假、诽谤等都是可能触犯法律的。
此外,未经被收集者同意,即使是将合法收集的公民个人信息向他人提供的,也属于刑法第二百五十三条之一规定的“提供公民个人信息”,可能构成犯罪。
所以啊,真正的合规的爬虫不能说没有,但是铤而走险的人还是占大多数。
爬虫一时爽,铁窗泪两行!!!
对于程序员来说,如果你的老板让你开发的爬虫,是用来爬取用户的个人信息或者个人隐私,并且该爬虫未遵循Robots协议、并且有意的躲避反爬机制就可能触犯到法律了。
可千万不要老板让你干啥就干啥,自己一定要长个心眼。毕竟情节严重三年以下,特别严重三年以上,七年以下!
(正文完)
兄弟们,我出了个高并发项目实战课。这个项目用到了目前市面上最主流的 SpringCloudAlibaba 的技术栈,用到的框架都是目前的最新版+稳定版。(项目详细介绍)
后端主要用到了像 JDK 21、Spring 6.1、SpringCloud 2023、Nacos、Sentinel、Dubbo、Redis、XXL-JOB、RocketMQ、ShardingJDBC、Druid、MySQL、EslasticSearch、Canal、 Seata、SaToken 等中间件及技术,还用到了像 Hutool、Logback、Caffeine、Mybatis、MybatisPlus、FastJson2等常用的开源框架。
在技术方案上,主要涉及到了各种分布式、微服务、高并发、高可用等相关技术列表。(项目详细介绍)
项目给大家交付的内容包括了代码+视频+文档+答疑。
这个项目目前还在更新中,预计会在接下来的3个月左右时间完成代码的开发、文档和视频的更新。(主干功能已完成,项目可完整运行起来)
更新完之后,有效代码行数应该在3万行左右,视频和文档都在200集左右。文档总字数大概20万字左右,视频的总时长大概在2000分钟左右。
这个项目因为目前刚刚推出,还是一个首发价,当前的价格是199,这个价格不是一年的价格,是永久的。
项目详细介绍:高并发、大流量的项目实战课上线了!
购买的方式目前大家可以通过下方的二维码下单,下单后会有短信提示,然后你就可以根据提示操作,申请代码、视频、文档的权限了。
这个项目是一个微服务的技术栈,所以其实内容还是挺多的,想要学明白,还是有一定的门槛的,所以,对于0基础的人不适合!
除了0基础以外,其他人都能学,因为项目中我有很多模块,不同的模块遇到的挑战、用到的技术都不一样,你可以按照我划分的难度进行选择性学习。