2024年9月30日,国务院发布了《网络数据安全管理条例》,是对国家数据安全法、个人信息保护法相关条款的细化。
条例明确“网络数据,是指通过网络处理和产生的各种电子数据”。爬虫及其系统自然在这个范围内。
与爬虫相关的条款在第十八和二十四条。摘录如下:
第十八条 网络数据处理者使用自动化工具访问、收集网络数据,应当评估对网络服务带来的影响,不得非法侵入他人网络,不得干扰网络服务正常运行。
第二十四条 因使用自动化采集技术等无法避免采集到非必要个人信息或者未依法取得个人同意的个人信息,以及个人注销账号的,网络数据处理者应当删除个人信息或者进行匿名化处理。法律、行政法规规定的保存期限未届满,或者删除、匿名化处理个人信息从技术上难以实现的,网络数据处理者应当停止除存储和采取必要的安全保护措施之外的处理。
看起来这两条是针对爬虫量身定制,毕竟爬虫网络数据采集纠纷近年来增多,可能很多人对爬虫的合规性并没有太深入理解。这些条款相比于数据安全法等更明确地定义了爬虫数据采集和处理的合规边界,有利于爬虫的规范化应用和开发。
这些条款涉及到的爬虫应用的公司主要包括:征信类、搜索类、数据聚合类以及第三方抢票平台类等。
根据这些条款,在实际操作中,特别是爬虫应用开发运营人员,需要解决以下六大问题,即:
爬虫开发者如何评估爬虫对网络服务带来的影响; 如何判断是否非法侵入他人网络; 如何判断是否干扰网络服务正常运行; 如何对采集到的个人信息进行匿名化; 如何说明针对你采集的数据匿名化处理从技术上是难以实现的; 除存储和采取必要的安全保护措施之外的隐私安全措施有哪些? 这些问题大都需要从技术方面进行解决,不是简单调用Scrapy爬虫框架就能解决的,而是需要深入理解爬虫的核心技术、爬虫应用的的关键问题,并从网络安全的角度理解服务端的爬虫检测防御等技术。而对于服务端而言,最重要的事情仍然是识别爬虫和爬虫取证技术。总之,爬虫端、服务器端对于爬虫技术都很重要。
请继续关注本号(Intbigdata)的推送,解决上述问题的思路见:
《Python爬虫大数据采集与挖掘》教学资料汇总
附:第十八条的法律责任。第八章 法律责任
第五十五条 违反本条例第十二条、第十六条至第二十条、第二十二条、第四十条第一款和第二款、第四十一条、第四十二条规定的,由网信、电信、公安等主管部门依据各自职责责令改正,给予警告,没收违法所得;拒不改正或者情节严重的,处100万元以下罚款,并可以责令暂停相关业务、停业整顿、吊销相关业务许可证或者吊销营业执照,对直接负责的主管人员和其他直接责任人员可以处1万元以上10万元以下罚款。
IntBigData