// 继续昨天的话题 //
公开收集数据主要包括两种方式,通过共享开放途径获取开放数据和通过数据爬取等方式获取公开数据。开放数据是指任何人均有权获取并无条件使用的数据,例如政府依法开放的公共数据:而公开数据是指任何人都有权利访问,但只能在一定条件下获取并使用的数据。
开放数据的来源合法性要在评估时审查是否存在从政府部门等第三方取得相关数据权益的情形,以及所收集的数据是否属于可以共享的、依法开放的公共数据,以此来保障收集开放数据的合法性。
公开数据的收集和利用具有特定的限度,一旦超过合法收集、利用的限度,数据爬取行为将被认定为违法甚至犯罪。目前,公开爬取数据的合法性在法律方面并没有明确规定,而在司法实践中也缺乏统一、简明的判例。因此,为了避免数据产品挂牌后出现数据采集合规纠纷的问题,数据交易所通常会采用严格的审查方式来审核公开收集数据的合法性。在进行合规评估时,建议对数据爬取的合法性进行严格审查及整改。结合相关判例及上海市杨浦区人民检察院等部门发布的《企业数据合规指引》,建议的审查维度包括:
审查被爬取网站是否具备Robots协议,爬虫软件是否遵守被爬取网站的Robots 协议内容。虽然 Robots 协议并未经标准化组织备案,也不是法律意义上的合同,只是互联网行业普遍遵守的规则和公认的行业准则,但在相关的案例中,Robots协议已经成为国内外互联网行业普遍遵循的技术标准,爬虫软件是否遵守了Robots 协议是法院审查爬取行为是否合法合规的重要因素之一。例如百度诉360不正当竞争纠纷案中,法院认为,Robots协议是技术规范,并非法律意义上的协议: Robots 协议是由网站服务提供商或所有者自主编写的,属于单方声明。 《自律公约》虽不是法院直接适用的法律法规或规章,但反映和体现了行业内公认的商业道德和行为准则,法院会充分考虑《自律公约》所体现的精神。另外,参照《网络数据安全管理条例(征求意见稿)》,“自动化工具访问、收集数据违反法律、行政法规或者行业自律公约、影响网络服务正常功能,或者侵犯他人知识产权等合法权益的,数据处理者应当停止访问、收集数据行为并采取相应补救措施。“该款将行业自律公约与法律行政法规并列,设置为审查爬虫行为的准则之一。
爬取行为是否突破网站的防护措施,例如网站运营方设置的身份验证、权限设置、加密规则等。突破网站防护措施爬取数据,避开或突破计算机信息系统的安全保护措施,未经许可进入计算机系统,可能被认定为《刑法》所规定的非法侵入计算机信息系统罪,或所规定的破坏计算机信息系统罪中的侵入和破坏行为。 爬取频率是否合理,是否给被爬取网站的运行造成过度负担,妨碍网站的正常运营。参照《网络数据安全管理条例(征求意见稿)》,“数据处理者在采自动化工具访问、收集数据时,应当评估对网络服务的性能、功能带来的影响,不得干扰网络服务的正常功能“及《数据安全管理办法(征求意见稿)》,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止” 之规定,数据爬取收集流量不得超过网站日均流量的三分之一。
(2)爬取的数据来源及内容的合规性审查。爬取数据是否合规主要看爬取的数据来源是否为公开数据,数据中是否包含个人信息,是否存在侵犯知识产权的可能性等。
侵犯个人信息权益:根据《个人信息保护法》的相关规定,不得未经个人同意授权,收集自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人身份的各种信息,或超范围过度收集个人信息,所爬取的个人信息涉及隐私的,还可能侵犯隐私权。 侵犯知识产权:例如“网络爬虫非法抓取电子书”犯侵犯著作权罪案!中,法院认为,鼎阅公司、直接负责的主管人员覃某某等12名被告人以营利为目的,未经著作权人许可,利用爬虫软件爬取并复制发行他人享有著作权的文字作品,情节特别严重,其行为均已构成侵犯著作权罪,应予惩处。
(3)爬取数据的用途的合规性。审查数据爬取用途的合规性主要关注数据爬取行为是否构成不正当竞争,主要包括:
爬取方与被爬取方之间是否存在竞争关系,如百度与大众点评不正当竞争纠纷案2中,法院认为,被告利用网络爬虫技术大量无偿获取竞争对手数据并用于同类或类似的网站、APP,对被抓取对象形成实质性替代,构成不正当竞争。 爬取行为是否会损害被爬取方的合法利益,如浙江蚂蚁小微金融服务集团股份有限公司等诉苏州朗动网络科技有限公司商业设及不正当竞争纠纷案中,法院认为,被告爬取公共数据进行商业化利用的过程中,未尽必要注意义务导致原始数据主体合法权益受损,构成不正当竞争。 爬虫行为是否具有不正当性,即爬虫的技术细节对不正当竞争的影响,如北京微梦创科网络技术有限公司与云智联网络科技(北京)有限公司不正当竞争纠纷案2中,法院认为,被告未经许可利用爬虫技术抓取数据,无视被爬对象设置的 Robots 协议,绕过、破坏反爬措施,构成不正当竞争。
综上,尽管公开收集数据具有先天的合规劣势,但并非为立法及司法所完全禁止。若交易主体希望此类产品得以顺利挂牌,则应当注意爬取行为具备正当目的、爬取行为适度合理、并未严重损害网站运营,同时建立配套合规审查措施。
左上角“海纳数智研究院”,感谢您的关注!