导读
2021年6月20日,“互联网竞争政策的思考”研讨会在北京举行,新浪集团法务部总经理谷海燕女士应邀参会,以“‘数据抓取’类的不正当竞争行为的定性”为题进行发言。谷海燕女士对社交平台数据的不正当竞争案件进行了介绍,并指出在类似案例中,法院确立了平台具有数据权益的基本认识、对于非公开数据、公开数据的保护规则以及对于获取和使用都进行了不同层次的递进的评价规则。
(以下内容根据会议现场速记整理,并经演讲者审核无误后发出。文章内容仅代表嘉宾个人观点,不代表本机构意见。感谢谷海燕女士对本次研讨会的大力支持。)
“数据抓取”类的不正当竞争行为的定性
谷海燕
谢谢薛院长的邀请,今天我跟大家分享的是涉数据不正当竞争维权路径浅析。今天我们作为互联网企业的代表进行分享。在近几年来,我们新浪集团,包括微博我们一直都在数据,以及数据的不正当竞争案件方面做出很多积极的思考和探索,随着这些年国家对于网络和数字经济的大力发展,我们可以看到数据的类型经过各个互联网企业不断的探索和网络用户数据的膨胀已经到了非常繁荣的一个时代,到现在可以看到数据的类型是非常丰富的,不仅包括用户自己的身份数据、行为数据,上传的UGC的内容,也包括平台的经营数据和平台自己的一些其他的数据,上述整个数据整体构成了数据的生态。
在这个过程中,作为企业员工是伴随着企业一直成长到今天,我们历经了微博作为全球最大的华语的社交媒体平台它一路成长的艰辛,新浪早在微博推出是2009年,在更早的时候新浪就开始做博客这个产品,基于博客这个产品我们积累了很多垂直领域深耕的中国最优秀的这些长文的博主,在我们推出微博以后,我们第一时间把他们引入到微博这个轻型博客的领域,也得益于新浪这么多年在明星效应粉丝等这方面经营的经验。所以,新浪把微博这款产品经营成功。在这个过程中,我们会发现还是有很多企业他们通过不正当的抓取和获取使用数据,爬取平台数据的方式对微博部分或者全部产品或者功能形成了替代的服务。这种行为是一种不正当竞争行为,我们一会儿会介绍很多我们在法院的司法时间中的案例,通过这些案例可以看到这些不正当经营的行为在司法实践中我们通过判决得以确定,然后得以申告它的不正当竞争属性,这种行为是剥夺了正常的市场,也剥夺了我们正常的商业机会,稀释了竞争力。通过这些案件我们今天主要想跟各位专家老师探讨的是这种网络世界里新型侵权的样态,以及我们可以伴生的探讨一下数据本身法律的定性和理论上的一些思索。
我们主要关注的是行为的两类,一类是抓取+展示,一类是抓取+售卖,通过展示未经加工的平台内容数据,也有展示平台用户动态类数据,也有展示经过筛选加工的平台数据。第二大类主要是抓取+售卖类,不仅售卖的有平台内容数据,也有售卖平台上的用户关系数据,同时又售卖平台的账号信息数据。
往下大家可以看到一些比较具体的页面,有助于大家的消化和理解。其实我们作为公司的法务来讲,我们平时在接到我们的产品的运营者、研发产品的同事他们来跟我们投诉这些的时候,我们作为一个正常的法律工作者,我们头脑当中会有两层的逻辑,第一层的逻辑会说这件事儿它本身从是非方面是不是是不对的,第二我们如何解决这些不对的问题,我们从法律上如何寻找我们的法律逻辑和法律技术解决这个问题。这个落点,就是我们自己作为法律人我们应该要做的一份工作,我相信也是今天大家为什么坐在这里开这个会的根本原因。
首先给大家展示的是一个抓取并且展示未经加工的平台内容。我们这里展示的是我们在某一个案件当中被嵌套的产品形态,完全是微博的一个产品形态,没有经过任何自己的加工,它屏蔽了微博平台特有的商业模块。
其次给大家展示抓取并且展示用户动态的内容,这里面对方会进行收费和投入广告,通常这类的页面聚焦在明星和粉丝类的网站。
接下去一个侵权的形态可以看到这是抓取并展示筛选后的内容,被告的网站把这项服务作为一个收费服务来进行售卖,大家可以看到他其实是爬取了整个微博平台的数据,用户可以通过筛选关键字段来想要看这些不同的结果。大家会说这有什么不可以,似乎抓取的也是你公开的信息,其实并不是的,大家知道微博投入了非常大的人力物力财力和时间成本形成了这种经营模式,同样安全也是我们非常重要的一个考虑。如果第三方的网站进行抓取,并且展示是没有跟我们的服务器进行同步的,从安全的角度来讲,它不仅逃逸了微博服务器主端的监控,同时也可能展示处理的东西并不是微博服务器上屏蔽或者处理过的信息,所以,也是违反国家安全的相关规定。
另外一种形态,用户如果在被告的网站上通过关键字段检索会出来类似于原代码的呈现,这个原代码当中不仅包括用户平台内容数据,也包括用户关系数据,也包括我们付费内容,这比刚才大家的感受更加直观,它不仅突破了免费的内容,也涉猎到了付费的内容。
刚才我们看到的是那些侵权的行为或者样态。接下来我们会展示一些案件中的经验,大家可能会有比较直观的感受。
通常在这些案件当中被告会有哪些抗辩。第一,技术中立。爬虫技术并不具有非法性,比如在robots协议环境中,这也并不是一个新鲜的观点,但是如果我们探讨robots协议,robots协议也不是近些年才出现的。首先robots协议它本身是一个君子协定,它本身并不会产生直接的实际的技术的效果。第二,评价robots协议其实本身并不能逃离它的具体的环境。比如在搜索引擎的环境里,robots协议指引搜索引擎类的网络产品的链接,但是如果在非搜索引擎的这种商业的业务领域里,比如在数据竞争的领域里,非搜索引擎的这种通常抓取的是网站的页面的全部或者部分,对用户输出的也是网站复制的或者实质性替代的那个页面,大家刚才通过那些具化的行为展现是可以感受得到的。明显来讲,这个是一种侵权的属性。我们刚才已经说了,通过前几年一些案件的探索,很多的法院的司法案例都不同程度的可以说明现在大家对于数据产权,对于网站的平台竞争权益的这种认可。在这个方面来讲,其实明显的是一种侵犯私权,侵犯平台权益和侵犯企业正常经营权的一个属性,这属于一种不正当竞争的行为,也明显具有损人利己的属性。
前不久在美国最高院出来一个发回重审的案件是关于hiQ诉领英的案件发回重审,虽然可能涉及的具体行为不尽相同,但是我想这方面也是代表了跟我们刚才所说某种同样的思考。
技术中立并不是一个新鲜的观点,很多案件大家都会用,尤其互联网的案件。
第二项,抓取数据的性质。大家都会说抓取的都是公开的,无需登录的内容。但是我们认为这种东西只是一个表象,它并不代表数据本身借此可以抹杀它具有产权权益,它经过网站不断的经营和积累,形成了它自己自有权益的属性本身。后面的一些不再打开了,大家都比较好理解,分别是产品及商业模式的创新,行为本身的合理性,以及反法二条适用的谦抑。
我们看到不同的侵权行为的样态,正是通过这些不断的或者说不一样的这些侵权的形态,它形成了一个汇集的信息,实际上形成了对原告产品全部功能或者部分功能一个直接替代的服务,如果不加以制止的话,他会直接稀释产品或者稀释这种市场竞争力,剥夺它的商业机会,然后导致用户的分流。
大家可以看到,在评价数据获取是否正当方面主要衡量它是否绕过了平台的保护措施,比如是否绕过了反爬措施、突破密钥、是否突破了平台的访问规则和反垃圾政策等,再比如是否遵守用户登录设置,是否遵守了robots协议,在数据使用方面就看数据获取的手段是否正当,包括综合评价使用的数据规模、数据价值是否造成实质性替代,以及是否对数据进行了存储、加工和售卖等。
这些不正当的竞争行为会对企业造成哪些损害呢?包括对于网站的展示规则的损害,影响了或者破坏了数据处理安全的协议,脱离了网站和用户的这种控制,造成了经营性服务的替代。
通过这些陈列的案子可以看到,在社交平台的数据的不正当竞争案件方面,其实新浪在这几年确实是有着逐步或者说梯次性的进展,通过这些案件,法院确立了平台具有数据权益,法院确立了对于非公开数据,以及对于公开数据的保护规则,更加深入的来讲,我们可以看到法院现在在裁判文书当中对于获取和使用都进行了不同层次的递进的评价规则。
当然,我们刚才说的那些案件我们其实还是有很多的问题和困扰。比如我们可以看到,有别于行政处罚或者行政的执法程序来讲,民事诉讼程序还是相对比较漫长的一个程序,他从案件的构建到案件整个两审结束还是需要很多的时间,但在这个过程中,其实对于企业正常的经营行为和它竞争生态的维护来讲是有一个非常致命的损害,但是我们看到这几年我们在行政执法,包括在综合的管理的样态方面大家都有着不同的长足的尝试,包括行业竞争经营联盟的形成,行业自己自治规则的形成,我们觉得都是一个很好的释放的信号。
同时,侵权的手段也是越来越丰富,给我们的理论研究和我们的司法实践带来很多的难度,但是我想也正因如此,我们在座各位学者,我们各位企业的法务,律师和法官才不断辛勤的耕耘,不断的在各方面做出的努力和尝试,我们新浪和微博我们也会在这方面继续做出我们自己法律人的职业的追求和梦想的贡献。谢谢大家!