年会速递 | 谷海燕:数据抓取类型的不正当竞争中的几个问题

文摘   2023-12-29 21:00   北京  

年会回顾


2023年12月16日,北京大学电子商务法研究中心“《电子商务法》实施五周年:回顾与展望”年会在北京召开,新浪集团法务总监谷海燕女士应邀参会,以“数据抓取类型的不正当竞争中的几个问题”为题进行发言,就数据抓取案件的六大类别、不正当竞争的具体案件和多维度损害特征进行探讨。


以下内容根据会议现场速记整理,并经演讲者审核无误后发出。文章内容仅代表嘉宾个人观点,不代表本机构意见。感谢谷海燕女士对本次研讨会的大力支持。


数据抓取类型的不正当竞争中的几个问题

       谢谢薛老师的邀请。我个人也是北大电子商务法研究中心一开始建立的时候聘请的校外导师,非常荣幸参与本次研讨会。我们今天介绍的是新浪集团经历的一些反不正当竞争的案件,很多案件都是在没有现行的法律法规政策的情况下大家一路摸索过来的,所以更主要不是为了讲案子,而是更多想给大家分享我们内部法务和在跟外部律师交流学习过程中的心路历程。因为这方面的案件随着现在数据研究的深入,也随着竞争案件越来越丰富,各大网站都在通过司法判例探索和制订平台运营规则,这一直都是在延伸的过程中。


一、“数据抓取”竞争案件的六大类型

     那么我们先来看一下竞争案件的类型,请大家看这个图。 

       我们先来讲一下作为一个网站是怎么经营的,我们最初设计这些案件的trigger是什么?这也关系到新浪为什么做微博能做成功。微博作为上市公司大概有多少员工?这些员工都在哪些部门?产出的产品是什么?显性和隐性的基因是什么?哪些是商业化的产品,哪些又不是商业化的产品? 

       在这些问题的思考过程中,其实都代表了一个很本质的问题,就是企业经营的产品是什么,哪些是他能够售卖的短期产品、中期产品、长期产品。作为法务,要去研究企业不能被伤害的根本利益是什么,这是企业的立身之本。如果别人搬运你的东西,什么东西你最不希望被搬运走?大家在跟随着我往下走的过程中,可以去感受一下这个角度。作为公司法务,当公司权益受到侵害的时候,心理上觉得委屈,社会大众可能都感知到了。法律可以把平台规定为守门人,而我们自己是企业的守门人,你面对一个上市公司有那么多亿的投入的时候,怎么样去捍卫它的权益?如果法律法规上没有明确的规定,这个案子你打还是不打,你怎么找到诉求,你的主张是否立得住?

       大家看到PPT上的图,可以看到竞争案件类型大概分六个类别。如果说一家公司有四五千人,有研发部门,产品部门,编辑部门,还有运营部门、安全部门、客服部门、法务部门、合规部门、财务部门。所有部门其实都是一个链条上的,都是为了打造一个网站。

       大家可能说微博上的数据都是公开数据,都是一些大v自己发布的,其实真是这么简单吗?那为什么只有新浪做微博产品做成功了?如果都是这样的话,大家可以再感受一下,如果作为一个大v,为什么把内容放到新浪上来,放到微博上来?为什么当社会发生大事件的时候,你作为一个大v,首先还是先考虑微博?因为潜意识告诉你只有微博这个平台能把你的数据推送得更广。微博长期经营的裂变模式能为你带来最好的收益。我在公司上班,可能一天都会有三波扫楼的。所有的网红,所有的影视剧、所有的明星、所有的唱片全都到会到微博来。为什么?就是因为这个平台有完善的产品和运营。不管是我们的产品、我们的运营、我们的研发,我们的合规客服,大家都为之奔走。可能大家表面上在平台上感知到的只有UGC(User Generated Content,用户生成内容)平台用户发出来的文字、图片和视频,似乎网站没做什么。但是真是这样吗?不是的,如果你仅仅是这样,用户可以有无数个选择,我为什么一定要放在微博上呢?就是因为微博通过十几年的经营积累,形成了很好的产品设计和运营机制,包括和新浪这边垂直门户的配合式打法,协同配套发生作用。

       这时如果有网站过来抄你的、搬运你的一些东西,你去打一个著作权的官司,你觉得值吗?这样的行为是不是破坏你本质的生命力。那怎么样能真正填补你的损失呢?著作权的三倍、五倍的赔偿就够吗?不够的,那我们怎么样来打?带着这个问题我们来往下看。

       我们来看一下数据的竞争类案件,这里列了六类,不一定全,只是我们自己的一些思考。因为我们做这个PPT的时候,也再观察一下,现在市面上有没有其他公司的案件、更好的案件能够超出这些类别?可能目前还没有。但是大家一直都会保持一个观察,我们也在学习市场上其他平台有可能的更先进的一些打法,所以这些都不一定全。 

       我们先来看模拟客户端的类别,包括仿冒类其实都是差不多的,就是说其他的网站通过仿冒你的APP也好,或者仿冒网站也好,通过劫取流量来进行不正当竞争。刷量的行为和买卖账号的行为在互联网生态是广泛存在的,它是一些黑灰产的行为,对网站也构成非常大的流量的剥夺和侵害。搬运报道的案件,如果说别的网站规模性的、系统性的来搬运本网站上的内容的话,会构成对网站文章、对公开数据或者半公开数据的这种侵犯。

       我们来看竞争法具有哪些特点呢?法律法规比较欠缺,《反不正当竞争法》里面法条确实是比较宽泛的。对于数据的使用行为、获取行为、评价行为,它的判断其实是都是非常宽泛的。怎么样适用要结合具体的场景,同时技术问题也是非常复杂的。我们在后面的案件当中可以看到,其实我们在有些不正当竞争行为怎么样去取证,我们有投毒实验。就是说我可能没办法证明他在获取我的数据,怎么办呢,那我们尝试在网站埋进一些小程序,是带有一些脏数据的,这样能发现侵权网站盗取的是我们网站的数据。还有一种他会说因为你的数据是公开的,所以我是公开拿到的。但是其实我知道他不是公开拿到的,他就是通过内部的接口来获取的。那我怎么证明呢?我就做两个接口,公开的一个接口里面是清洁数据,我在隐藏的接口里脏数据,那看它呈现出来的是什么?它果然呈现出来的是带有脏标记的那个数据,证明它是从隐藏的接口调用的数据,这也是一种取证方案。

       我们在案件准备过程中跟技术人员一块儿探讨,怎样去做投毒实验,然后通过技术的手段把它公证下来。当然公证的过程中大家也要注意,一定要多跟公证老师,多跟技术人员沟通。要注意公证的手段的合理性和合法性。反过来,在作为被告的时候,可以仔细看对方取证的程序是不是完整、是不是符合法定程序,我们有通过这方面获得胜诉的。所以自己作为原告去做公证的时候一定要程序非常严谨,作为被告的时候可以去看他的瑕疵。


二、具体竞争案件:不正当竞争的法律评价


       我们来看一些具体的竞争案件。刚才贾律师说到了三重授权的原则,那个案件(微博诉脉脉不正当竞争案)可以说是确认了平台对数据有一个竞争性权益。那个是作为第一个案件,大家的关注度也非常高。那个时候,脉脉拿的是微博平台上一些带有个人信息的数据,所以我们在诉讼中有一个天然的抓手。但是在后面的案件过程中我们其实是越来越难打,我后面说的过程中大家能感受到。

       我们来看舆情产品使用。这当中又分为两种情况。一种情况是有些公司跟我们有合作,比如说他每个月买你的东西,例如他购买了你8万条数据。但其实我们观测到,他其实用了你80万的数据或者180万的数据。他跟你签一个貌似的合作,但实际上他用他的其他的盗取的端口用的更大量。另一种情况是没有合作直接使用数据,这两种情况都有。还有追星软件,因为娱乐圈里面其实用这个是很多的,他会通过我们做一个独立的产品,或者做一个假冒的网站,然后来把你的流量都弄过去。结合现在电商大家可能比较有感受哈,因为很多的粉丝你有送礼物啊,送鲜花呀,微博上有这些,然后把你的粉丝导到他的网站上去,那其实送鲜花、送流量、送那个礼物的费用都到他的网站上了。而其实底层的架构(从粉丝跟大v的互动到剧的生态)都是微博做出来,所以大家能感受到这个侵害是客观存在的。

       微博跟头条之间的案件(微博诉今日头条不正当竞争案、微博与今日头条robots协议不正当竞争案),这是两个方向的案件。一个是说我们微博诉头条侵害了我们平台的数据,因为它是大规模移植了微博上的用户数据。我们当时诉了2000万,现在正在二审的过程中。然后第二个案件是robots协议的限制,就是头条反过来诉微博说你用robots协议限制我们去用你的数据,其实你是构成了一个不正当竞争的行为。其实不光在微博跟头条上面,我们其他的争议中,其实也出现类似“对冲”的案件。作为诉讼律师来讲,我们非常理解运用这种技巧,这恰恰是一个问题的一体两面性。就是一家网站会说我对我的数据享有竞争的权益,如果你构成了不正当竞争,就是一个诉讼。而另外一个网站说你设置了协议,你来限制我的爬虫,我的爬虫是正当的,你没有权利来限制,数据应当是自由流通的,你限制了用户的消费权等等,可能还包括数据可携权等概念。这是非常典型的对冲案件。当时我们在上一个案件中索赔2000万,今日头条第二年来诉我们的,做了这么一个案件,诉求是1亿人民币。这个案件我们二审赢了,而且是绝对胜诉,并且获得了最高院2022年优秀案件一等奖。这个案件也明确了对于robots协议该怎么样评价。robots协议在业界其实也有别的案件,在我们之前另外那个案件是相反的败诉的结果,是说企业不可以通过协议来限制竞争,所以当时这个案件就变得格外的难打,但是我们依然胜诉了,而且是二审改判。最高院的案例评价,以及在最后获奖的过程中,很多专家也都来专门讨论这个案件,这个案件其实讨论了企业对于自主经营行为的边界是什么,以及我们对于竞争手段的评价是什么。你评价的不是一个权益,而是一个行为,对标的是这个行为本身的正当性或者不正当性,以及网站在不同的经营的领域内,他是不是有自主管理的权限。企业通过合理的手段去限制同行业同领域竞争对手的行为,对于合理的竞争是促进,而不是阻碍。

       一家公司或一个网站你在做自己经营产品的时候,什么决定了冰山以上的成果?是冰山以下的积累。对方如果只是花六个月的时间或者三个月的时间就搬走了你过往十年的一个经营成果,对你的用户、流量是劫取性的方式的话,他可能在短时间形成一个超大平台。如果法律和我们整个社会鼓励这种行为,那么以后大家谁来做原创?我们始终要去做真正的好内容,真正的新闻要有新闻人去做,我相信大家看法律的东西都有同感,我们不会去看那些比较水的文章,我们还是要自己去看法条,看理解,看老师们写的以及自己的感同身受。而如果说那些非常水的文章,你可能一分钟两分钟就看完了,他没有必要占有你更多的眼球。所以我们想象我们所需要的媒体,我们所需要的社会,我们下一代看到的文化是怎么样的一个理念。我们还是要鼓励大家做原创,做更好的平台,而不是说所有的人都是一个搬运工。这是我们应当鼓励的社会价值,我们身为法务来讲,要看我们鼓励的到底是哪种社会价值。我们做案件也是要看到底怎么样的方式才能获得最好的案件效果。那么多维度损害,你怎样把它表达出来。在国外做民事诉讼的时候,会把评价阶段跟定损阶段分开来打。然后到那个阶段你可以请经济专家,请评估专家、定损专家来给你出经济报告等等。所以在这方面我们其实有很多案件,我们也会请很多经济学的老师来出这方面的报告。那身为法务,你在这个过程中你是要对齐多个部门,对齐产品部门、财务部门,包括内部律师和外部律师,再比如说现在市面上非常流行的话题,数据入表,怎么样去评估数据的价值,我们还要去跟会计事务所去评估这方面的价值。这些东西其实都是联动的。我们怎么样把数据的资产从财务的角度,从媒体的角度,从企业的角度和从平台的角度,以及从争议的角度给他打出来。

三、多维度损害的举证路径

       

       我们进一步来看这些损害怎么样去举证。在这里面其实可以看到三种类型,大家可以看一下,第一种类型是表面的一些财务上的一些损失。第二个损失是从安全的角度,失控的角度。还有一种角度是更广泛的对平台或者说对整个社会,对整个生态造成的侵害。

       比如说实质性替代、增加运维成本、影响收益。第一行这个里面其实是我们现在在案例里比较多看到的一些表述,侵害了什么利益?用户、粉丝、眼球、注意力、流量等,侵害了你的市场和商业份额,包括侵害了原本你可售卖产品的销售、收入、利润,这是一个非常直接的线条。还有它模拟用户或者说他到你的网上来盗取这些东西,其实是增加了你的服务器的运维成本,你的服务器可能宕机了。那么下面这一行,它本质上侵害的是什么呢?是侵害了你的经营模式,侵害了流通规则,侵害了网站上产品的展示规则。是说我以后可能我就不到你微博上来看了,你可能短期感受不到什么,但是他的用户就切过去了。那么大家可能在业界形成的分享阅读的习惯会改变,甚至改变了免费和收费的关系。大家知道互联网的经济模式,可能资讯很多都是免费的。收费在广告端或者其他的电商。如果说有人把当中生生的切开,免费做出来的东西,辛苦做的东西,全部都端走了,那的广告怎么投放?这是最致命的一个问题,改变规则的本身其实切掉了网站本质的经营模式,切断了合理的商业来源。

       最后两块儿我们说的是安全的问题。对于网站来讲,工信部、网信办,包括未来的数据局,其实都要网站作为一个守门人,作为一个超级平台要去承担这方面的义务。我们承担了所有法律法规里对于超级守门人的责任。而如果平台上存在这么多的黑灰产业链,都是潜在的在用平台的东西,这个安全责任谁来担呢?如果按照法律法规都是平台来担,这个合理、合法吗?所以如果我们发现有这方面的问题,还是要通过民事诉讼的方式或者行政举报的方式揭露出来。因为在安全评审的评估当中,平台作为运营人,是要对整个数据链生产经营过程中所有的内容负责的,我们要承担合规审查义务。当然目前在民事诉讼角度,我们比较少看到大家去论这个点,但我们理解未来也许是一个比较好的抓手。

       大家可以想一下维权的路径,刚才说了怎么样去设计案件呢?怎么样去找到比较好打的又比较能打赢的?当然有的可能比较好打赢,但是打不出来你想要的东西,所以大家要去多一些考虑。比如说传统的著作权的角度,我们会说数据内容随时的变更,而数据库的概念适不适合本案的案情?还有独创性也难以判断。那么商业秘密的可能对于公开数据来讲可能也不太好做,所以目前来看竞争法用的还是比较多的。而在这两三年大家对于数据权益的普遍关注,刚才蒋律师讨论了数据的权属特性,尽管我们不用所有权的概念进行描述。现在中国跟国外的打法其实比较接近,甚至我们有一些是更先进的打法,对于平台权益的保护,包括额头出汗规则、数据收集规则,类数据库保护规则等等,中国的法院都走在前面。


结语:数据竞争案件规则初探

       这是我们自己的一些思考。我们在一个一个案件的过程中形成的一些理念,也是我们自己在一点一点进步。我们也在观察业界同僚,大家有什么更好的案件。包括类似今天这样的学术会议,我们都会去跟大家一块儿来思考和分享。

       第一步,我们首先要在司法理念上承认平台享有基于数据的竞争性权益。这并不是说我们一定要对数据做明确的赋权,而是说我们可以通过规制数据爬取者的行为,来对平台投入资源之后形成的成果实施保护。在此基础之上,第二步,我们认为平台完全有权拒绝数据的爬取,尤其是可以通过设置robots协议来明确哪些数据可以爬取,这是我刚才提到的今日头条诉微博的案件中法院明确提出的。第三步,我们认为现行的反法对于非公开数据和公开数据都设置了一定的保护。非公开数据当然不能随意使用,而对于公开数据,其使用也是有比较严格的限度的,应该综合获取手段、规模、价值和替代情况来进行考量,确定其是否受到保护。最后一步,应当对数据获取和数据使用进行双重评价:获取不正当,则后续的使用也必然构成不正当竞争;即使获取正当,那么应当对使用方式进行综合考量,比如考虑使用的结果是否构成实质性替代,以此来判定其行为是否构成不正当竞争。这是我们目前摸索出的一套司法理念,当然,随着技术的进展,相关的规则还会继续地变化。

       以上就是我们团队的见解,谢谢大家。



敬请持续关注

会议成果发布

为活跃电子商务法领域的讨论,使更多业界同仁享受到本次会议的讨论成果,“电子商务法研究”微信公众号将在未来几天持续发布本次会议的报告以及嘉宾发言内容,敬请关注。

北京大学电子商务法研究中心



电子商务法研究
由北京大学电子商务法研究中心组织管理的公众号,致力于成为电子商务法研究领域的学术交流平台。
 最新文章