目次
一、问题的提出
二、人工智能训练数据合法收集的传统制度困境
三、由权利保护到数据要素利用:训练数据规制的理论转向
四、适应人工智能发展的数据制度建构
结 论
内容摘要
人工智能训练数据收集的合法性困境,严重阻滞了其发展。在数字时代,数据日渐具备要素化、公共属性化、使用规模化等特征。数据要素化要求释放数据效能,公共属性需要弱化私人控制,使用规模化表明个别协商无法进行。对此,制度建构应从传统语境转向数字语境,从个体权利保护思路转向数据要素利用思路。在进行制度建构时,应打破著作权、隐私权等权利领域的限制,基于各项权利内容数据化后的共性,进行一体化建构。在对场景、获取对象、获取方式和使用目的等进行限制的前提下,设立训练数据获取的许可豁免规则,设置知情权、拒绝权、删除权、算法解释权等权利,强化主体责任,并积极探索人工智能收益分配机制。
关键词
人工智能 训练数据 著作权 合理使用 数据在先权利
一、问题的提出
“加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题,”也是提振新质生产力的核心力量。新一代生成式人工智能是基于大数据模型生成广泛内容的新型技术,存在数据收集与处理、模型训练和内容生成三个阶段。大规模高质量训练数据的收集与处理,是人工智能高水平发展的前提要件,例如Chatgpt-4的参数达到了1.8万亿。数据作为数字时代的新型生产资料,其体量与质量是我国人工智能产业快速发展与获取竞争优势的决定性力量。但是在既有法律体系内,人工智能训练数据的收集面临着合法性困境,极大地掣肘着人工智能的发展。
一般而言,大数据模型都会涉及著作权、个人信息权益、商业秘密等数据权益体系。在此背景下,为平衡产业发展与权利保护,数据要素化利用需要保护好数据负载的在先权利。对此,我国《生成式人工智能服务管理暂行办法》第7条规定,人工智能的训练数据来源应当合法,不得侵害知识产权、个人信息等权益。而依据我国《著作权法》等规定,数据获取需要数据在先权利者的同意授权。
但是在实践中,人工智能服务提供者无法就数以万亿计的训练数据,一一获得相关权利主体的授权,而且人工智能开发多是商业行为,亦会对数据在先权利者造成负面影响。由此,在现有制度体系内,人工智能合法获取训练数据存在制度困境。数字社会运作模式的变革是该合法性困境的产生原因。传统立法依存于契约社会,规范的是人类的个别行为,强调的是权利主体的自决。但是在大数据模型场景中,人工智能服务提供者与数据在先权利者的个别协商已经无法实现。这动摇了意思自治的社会根基。对此,需要基于数字社会运作模式和数据特征,以充分发挥数据要素生产效能为目标,建构适应人工智能发展的数据制度。
二、人工智能训练数据合法收集的传统制度困境
人工智能的训练需要海量的数据,涉及海量的数据在先权利主体,导致意定许可不具有实践操作性。在现有规范体系内,合理使用制度、法定许可制度亦存在适用困境。这就出现了法律系统规制失灵,引发人工智能“非法兴起”之现象。因为在人工智能训练数据合法性困境中,著作权合理使用制度、法定许可制度的相关讨论更具代表性。我们可依托著作权法相关制度,并兼顾其他领域展开讨论。
(一)合理使用制度的解释困境
著作权合理使用制度以实现公共利益为核心,旨在推动著作权主体保护与促进知识广泛传播的双向平衡。我国《著作权法》第24条明确了合理使用的12种类型,并以“法律、行政法规规定的其他情形”作为兜底规定。《著作权法实施条例》第21条规定,著作权合理使用的“三步检验法”,即“范围上的特例”“不影响作品正常使用”和“使用结果不得影响著作权人合法权益”。关于著作权合理使用制度,美国法采用开放的立法模式,明确了“使用的目的和特征”“使用作品的性质”“使用作品的数量与质量”和“对相关作品价值和市场潜在影响”四大考量原则。这被视为美国著作权最重要和最负盛誉的限制手段。但是著作权合理使用制度的封闭与开放的双重立法策略,都难以真正解决人工智能训练阶段数据利用的合法性困境。
首先,我国著作权合理使用制度在解释上具有封闭性,难以为人工智能使用训练数据提供合法性依据。虽然2020年《著作权法》增添了“法律、行政法规规定的其他情形”的表述,但是并未改变著作权合理使用制度在解释上的封闭性。一是,人工智能的特别规定并不能依托“特别法优于一般法”的法理,突破著作权法中合理使用制度的封闭性。为推动和优化人工智能发展,我国颁布了作为人工智能领域特别法的《生成式人工智能服务管理暂行办法》。该暂行办法作为部门规章,与著作权法并不属于同一位阶,而且在具体条文内容上也未能设置更具包容性的数据使用规则。二是,《著作权法实施条例》第21条不能推动合理使用制度在解释上的开放性。该条是对《著作权法》第24条的解释与限定,受限于“依照著作权法有关规定”,并非不受约束的一般性判断。此种立法模式所引发的结果不是推动著作权合理使用制度的开放性,而是导致该制度在解释上的进一步闭合。
其次,在开放判断模式下,人工智能使用训练数据也无法通过合理使用原则性判断标准的检验。一是,人工智能使用训练数据的目的是最终实现商业化。但是即便在合理使用的开放式判断标准中,仍需要满足著作权使用的非商业化目的等要求。而且人工智能服务提供者只有源源不断地获取利润,才能为人工智能的创新发展提供持续性动力,推动相关技术的不断进步。二是,人工智能生成的作品会对原始作品产生市场替代,对著作权者利益造成实质损害。人工智能通过对作品等语料的学习,不断完善大数据模型,最终形成具有市场价值的人工智能技术,并投入市场以获取相应收益。而人工智能进入市场之后,在提升生产效率的同时,在某些场景下可能会对相关主体的作品产生替代,抢占相关主体的工作机会和作品的市场份额。例如,美国好莱坞编剧群体认为人工智能复制其作品,然后再生成类似产品,影响其作品的市场份额,而发起了编剧大罢工行动。
为摆脱合理使用判断时“商业性和非商业性”绝对二分的僵硬判断标准,在实践和理论上发展出了“转换性使用”概念,以更有弹性地激活合理使用制度。“转换性使用”是指在使用作品时不是对原有作品的简单再现,而是在使用过程中创设出了新的内涵、性质和目的。“转换性使用”在数字立法层面也有所展现,欧盟《数字单一市场版权指令》第3、4条针对数据挖掘行为,制定了强制性的合理使用及为权利持有人提供选择退出机制的例外。《日本著作权法》第30-4(ii)条、《新加坡著作权法》第244条专门针对数据挖掘与训练制定了免责条款。但是即便在法律和实践上实现了突破,相关主体使用数据的结果不能对著作权主体造成“不合理的损害”。
在此背景下,人工智能学习对数据的使用难以满足“转换性使用”的基本要求。人工智能即便存在学习阶段和输出阶段的区分,并进行了非表达性产出作品的技术设置,也不能为合理使用制度提供新的解释空间。美国有学者认为,人工智能训练是将作品特征数据化,属于非表达性的数据使用,而著作权并不保护思想和社会事实,由此可将人工智能训练阶段对作品的使用视为合理使用。但是人工智能输入端难以与输出端完全切割。人工智能将作品数字化本质上是对其相关“风格”的数字化提炼与存储,目的是输出“具有相关作品特质的作品”。因为作品风格和受众的相似性,人工智能生成的作品会对原始作品产生一定程度的市场替代,进而损害著作权主体的权益。由上可见,在理论层面,“转换性使用”理论亦不能赋予人工智能训练数据使用的合法性。
此外,为避免私权利的绝对保护对社会发展的不利影响,合理使用制度的重要价值在人格权、个人信息等领域也日益受到重视。即便是商业秘密、私密信息亦可以被合理使用,但需要结合比例原则、成效与付出关系等进行综合判断。上述合理使用制度与著作权合理使用制度具有类似性,前者可以视为对后者的借鉴,在判断基准上都强调公益性、非商业目的和使用结果对原权利的非侵害性。
(二)法定许可制度的适用困境
法定许可制度是非合意使用他人作品的合法性基础之一,是指在特定情形下,可以不经他人许可使用他人作品,但需要支付相应报酬。法定许可制度是对著作权绝对性的限制,可以用于商业目的,并避免了谈判、作品垄断带来的低效率。我国《著作权法》等规范明确了教科书、报刊转载、制作录音制品、广播电台等法定许可的类型。《著作权法实施条例》第22条对法定许可报酬的获取作出了规定,明确使用作品的报酬应由国务院著作权行政管理部门会同国务院价格主管部门制定、公布。在人工智能训练阶段,著作权法定许可制度的引入,虽然可以兼顾各方利益,简化作品获取环节,且会支付给著作权主体相应报酬,能够在一定程度上实现双方的权益平衡。但是该制度无法适应人工智能规模化的数据处理场景,难以成为人工智能使用作品训练的合法性依据。
第一,法定许可制度的定价困境。在训练阶段,人工智能使用作品学习,并不注重某一作品的个体性价值,而是需要海量数据的集合、协同,来不断优化大数据模型,提升人工智能的性能。在此语境下,作品价值的实现不同于传统意义上的作品价值,而是作品数字化后的数据价值。在大规模数据处理时,单个作品甚至可能并不产生具体价值。此外,受“算法黑箱”“自动化”“规模化”等影响,人工智能服务提供者可能并不知悉获取了何种作品,更难以区分所获取作品的权利主体、数量、质量。在此情形下,国务院价格主管部门面对海量的训练语料,缺乏对相关语料科学定价的能力与精力。
第二,法定许可制度中的报酬支付会阻碍人工智能发展。一是,作品的报酬支付增加人工智能的开发成本。人工智能使用训练数据最鲜明的特征就是“规模化”。在此背景下,即便要求人工智能服务提供者支付极低的作品报酬,但是数以亿计作品仍会产生不可估量的研发成本。而且人工智能训练属于商业化利用的前置阶段,在未获取收益的情形下承担过高成本,无疑会严重阻碍人工智能的发展,也会形成过高门槛,阻碍中小企业进入人工智能领域。二是,人工智能训练数据的报酬支付行为难以经过成本收益原则的考察。类似于个人信息的利润分配会产生难以克服的成本困境,大规模的作品同样会产生巨大的报酬支付成本,甚至可能会出现“支付行为的成本”大于“支付的报酬”的情形。
第三,集体管理制度的引入,难以克服报酬支付等困境,并会增加新的制度障碍。在人工智能训练语境中,集体管理机制虽然具有作品许可协商上的成本优势,但是存在诸多适用困境,难以克服作品使用成本较高、作品语料计价困难、报酬支付困境等问题。有些语料可能没有集体管理组织,缺乏协商对象。而且语料本身也处于动态变化之中,人工智能也需要不断地学习,这就需要相关主体进行不断地谈判。这无疑会增加谈判成本,降低人工智能的研发效率,影响人工智能的迭代速度。此外,集体管理制度的引入亦会产生诸多新问题。例如《著作权集体管理条例》第27条规定,应当提供使用的作品、录音录像制品等的名称、权利人姓名、使用方式、数量、时间等信息。而针对数以亿计的人工智能训练语料,上述法定责任并不具备实践可操作性。
在数字时代,有观点,认为数据处理者应当享有数据产权,但是为避免其“垄断”数据,独享数据的时代红利,应当要求其不得拒绝其他主体数据交易的请求,且需要对数据的价格上限进行限制。但是数据领域的法定许可与著作权领域的法定许可存在巨大差异,前者指向的是整体视角下的规模化数据集合或数据产品,存在协商与价格支付的可能性。而后者指向的则是个体视角下的少量作品集合,无法实现个别协商和对价支付,更难以将报酬支付到具体的权利主体。
三、由权利保护到数据要素利用:训练数据规制的理论转向
数据权益具有综合性,涉及数据利用、著作权、人格权、个人信息、商业秘密等。这就决定训练数据一方面属于新型生产资料,另一方面又负载着各种在先权益。而人工智能发展必然要使用数据语料,且客观上无法获得许可,进而会引发权益保护与数据使用之间的紧张关系。
(一)由权利保护转向数据要素利用的理论基础
现有研究主要是从权利保护视角来讨论人工智能训练数据的合法性问题,而忽视了强调“发展与保护平衡”的数据治理分析路径。传统权利保护思路是私法思考模式,以传统契约社会为基础,以个人权益的合意变动为基本遵循。而数据治理体系则是尊重数据特征和数据运作模式,以发挥数据要素潜能为目的,旨在平衡权利保护与数据利用的综合制度体系。为释放数据产能,我国制定了《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称《数据二十条》),欧盟颁布了《数据治理法案》,美国、日本、韩国、新加坡等也通过修法不断破除人工智能发展的制度障碍。为适应数字社会发展,人工智能数据利用规则的建构,应从传统语境转向数字语境,从个体权利保护思路转向数据要素利用思路。
第一,数据要素作用发挥不是否定权利保护,而是将之纳入“保护与发展”的利益衡量框架。在数字时代,作品、个人信息、商业秘密、人格要素等多以数据形式存续,并被转化成新型生产资料。随着物质世界全面的数字化,在数字语境内对相关权利的保护,也因应转化为数据合法利用问题。受数据资源属性和利用规模化的影响,数据利用目的可以超越公益目的和数据在先权利者意思自治的限制。此时,我们不仅需要考量权利保护与数据利用,还要关注数字经济发展需求、社会长远利益和国际竞争,以便作出更为科学的制度选择。
第二,传统权利保护规范并无应对数字社会变革的立法预设,无法应对人工智能数据利用问题。著作权法等传统规范处理的是人类交互活动,而非具有准主体性的人工智能,规制的是个别行为,而非规模化行为。传统立法认为个人权利的让渡与限制,需要在自我限制和彼此关照的基础上进行自由磋商,而合意许可的例外多是为了实现公共利益。而在人工智能场景中,数据使用的规模化和数据的要素化成为相关权益限制的理论根基。数据使用的规模化预示着传统社会磋商机制的失灵,导致意思自治无法发挥权利变动的制度功能。数据的要素化则要求弱化个人控制,强化社会控制,保障数据的开放性。
第三,借助数据要素利用规制体系,可以引入多种制度工具,实现数据利用过程中的多层次平衡。在数据要素利用的系统性规制中,存在着“数据开放”“数据产权”“可用不可见”“算法透明”“算法解释”“数据复制与删除”“利润分配”等制度工具。这些制度工具在数据利用讨论中已经有了相对成熟的论证和立法尝试,可以充分发挥数据的要素潜能,赋予人工智能训练数据合法性,并兼顾数据在先权利保护。
此外,人工智能训练数据合法性理论的转向具备政策基础。人工智能训练语料本质上就是对相关内容的数据化和要素化,可以将之纳入数据要素利用规范的范畴。《数据二十条》是数据利用的纲领性政策文件,为数据立法提供了政策支撑与指引。该文件确立的“构建适应数据特征、符合数字经济发展规律、保障国家数据安全、彰显创新引领的数据基础制度”的指导思想,旨在推动数据的社会使用,推动数据流通。在此政策背景下,人工智能训练数据合法性制度的建构,必然要尊重数据特征,突破传统立法范式,以追求数据要素作用发挥为目标。
(二)数据要素利用视域下训练数据合法性的理论建构
新型社会运作模式突破了既有法律制定时的场景预设,对其构成了系统性挑战,并呼吁着契合时代发展的新型理论模型。人工智能使用的训练数据是作品等数字化后的产物,属于数据要素功能发挥的范畴,应遵循数字治理的基本准则。在数据治理的理论体系中,人工智能未经许可使用语料训练,具备合法性。
第一,数据要素利用规范秉承“包容审慎”的治理理念,核心目标是释放数据的要素潜能。《数据二十条》开宗明义,认为数据作为新型生产要素,是智能化的基础。训练数据的数量和质量是人工智能强大与否的关键,而人工智能则直接决定着数字经济发展的成败和世界竞争的胜负。正因如此,世界各国都在积极设立适应人工智能发展的数据使用规范。欧盟《关于数字单一市场版权及相关权的指令》第4条突破了数据挖掘中非商业目的的限制。在英国,《人工智能与知识产权:版权和专利:政府咨询回应》的结论部分,认为应将该法§29A合理使用情况扩大到商业用途。但是我国立法并未关注到训练数据的合法困境,不利于落实2023年中央经济会议“加快推动人工智能发展”的政策要求。
第二,为发挥数据的要素功能,应弱化个人控制,强化数据资源属性。在数字时代,数据是社会改善、企业创新的资源,也是科学文化艺术进步的资源池。正是因为数据对数字社会运行的重要意义,有观点将数据定位为数字时代的必要设施。受数据公共性的影响,为确保数字社会的正常运行,推动依托数据资源的行业发展,应弱化对数字场景下数据在先权利的绝对性保护,不能将负载在先权利的数据视为完全的私有权益,并由此导向“私权绝对”的保护模式。
第三,数据在先权利与数据要素利用的二阶分化,可以缓和权利保护与人工智能发展的紧张关系。人工智能在训练阶段对数据的使用,不同于传统社会中对作品、个人信息的直接使用,而是经过数字化技术改造后的使用。人工智能使用数据的目的也不是对作品表达的复制或对个人信息可识别性的需求,而是通过“非表达性”“可用不可见”的数据技术处理,来完成自我学习。在这一过程中,虽然原始数据与著作权、个人信息、商业秘密等具有直接关联性,但是经过处理后的数据,已非原始数据,且生成了新型的“数据财产权”。这弱化了数据在先权利与数据资源的直接关联,形成了不同的权利层级,例如数据财产权设置中“人财二分”的制度设计,可以将数据训练的负面影响限制在可接受的范畴。
第四,“两头强化,三方平衡”理论可以赋予人工智能非经许可获取语料理论正当性。在数字时代,为缓和社会发展与个体权益保护之间的紧张关系,可以引入并扩张“两头强化,三方平衡”理论的适用场景,对相关行为进行原则规范,而避免设立刚性的禁止条款。从“两头强化,三方平衡”理论出发,人工智能在使用作品等语料训练数据时,应当强化对权利主体核心利益的保护,例如隐秘个人信息、关键商业秘密,避免此类“小数据”沦为公共物品,同时强化对其他权利客体的数据利用,例如一般个人信息等,以推动数据经济发展,并实现数据在先权利主体、数据使用者、国家公共利益之间的利益平衡。在此背景下,人工智能使用语料训练具有合法性,正是为实现利益平衡而弹性调适的结果。
数据在先权利保护的弱化是数字时代发展的必要结果。随着数字技术的发展和对社会生活的嵌入,人的社会性不断强化,智慧成果、个人信息等日益成为社会发展的重要资源。与此同时,数据的规模化处理和数字社会的算法化运作,又导致意思自治丧失了制度功能发挥的社会基础。准此,数据利用语境下的个体利益之安排,必然要从意定逐渐走向法定,由个人控制转向社会控制。当然,这也对相应法律规范的科学性、利益上的均衡性提出了更高的要求,以避免社会发展建立在不当戮害个体权利的基础之上。
四、适应人工智能发展的数据制度建构
人工智能服务提供者能否合法、低成本、高效地获取训练数据资源,直接决定着人工智能发展与竞争的成败,进而会影响我国数字经济的发展质量和速度。为推动人工智能等数字经济的发展,实现数据制度建构的重要目标,需充分考量人工智能发展规律和数据特征,完成适应人工智能发展的数据制度建构。
(一)一体化建构:适应人工智能发展数据制度的建构模式
在数字时代,适应人工智能发展数据制度的建构,应打破著作权、隐私权等权利领域的限制,基于各项权利内容数据化后的共性,聚焦于数据要素作用发挥,一体化建构人工智能训练数据的使用制度体系。
第一,数据制度一体化建构适应人工智能的发展方向。人工智能存在通用式人工智能和传统人工智能两种类型。通用式人工智能旨在解决多场景的任务,在不同场景中都具备适应性。随着ChatGPT的推出和表现出的强大功能,社会普遍重视通用人工智能发展。2023年4月28日,中共中央政治局召开会议,也强调“要重视通用人工智能发展”。通用人工智能可以通过对海量数据的学习,形成社会认知模式,并不断经由实验性反馈调整和改进模型,进而逐渐具备执行复杂任务的能力。在实践中,生成式人工智能的数据来源包括个人信息等平台公共数据和作品等,涉及个人信息权益、隐私权、著作权等。由此,通用式人工智能发展离不开不同领域的数据,呼吁着对不同领域数据的一体化规制。
第二,数据制度的一体化建构是对数据本质属性的尊重。在此背景下,虽然限定于某一具体权利场景的讨论更为聚焦,但是也存在受限于既有理论窠臼的风险。而且人工智能训练数据合法性困境的彻底解决,也不能仅关注某一特定权利领域,而忽视社会全方位数字化带来的共性问题和新型理论支撑。此外,无论何种权利客体在数据化后都会嵌入数据的基本特性,具备要素化功能,需要规模化使用,并嵌有公共属性,进而推动相关制度的同质化。例如个人信息保护、人格权保护、著作权保护、商业秘密保护等在制度选择上日益趋向一致,都在强调以“合理使用”应对数据在先权利对数据利用的一般性限制。这表明跨越权利领域,对训练数据合法性制度进行一体化建构,具有理论根基和实践可行性。
第三,训练数据合法使用制度的一体化建构,有助于有效消除人工智能训练数据板块化分割的制度弊端。从规制效果看,在知识产权法等单一规范部门内解决训练数据合法制度建构问题,既不适应人工智能的通用式发展方向,也会忽视作品、人格等事项数据化后所展现的要素功能和公共属性,无法从根本上解决人工智能训练数据的合法性困境。此外,人工智能训练数据的一体化规制,也可以借助人工智能立法、数据立法的“东风”,集中解决人工智能的发展困境。
(二)有限的许可豁免:数据收集端适当开放的制度内容
许可豁免制度是指在特定场景中,人工智能服务提供者为训练人工智能而抓取数据时,可以不经过数据在先权利者的意定许可。该制度本质上是数据收集端适当放开的具体体现。人工智能视域下的许可豁免规则不同于“合理使用”“法定许可”,既可以用于商业目的,又不必然要支付相应对价,同时也认可了数据在先权利者为人工智能发展所作出的贡献。在人工智能训练阶段,数据获取的许可豁免制度之确立存在以下理论支撑:
一是,人工智能是第四次工业革命的基石性技术,属于新质生产力的重要组成部分,是数字经济发展的核心推动力。对此,在制度层面,需要通过制度建构、制度优化来消除人工智能的发展障碍,以助力人工智能高质量发展和快速迭代。二是,在数字时代,数据具备独立的社会生产价值,其社会属性、公共属性不断增强,成为人工智能发展的必要设施。为推动人工智能发展,就必然需要打破对数据在先权利的绝对保护,充分释放数据的生产效能。三是,人工智能对数据的非意定许可、免费使用,并不是因为作品等原始数据没有价值,而是价值极其微小,且现阶段支付报酬的成本过高,会严重阻碍人工智能的发展。同时,人工智能对数据的规模化使用,也决定服务提供者在客观上无法获取数据在先权利者的同意。四是,许可豁免规则是进行综合利益衡量的结果,而且借助数据治理制度工具也可以在一定程度上保护数据在先权利。不可否认,人工智能使用数据训练,会对数据在先权利造成负面影响,但是人工智能代表着先进生产力,可以极大地提升社会生产力,会带来更大的社会收益。由此,立法上应优先保障人工智能发展,并通过制度设计控制许可豁免制度可能带来的负面影响,借助利润分配等制度工具,实现最终的利益平衡。
许可豁免规则并不具有普遍性,而是对人工智能训练阶段特殊情形进行利益衡量的结果,为保障著作权等数据在先权利,应对其适用场景、指向对象、获取方式和使用目的进行相对严格的限制。第一,人工智能在训练阶段才能适用数据获取的许可豁免规则。在数字时代,人工智能的发展决定着我国能否抓住新一轮科技革命和产业变革的机遇,而海量数据的获取是人工智能发展的前提。在此背景下,海量数据获取成为人工智能发展的前置性要件和必然选择。许可豁免规则是在此特殊场景生态下产生的特殊规定,但是在其他场景中的数据处理,则应慎用数据获取的许可豁免规则。
第二,许可豁免机制的适用范围不及于数据在先权利者的核心利益。《数据二十条》在“完善治理体系,保障安全发展”工作原则中,强调数据要素潜能的发挥,应统筹发展和安全,强化数据的分类分级管理,“该管的管住,该放的放开”。为平衡好数据在先权利保护和人工智能发展,需要对人工智能的数据抓取对象进行限制。人工智能获取数据应避免侵害数据在先权利者的核心利益,不能抓取未发表作品、敏感个人信息、核心商业机密等核心,但是对公开作品、一般个人信息、平台内部一般数据,应准许人工智能收集与处理。
人工智能获取数据在享有许可豁免“特权”的同时,应充分保护数据在先权利者的利益,充分接受国家机关、权利主体的监督,畅通数据在先权利者的事后救济途径。这就需要确保人工智能获取数据方式、处理流程的透明性,并避免用非法工具、非法手段获取数据。人工智能服务提供者应确保算法的可信、可控,并在现有技术条件下尽量实现算法的透明、可解释性,对数据利用的“损害”与“收益”进行衡量,并引入比例原则作为评价工具。此外,人工智能在处理数据时,应对相应数据进行技术加工,避免直接侵害数据在先权利。为避免训练数据用于他途而扩大对数据在先权利的侵害,人工智能服务提供者应明确数据使用目的,确保数据仅用于推动人工智能的学习,应规避人工智能输出作品与原始作品存在表达性重复等结果的出现,不能开展针对数据在先权利者的“商业秘密计算”“隐私计算”等活动,否则就动摇了许可豁免机制的合法性基础。
(三)数据收集端适当开放的配套制度
在进行人工智能数据制度建构时,即要尊重数据在先权利,又要能够促进数据的高效生产与有效利用。在适当放宽数据收集端限制的同时,需要通过完善数据在先者权益、强化人工智能服务者主体责任和完善收益分配机制,来确保多方主体之间的利益均衡。
1.数据在先权利者权利体系的制度建构
数据在先权利者自我保护权利的设定是人工智能数据获取许可豁免的对冲机制。在肯认数据在先权利者为社会发展作出牺牲的基本认知下,依循“两头强化,三方平衡”的思考进路,为避免人工智能训练数据相关规则的内部权益失衡,应强化保护数据在先权利者,确保其主体性,赋予其新型权利,并通过技术设置保障新型权利的可操作性,以强化数据在先权利者的自我保护能力。
第一,数据在先权利者应享有充分的知情权。在数字时代,因受信息过载、自动化、专业鸿沟导致的交互缺失、决策过频等影响,知情同意原则缺乏适用的社会语境,且难以真正发挥权利主体实现权利自主控制的制度效能。此时,应解绑知情与同意之间的关联关系,强化数据在先权利者的知情权,确保人工智能算法的透明性,而弱化对用户同意的要求。而且数据在先权利者的知情权是其进行事后救济、引入公共监督的基础,是表达拒绝、删除、携带等权利的前置条件,是避免人工智能滥用数据的重要手段。准此,应赋予数据在先权利者知情权。
第二,数据在先权利者拒绝权、删除权的场景化设置。数据在先权利者既包括著作权、人格权、个人信息等主体,也包括与人工智能服务提供者有竞争关系的平台经营者。因为权利类型和主体特征不同,会对数据在先权利保护机制的具体建构造成影响,进而联动影响拒绝权、删除权的具体设置。为充分发挥数据的生产效能,确保数据的丰富性,推动人工智能的发展,不宜承认非自然人主体、财产性权益主体、平台经营者等主体享有数据抓取的拒绝权和删除权,否则可能形成数据垄断、数据孤岛等问题,阻碍数据的汇集,进而从根本上影响数据产业的发展。而且经过技术处理,作品、商业秘密、信息等作为训练语料,已经与原始数据发生了相对分离,与原始数据主体之间的利益联系在一定程度上发生了断裂,即便否认此类主体的拒绝权、删除权,也可以将损害限制在可以接受的范围。但是人格权利具有宪法、民法双重属性,直接决定着“人之所以为人”,基于人格权益优先保护的原则,由此数据在先权利者应就具备人格利益的数据享有拒绝权、删除权。
第三,数据在先权利者应享有算法解释权。算法解释权是《个人信息保护法》第24条第3款所明确的法定权利,旨在矫正算法自动化运行中正当程序缺失的问题。因为人工智能即智能算法,存在着算法黑箱,在运作上存在着正常程序缺失等问题,且个人信息本就是人工智能训练数据的来源之一,所以算法解释权在人工智能训练数据场景中同样具有存立基础。此外,算法解释权的引入,可以督促人工智能服务提供者积极履行主体责任,推动人工智能向可知、可信、可控、可用发展。针对算法解释权的行使,为保护商业秘密和降低运行成本,数据在先权利者仅得请求人工智能服务提供者事前披露算法的基本情况。因为受人工智能处理数据规模性的影响,为避免人工智能服务提供者陷入繁杂的披露行为,减少运营成本,不能请求其解释算法对具体问题的具体处理。此外,服务提供者应重点告知或公示人工智能处理数据对数据在先权利者可能的不利影响,使得个人能够决定是否允许算法继续处理个人权利。
2.人工智能服务提供者的主体责任制度
“主体责任”作为法律概念在我国立法中十分常见,旨在要求社会主体承担与其角色定位相适宜的主体义务。人工智能服务提供者的主体责任在现有立法和政策中也有所彰显。《互联网信息服务算法推荐管理规定》第7条明确,算法推荐服务提供者应当承担安全主体责任。《数据二十条》强调构建政府、企业、社会多方协同的治理模式,明确各方主体责任和义务,完善行业自律机制。人工智能服务提供者承担主体责任的理论内核应是反身法理论,本质上属于受规制的自我规制。准此,法律不能干预人工智能服务提供者的具体运作,而只能在宏观层面设定义务群,并建构协商框架。具体到人工智能训练数据场景,人工智能服务提供者应着重落实以下主体责任:
第一,人工智能数据获取、训练的透明性责任。人工智能具备“黑箱属性”和解释难题,其中内蕴有巨大的社会风险,而且会严重影响数据在先权利者知情权等权利的实现,阻碍外部监督。在此背景下,需要确保人工智能运作上的透明性,具体可以细化为以下方面:一是建立算法披露机制。凡涉及重大、敏感问题的算法活动或事件,人工智能服务提供者应主动披露,积极落实人工智能的备案要求,并及时、全面告知可能会产生的风险和影响。二是确保算法的可控、可信。在人工智能训练中,应积极推动算法技术等满足透明和可解释等基础要求,以此来架构人工智能算法开发、系统部署和技术使用的基底性规范,并通过人工智能的算法设计与算法验证能够证明该算法是透明和可解释的。
第二,人工智能服务提供者的安全责任。在数字时代,人工智能功能的进一步强大,对社会的嵌入程度不断深化,影响力不断扩大。受此影响,在一定程度上,人类的主体性则在不断弱化,甚至面临着生存性风险。在此语境下,确保人工智能安全可控,维护人类主体性,已经成为智慧社会发展的最基本准则。为此,《新一代人工智能治理原则》高度关注人工智能系统的安全,要求提高人工智能鲁棒性及抗干扰性,具备人工智能安全评估和管控能力。为确保人工智能的安全发展,在人工智能处理数据时,应积极履行安全责任,完善安全审计机制,优化数据安全技术,以确保数据存储、使用的安全。此外,在公司内部,人工智能服务提供者应建立健全数据安全审查与内控机制,确定数据安全责任人,明确相关人员的名单与联系方式,确保责任到人,以督促安全职责的真正落实。
第三,保障数据在先权利者权利行使的主体责任。人工智能的数据获取行为,不同于“人-人”之间的活动,本质上属于“技术-人”的交互。受算法技术及其规训功能的影响,数据在先权利者很难表达个人意愿,这就形成了现代单向度的社会环境,并由此在数字空间孕育出单向度的人。在此语境下,如果人工智能服务提供者不在技术层面对数据在先权利者进行支持,其知情权、删除权等权利就无法真正落实,无法实现自我权利的保护。准此,人工智能服务提供者应通过技术手段,并配备相应的工作人员,以确保数据在先权利者权利的简便行使,完善对知情请求、删除请求等权利行使的回应机制。
第四,数据脱敏责任。数据脱敏旨在尽可能实现消除数据的关联性、逆向复原性及可识别要素,不仅包括个人信息的“可用不可见”规则,也包括对作品、商业秘密等原始数据的技术处理。人工智能服务提供者承担数据脱敏的主体责任,是为了维护训练活动场景、目的的特定性,实现人工智能训练阶段与生产阶段的相对分离。在许可豁免规则所能涵摄的场域内,人工智能获取数据的目的应被限定为基于作品等语料数据化的学习训练。对此,人工智能服务提供者需要严格落实数据脱敏责任,以确保个人信息的“可用不可见”、作品的“非表达性”学习与输出、商业秘密的去标识化等要求。而且借鉴个人信息处理的必要性原则,人工智能服务提供者不能通过加密处理来完成数据脱敏,而应通过匿名化、去标识化来完成数据脱敏,消除“隐私计算”的可能性,否则就超出了人工智能数据收集的目的。此外,数据脱敏应考虑到执行成本,仅需满足在现有技术水平下具有不可恢复性,以平衡好安全与发展的关系。
3.探索人工智能收益的分配机制
《数据二十条》强调“按照‘谁投入、谁贡献、谁受益’原则,着重保护数据要素各参与方的投入产出收益,依法依规维护数据资源资产权益,探索个人、企业、公共数据分享价值收益的方式”。现有研究认为,劳动价值论是数据确权的理论基础,从劳动贡献角度看,虽然人工智能服务提供者处理作品等语料,付出了诸多人力物力,应依据贡献合比例地配置相应的回馈利益。但是数据在先权利者的作品、个人信息等是数据的来源,应对相关数据资产享有权益。“巧妇难为无米之炊”。在人工智能使用语料训练时,在劳动的价值链条上,不能完全将原始数据与训练数据进行分割,即便进行了去标识化等技术处理,亦不能忽视作品、个人信息等对人工智能学习成长作出的贡献。准此,为实现公平,规避道德风险,应保障数据在先权利者获得相应补偿。
人工智能收益分配机制不同于法定许可中的对价支付,本质上是对扣除运营成本后的收益进行分配,而非属于成本的“原材料购买”。为推动人工智能发展,充分发挥数据的生产效能,人工智能服务提供者在产品研发、学习阶段,可以免费使用他人数据开展数据训练,而在人工智能市场化运作盈利后,应尝试对盈利部分进行利润配置。此时,语料类似于生产经营中的“入股”,而非购买的生产“原材料”,这样既尊重了数据在先权利者的贡献,承认人工智能服务提供者获得了额外收益,也可减少发展阶段的成本,由社会整体共享数据要素红利。当然,人工智能广告等收益与模型训练数据之间的关联度较低,不宜纳入分配范畴。
在理论上,人工智能服务提供者所获取的收益要与数据在先权利者分享,应实践中探索通过区块链技术、用户信息收益账户、集体管理组织等方式,尝试贡献份额确定和利润分红交付。但是在规模化运作的数据处理场景中,个体化的权益保护会遇到成本、技术等实践困境,进而影响法律制度的具体架构。而且法律制度的生成,是社会生活、经济、文化、政治等现象相互结合,紧密互动与协同共振过程中的理性产物,是利益平衡的结果。因此,如果数据来源者数量庞大以及数据价值评估困难,导致利益配置的成本过高,会违背制度设立与运行的经济性。对此,在制度层面可以逐步探索通过强化社会责任、设立公益基金账户等形式,并借助第二次分配、第三次分配等制度工具,推动人工智能服务提供者将获取的超过比例收益的份额回馈于社会或数据在先权利者。
结 论
数字技术嵌入社会生活推动了社会运作模式的变革,突破了传统立法的社会基础,并呼吁探索适应时代发展的新型数据规制路径。人工智能训练数据合法利用的制度建构即新型制度建构的子领域。传统立法中的“合理使用制度”“法定许可制度”都无法解决训练数据的合法性困境。这背后的根本原因是传统法律强调的是以协商为基础的个别化行为,而人工智能的数据处理行为则是规模性行为,客观上无法实现个别协商。社会全方位数字化不断强化数据的资源属性,且大数据模型可能涉及数以万亿计的个体权益。这就导致个体权利保护与数据公共性、数据规模化利用与个体利益保护的紧张关系。既有法律体系所依托的个体与个体之间授权模式,在大数据场景已不具可操作性,如果恪守传统合法性来源,必然会阻滞人工智能的发展。面对社会变革,法律也应因时而变。人工智能训练数据合法利用制度的建构,应借助数据治理理论,摆脱“非黑即白”的合法性判断模式,肯认数据在先权利者的牺牲和服务提供者获取了额外收益,并借助多种制度工具实现最终的利益均衡。
END
往
期
推
荐
点击左下角“阅读原文”跳转到《荆楚法学》杂志网上投审稿平台,可以在线投稿!