本文已发表在《宁夏大学学报(社会科学版)》2024年第1期,内容有些许差异,以发表为准。
摘要:训练数据是决定模型质量的关键,囿于隐私、个人信息、知识产权等多重风险,亟需规范治理。训练数据的结构性、训练过程不可逆转性、风险低可控性使得传统硬法规制部分失灵,应转向软法和硬法的互动共治,二者的主辅关系作为精细化治理的必要有待研究。生成式人工智能的产业发展现状、监管机构情况、治理和发展目标三个指标影响了各国生成式人工智能训练数据治理路径的选择,透过中国国情的目标分析,生成式人工智能训练数据的软硬法协同治理框架逐步搭建,以硬法的结构式刚性谦抑与软法的立体式柔性扩张为协同趋势。
关键词:训练数据;协同治理;软法;硬法;中国式现代化
一问题的提出
以ChatGPT等应用为代表的生成式人工智能的出现对民众的日常生活和意识形态带来了前所未有的变革影响,一方面生成式人工智能以其通用性的能力提升社会各主体生产生活的效率;另一方面,生成式人工智能也给国家安全、公共安全和私人权益带来诸多风险。[1]如何有效治理人工智能类新技术,极大发挥技术对生产力的促进价值,同时确保国家和公民的基本安全。这不是一个局部化、区域化的阶段性问题,而是社会现代化进程中必然面临的全球化、普遍化的问题。现代化进程肇始于西方,欧美国家以工业革命为开端,开启了政治、经济、文化、社会等从传统向现代转型的过程。[2]在法治现代化的进程中,“硬法”和“软法”两种模式不断交替作用影响新技术的发展,在面对人工智能治理的路径选择上,欧盟和加拿大选择了“硬法为主、软法为辅”模式;美国和新加坡选择了“软法为主、硬法为辅”模式。规制过“硬”则限制发展,规制过“软”则影响安全。习近平指出:“世界上既不存在定于一尊的现代化模式,也不存在放之四海而皆准的现代化标准。”[3]当我们在面临新技术、新应用的安全治理与发展促进间的紧张关系问题时,提出符合中国社会发展目标,且对人类和平与发展产生积极价值的中国式现代化治理方案,是一条可探索之路。
生成式人工智能的风险问题已受到全世界广泛关注,其中用于大模型训练的数据风险尤为关键。新西兰隐私专员办公室发布《生成式人工智能使用指南》指出相关的潜在隐私风险中首项就是训练数据风险。训练数据决定模型质量,大模型开发者跑马圈地式获取各类数据用于模型训练以占领先发优势,训练数据存量有限、日渐供给不足,隐私、个人信息、知识产权等各类侵权纠纷频发,生成式人工智能应用的底层安全性存疑。训练数据的风险问题或将掣肘生成式人工智能的高速发展。训练数据已纳入我国的硬法规制,但目前的精细化程度尚不足以实现有效治理。国家互联网信息办公室于2023年7月13日发布《生成式人工智能服务管理暂行办法》要求生成式人工智能服务提供者依法开展预训练、优化训练等训练数据处理活动,规定应当使用具有合法来源的数据,但如何界定合法性,数据流转链条中的部分环节不合法是否影响后续的合法性等问题仍存在模糊地带;此外,规定“不得侵害他人依法享有的知识产权”的解释空间巨大,在《著作权法》尚未将商业目的使用纳入合理使用的背景下,服务提供者获取数据时应进行知识产权审查,不仅合规成本显著提高,还使得训练数据供给愈加捉襟见肘,与促进产业发展的立法目的略有背离。硬法过于笼统,难以掌握规制的尺度;而软法不成体系,未形成稳定的治理生态。
训练数据的规制需求迫在眉睫,但我国现有的研究明显不足。国内以生成式人工智能整体风险规制的研究为主,也有学者从软法之治切入,但仅限于人工智能伦理治理,[4]针对生成式人工智能训练的研究侧重于数据财产权构建而不是行为规制,短期内无法得到有效应用;[5]以软法和硬法互动关系的视角切入训练数据治理的研究付之阙如。国外已有学者开始探讨训练数据的知识产权问题,[6]还有相当数量的学者关注软法在人工智能产业治理中的作用和价值,[7]但聚焦训练数据的软硬法协同规制研究依旧空白。训练数据的技术属性和法律属性是什么?硬法和软法如何互动衔接?规制路径选择的指标有哪些?本文将以训练数据为切入点,探讨软法和硬法在生成式人工智能规制路径中的作用关系,通过几个典型国家规制路径选择的比较分析,回答上述问题,并尝试提出符合国情、刚柔并济的中国式现代化治理方案。
二训练数据的属性分析
生成式人工智能训练数据不同于一般数据,它不仅是大模型的学习资料,也是影响参数构建的基础,训练数据的技术属性和法律属性分析有助于认识和解构其运行原理。
(一)技术属性
生成式人工智能的技术原理是通过语言大模型,对现有的数据集进行深度学习,通过对要素和规律分析生成新的数据。通过模型训练过程可归纳生成式人工智能训练数据的技术属性:
第一,结构性。用于大模型训练的数据包括原始数据集和标注数据集,其中原始数据集有三类来源:合作交易、爬虫外采和人机交互。[8]能够被模型直接识别并用于训练的数据应符合结构化特征,按模型可接受的格式对数据集分类处理。原始数据集中不符合结构化要求的应进一步加工处理,由人工或预训练模型对数据审核标注,形成标注数据集。
第二,训练过程不可逆转性。投喂给大模型训练学习的数据,已通过深度学习机制渗透至模型内神经网络的各个节点,不但影响了学习样本还影响了模型参数,且由于大模型所涉及的网络节点数量庞大、相互交错耦合,训练数据对下游的各个节点产生了不同程度的影响,无法进行逆转操作,即便训练数据包含侵权内容也无法通过数据删除来消除影响。目前也有通过机器不学习(machine unlearning)技术试图忘记训练集中的某些样本以及忘记模型依据样本集训练出的参数的研究,其实践效果待观察。[9]
第三,风险低可控性。大模型的生成能力取决于数据、算法和算力。其中,算法是模型内部对数据分析处理的逻辑设计,算力是实现大模型数据处理的物理资源供给,二者均可通过源头治理实现风险控制。而数据作为模型质量的关键要素,却面临着数据来源多样性、数据格式混杂性、数据审核标注成本高难度大等问题致其可控性大大降低。[10]训练数据的低可控性造成了生成式人工智能服务的失范风险,体现在模型具有发生逻辑误区、交互偏见、认知偏差、知识歧视、价值观误导、侵权行为等可能性。
(二)法律属性
“法律制度是理性构建的产物,也是利益平衡的产物。”[11]技术的法律属性体现为其映射的权益关系[12],训练数据作为各类权益关系的载体体现其复合属性。
首先是训练数据的人格权属性。生成式人工智能训练数据部分来源于用户交互内容和用户公开发布的信息,包含了个人信息、隐私信息等具有人格权属性的数据。近日谷歌更新隐私政策表示将利用网络公开数据训练旗下的AI模型,谷歌收集的公开数据包括大量用户使用和发布的数据以及个人信息,具有人格权属性。“AI歌手”产品是利用歌手公开发布的歌曲音频进行切片提取形成训练数据,提供给模型深度学习后用歌手的声音“演唱”新的歌曲。声纹和人的指纹、掌纹等身体特征一样,都具有唯一性、稳定性的特征。[13]用户在与生成式人工智能产品对话交互的过程中,可能涉及自己或他人的隐私信息,亦呈现人格权属性特征。
其次是训练数据的财产权属性。人工智能训练数据是经过劳动形成的数据财产,具有双重财产利益面向:排他性利益和竞争性利益。数据的排他性利益体现在数据持有者可以通过技术措施限制数据的流动,通过开放API接口获得数据收益。部分数据具有知识产权语境下的排他性利益,权利人可通过限制其他人对作品的复制、发行、改编等行为予以实现;其他数据持有人则通过控制数据调用接口的频次、数据量、时长等实现其排他性利益。训练数据的竞争性利益体现在当数据持有者已经通过数据商业化获得竞争优势后,其他竞争者的“搭便车”“抄袭”等“不劳而获”行为造成了实质性替代后果的可以被诉请停止。[14]当同质化的大模型之间竞争愈发激烈时,训练数据成为影响大模型性能的重要因素,数据供给方则变得奇货可居。[15]Twitter限制了用户每天能查看的推文数量,Reddit和Stack Overflow也计划向AI大模型的开发者收费,均基于训练数据财产权属性的排他性利益面向。“笔神作文”控诉“学而思”非正常访问爬取数据用于模型训练并要求停止爬取,其目的是对竞争对手的商业防范,是基于训练数据财产权属性的竞争性利益面向之诉求。
最后是训练数据的社会公共利益属性。AI大模型训练是深度学习过程,也是知识传递的教育过程,天然具有舆论导向性和价值观影响性,涉及社会公共利益的影响。在 OpenAI公布的GPT-3训练数据集中,英文语料高达92.65%之多,而排名第二位的法语只占1.92%。[16]ChatGPT是基于西方价值观和思维导向的数据集建立,其回答也通常迎合西方立场和喜好,可能导致意识形态渗透。[17]生成式AI的训练材料来自于人类的作品,因此它也有可能将人类作品中包含的歧视因素并继承下来,加州大学的计算机认知科学家Piantadosi对ChatGPT进行了测试,结果发现其普遍存在着种族偏见和性别偏见问题,比如它在对话中表示只有白人男性才会成为科学家。[18]
三硬法与软法的互动关系
法律有硬法与软法两种基本表现形式,其中“硬法”是指那些需要依赖国家强制力保障实施的法律规范,而“软法”则指那些效力结构未必完整、无需依靠国家强制保障实施、但能够产生社会实效的法律规范。[19]软法被称为“法”,应当具备“法”的一般特征,同时又不具备硬法的专有特征。软法有一定约束力,但不是国家强制力,可以通过与硬法的衔接互动获得强制力的执行保障;软法无须严格的立法程序,对立法主体也无明确要求;软法的争议解决一般不通过司法程序,而是主体间协商或仲裁。[20]硬法与软法长期以来优势互补、并行不悖,在社会发展的不同时期均展现其制度价值。当代码即法律的数字正义需求来临时,传统的硬法规制在应对人工智能等新技术新业态时显得捉襟见肘,而软法以其强大的包容性极为自然地承接了创新容错和规范引导的法治新任务,二者的共生共融成为数字时代的新命题。
(一)硬法的确定性与软法的灵活性
硬法的确定性是其得以普遍性适用的保证,也是硬法权威性的体现。硬法的确定性表现在法律适用的可预测性、法律程序的形式正义性和法律文本的稳定性,也就意味着硬法是不能快速迭代的,也不能是超前的,而是在大量实践经验的基础上,从变化万千的表象事实中提取出相对稳定的抽象理性。与之相对的,人工智能大模型的自我学习能力使得不确定性和不可预测性成为技术关键词。[21]生成式人工智能的不断更新升级使得不论是大模型还是数据训练过程都处在动态发展中,尚难以直接归纳其中的风险要旨,更无法通过横向的统一立法规制所有风险。欧盟试图通过统一立法表达其希望创造一个安全稳定的营商环境和保护欧洲公民权利的基本立场,但以风险分级为规制依据的统一法案无法直接适用于具体场景,仍然需要大量的配套解释文本,解释文本将依赖于软法的灵活性。硬法的确定性还体现在硬法位阶体系的严谨性要求,由于硬法体现了不同层级公共机关的国家意志,因此也表现出以纵向为主、横向为辅的法律位阶关系。[22]为了提升法律适用的效率,减少不同层级法律的适用冲突问题,硬法的制定需建立在严格的位阶体系上。但互联网技术革命对公共机关的权责分配产生颠覆性影响,一种新技术往往会涉及多个机关多个部门法,也使得问题导向的敏捷性立法模式遭遇法律位阶不清的挑战。与其敏捷化硬法,倒不如利用软法的灵活性优势实现敏捷性治理。软法的灵活性表现在立法程序、修订方式、发布主体等均无明确要求,软法的生成过程完全基于社会和市场需求,可以跟随市场和技术的变化不断更新迭代,以保持其生命力和存续力。
(二)硬法的强制性与软法的自治性
硬法依赖于国家强制力的保障实施,硬法的强制性是其区别于软法的关键特征。但强制力并不是法律被遵守的根本动因,这里还存在经济、正义和社会认同等因素。缺少了强制力的保证,软法得以实施的重要源动力就是利益导向。[23]社会中各主体的利益倾向是不同的,在人工智能训练数据的规制问题上,数据需求方(大模型开发者)与数据提供方(数据库持有者)之间关于训练数据规制的利益取向不同;生成式人工智能大模型开发的先入场者和后入场者的利益取向也不同,多方利益的平衡点可通过软法自治性的透析。英国政府于2023年3月发布了《促进创新的人工智能监管方法》白皮书,白皮书建议在“非法定”的基础上颁布和实施规则,监管措施按照从“自愿”到“监管”的约束力大小等级排列,再根据实施情况将部分“自愿性规则”转变为“法定性义务”,通过观察哪些自愿性义务被规制对象自觉施行,即可了解各方利益诉求。软法的自治性还体现在软法的发布主体多元且平权,社会各领域主体都可以根据群体需要发布有自治约束力的软法,例如训练数据的版权使用规则会根据市场实践而成为行业惯例,违背行业惯例的企业会受到来自同行的监督压力。
(三)硬法的审慎性与软法的包容性
法律可以保持一个产业的持续发展,但也可以迅速杀死一个产业。硬法规制的双刃剑在产业发展和宏观经济的调节中发挥重要作用,尤其是对前景并不明朗的新兴技术和创新模式,更加需要审慎的规制态度,不能因为法律的出台制约产业的发展。我国《生成式人工智能服务管理暂行办法》中规定“训练数据处理活动涉及知识产权的,不得侵害他人依法享有的知识产权”,该规定有利于数据提供方(知识产权权利人)利益的维护,尤其是针对网络公开的数据资源获取,如果数据获取技术无法辨别作品的版权归属,就意味着公开数据的爬取行为存在侵权风险。该规定对大模型开发者,尤其是初创企业训练数据获取的影响较大。硬法在训练数据的利益平衡上显得刚性有余,缺少缓冲地带和试错空间。而软法作为利益冲突的缓和器,可以对硬法作进一步的补充和解释,例如通过技术标准或技术指南等形式明确版权作品爬取的“opt-in”或“opt-out”模式,以降低数据爬取时的鉴别成本。
从法的起源来看,法治实际上就是硬法与软法两种逻辑互动的结果,当一方遇到阻力,另一方就会出场;当二者博弈时,一方妥协,另一方就成为互补角色,法治的性质需要软法与硬法的衔接。[24] 从数字经济的特点来看,生成式人工智能训练数据的属性决定了传统硬法强监管和硬规制的定位应逐渐被调整,“包容”“审慎”“敏捷”“促进”等成为立法高频词。现阶段我们需要生成式人工智能技术发展来带动社会面的经济发展,也需要通过法律规制来引导技术发展,立法模式应当逐渐从保守规制到积极建构,从“唯硬法论”逐渐转向“软硬法共治论”。“硬法”之“硬”在于权利义务设置、程序安排、监管责任等方面的规则刚性及其背后的强制力,虽然“硬法”可以为治理提供稳定的规则,但现阶段仅适用于高风险、违法性明确的行为,且具有相对的滞后性。然而,人工智能技术发展迅速,对于其发展轨迹与可能的风险,政府、企业和社会尚不十分了解,很难对相关产业活动划定清晰边界,因此,用伦理、习惯和技术路径等“软法”划定底线和指引方向,是当前的不二选择。如此,软硬结合,共同构成了科学的治理体系。[25]
四典型国家治理路径比较分析
软法和硬法的互动在人工智能训练领域有必要性,但从精细化治理的角度,如何配置软法和硬法的主辅关系,如何选择符合国情、具有中国特色的规制路径,仍然值得深入分析。本文选取了具有典型代表性的几个国家,分析其如何通过软法和硬法的关系配置来表达对人工智能产业发展和数字市场定位的战略态度以及初步的实施效果,为我国生成式人工智能训练数据规制路径的选择提供参考。
(一)欧盟、加拿大:“硬法为主,软法为辅”
“硬法为主、软法为辅”模式是指硬法作为人工智能规制的首要规范,软法作为补充和辅助,以欧盟、加拿大等国家为代表。
欧盟的人工智能治理框架包括两部硬法和多部软法规范组成,分别是《人工智能法案(草案)》(AIA)、《人工智能责任指令(草案)》两部硬法,及在算法透明度、科技伦理、知识产权、民事责任、教育文化试听领域等涉及人工智能的软法规范。AIA是欧盟第一部监管人工智能系统的横向立法,基于“布鲁塞尔效应”会对全球的治理政策产生影响。《人工智能责任指令(草案)》是AIA配套法案,针对人工智能侵权案件举证困难问题,由于某些人工智能系统的具体特征,如不透明、自主行为和复杂性,可能会使受伤害者难以甚至不能满足这一举证责任要求。通过协调成员国的某些非合同性过失责任规则,来促进内部市场的正常运作,以确保因人工智能系统对其造成的损害而要求赔偿的人,享有等同于在没有人工智能系统参与的情况下而要求损害赔偿的保护水平,以提高社会和消费者的信任,从而促进人工智能的推广。
加拿大在2017年3月发布了《泛加拿大人工智能战略》,是全球首个国家层面的战略,此后加拿大在人工智能领域占据世界舞台的一席之地。加拿大出台了旨在规范人工智能的法规《人工智能与数据法案》(AIDA)要求对人工智能系统进行评估、风险管理、监控、数据匿名化、透明度和记录保存等操作。AIDA依赖于一种更原则的方法,AIDA规定并未完全禁止人工智能系统带来不可接受的风险,对部分行为认定为违法行为,违法者将处以公司全球收入3%或最高1000万美元的罚款。[26]
(二)美国、新加坡:“软法为主,硬法为辅”
“软法为主,硬法为辅”模式是指以自愿性实施的软法作为人工智能治理的主要规范,尚未制定有强制力的硬法规范,以美国、新加坡等国家为代表。
目前,美国暂无系统的人工智能硬法立法,相关战略主要依靠行政命令和指导性文件等软法推动。有代表性且影响广泛的是2023年1月美国国家标准与技术研究院(NIST)公布的《人工智能风险管理框架》(AI RMF 1.0),旨在指导机构组织在开发和部署人工智能系统时降低安全风险,避免产生偏见和其他负面后果,提高人工智能可信度,保护公民的公平自由权利。NIST作为美国商务部的非监管机构,该文件是一份非强制性的指导性文件,供设计、开发、部署、使用人工智能系统的组织自愿使用。AI RMF提到“与传统软件相比,AI系统还带来了新的特定风险”,十四条特定风险中关于训练数据造成的风险有八项,例如“当人工智能系统根据随时间变化的数据集进行训练时,这些数据时而发生的显著或意外变化,会以难以理解和解释的方式影响人工智能系统的功能和可信度。”
新加坡采用软法路径,以框架文本和测试工具为主要手段治理人工智能技术。首先,新加坡个人数据保护委员会(PDPC)通过发布《人工智能治理示范框架》(简称“《框架》”)为私营主体的人工智能治理提供指导,该《框架》是一个自愿性、非约束性文件,其中包括了AI数据治理工具。新加坡《国家人工智能战略》(NAIS)中明确,其目标是“在开发和部署可扩展、有影响力的人工智能解决方案方面走在前列”,希望打造成“开发、测试、部署和扩展人工智能解决方案的全球中心”,并将为人工智能发展创造“进步和可信的环境”,是一个在创新和社会风险最小化之间取得平衡的环境。新加坡将人工智能视为发展经济和提高国民生活质量的重要战略手段,而不采用硬法规制,因为可能会扼杀创新和投资。新加坡意识到,随着全球人工智能治理话语、框架和法规的发展,它可能成为规则接受者而非规则制定者。新加坡目前的做法是“顺应世界的现状,而不是希望世界变成什么样”,因此并未制定硬法规范。[27]
(三)治理路径指标分析
指标一,产业发展情况。产业发展决定法治发展。从时间维度来看,在产业发展的初期、中期、后期,可分别采取不同的治理模式。初期,需要给予市场主体以极大的政策宽松环境,又不能忽视新技术带来的社会问题,此时采取软法治理是最合适的方式,软法既可以作为硬法的预备法,也可以独立发挥治理作用。中期,当产业发展至一定规模,社会问题和处理经验有了初步的积累,部分对公民和社会利益影响严重的风险可以纳入硬法规制的范围,此时可以通过强制性的立法规范打击部分危害性产业行为;同时,软法应继续扩张规模,一方面辅助硬法规范的细节落实,如各种技术标准的制定,将合规纳入产品设计端;另一方面可以通过软法的自治性来调整产业发展的底层逻辑,在商业道德、职业道德、行业声誉等方面给予产业软助力。后期,软硬法相互平行,根据实践需要进行互动安排。从法域竞争力维度来看,在互联网产业影响全球化的背景下,本国产业的竞争力越强,越需要宽松的监管环境,对硬法强制性、惩罚性和禁止性的需求降低,对软法的包容性、灵活性和建构性需求增加;相反,如果本国产业竞争力弱,更需要规则的话语权来帮助本国产业增加竞争力,此时需要通过硬法规则的率先发布,影响全球的监管政策制定。[28]
指标二,监管机构情况。监管机构的立法和执法能力,也是治理路径选择的重要指标之一。首先是立法能力,对于立法能力强的经济体或者国家,可以通过领先制定的规则输出本国的法治文化和规制思维,作为国家软实力的一部分。[29]但是立法能力不足的国家贸然立法可能会引发后续的实施问题,不如先根据实践需求出台一些自治性的软法规范,再结合各方经验输出配套硬法规范。其次是执法能力,也就是法律的实施效果。欧盟的权力由各成员国商定的条约赋予,而条约明确规定软法并不具有直接的法律约束力,因而各国的监管机构、法院等对待软法的态度不会和硬法保持一致,软法在各国的执行效果较弱。为了确保生效的规则在欧盟各成员国内得到统一适用,欧盟和成员国都倾向于制定硬法规范。[30]因此欧盟对硬法的青睐与其监管机构的立法和执法能力密切相关。
指标三,治理和发展目标。各国对人工智能产业的定位目标也影响了治理路径的选择。尽管欧盟希望成为人工智能领域的领导者,但仍旧将公民的利益配置、风险规制和就业等民生保障问题置于前列,因此欧盟整体采取了平衡发展与保障权利的规制思路,通过硬法的颁布实现公民权利在欧洲各成员国得到均等的保护。加拿大明确利用本国在科研和人才方面的优势,希望在人工智能创新领域获得竞争力,由于人口少、商业应用少,硬法规制并不会影响本国的人工智能科研发展,反而可以通过硬法监管过程获得相关商业信息以及积累立法和执法经验,为全球输出法律治理的研究成果。[31]美国重点在可信赖人工智能系统的开发和应用方面发力,作为拥有全球绝对领先优势地位的国家,硬法的规制不但不利于领先优势的扩张,还会制约现有企业的创新发展和商业运营,软法之治是其最好的选择。新加坡结合自身的优势和短板,明确采用软法为产业创造“进步和可信的环境”,由于定位和策略匹配程度较高,在国土和人口的限制下,新加坡依然获得了全球“强度”第一的排名,由此可见治理路径选择对产业发展的价值和作用。见表1(数据来源Tortoise media 2023年6月29日发布的《2023全球AI指数排名》)。
表1:各国人工智能发展和规制情况
五训练数据的软硬法协同治理框架
我国在《新一代人工智能发展规划》中明确了产业发展的目标:“到2030年,人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心。”可以看出我国人工智能产业发展目标的重点是创新,从目前创新性排名全球第20位的现状来看,该目标还是具有相当的挑战性,因此更需要规制路径的有效选择为产业发展助一臂之力。随着《生成式人工智能服务管理暂行办法》的出台,以及《人工智能法》纳入立法计划,我国现阶段已经选择了硬法为主,软法为辅的规制路径。从产业发展来看,我国的商业运营指标排名全球第二,需要宽松良好的政策法律环境,进一步促进商业化的发展以缩短差距。硬法和软法都应以产业发展为目标,尤其作为规制手段的硬法应选择“结构式刚性谦抑”的进路,以底线化的关口管制为主要原则;更多发挥软法建构性的优势,通过主体的横向、内容的纵向、技术的深度实现“立体式柔性扩张”,深入渗透至硬法规则无法涉及的盲点领域,实现软硬法的优势互补、互动共治。
(一)硬法:结构式刚性谦抑
训练数据具有人身利益和财产利益面向的私法属性,同时具有社会公共利益面向的公法属性,在选择硬法规制时需要对公法和私法的规制思路有所区别。公法可归纳为“四关一评估”的关口式底线管制;私法则侧重将训练数据的人身权和财产权分离规制。
1、公法规制:“四关一评估”
基于训练数据的社会公共利益属性,公法在硬法规制中扮演重要角色。传统公法规制采用回应性规制和集中性规制思路[32],无法有效解决训练数据风险的低可控性和训练过程不可逆转等问题,应通过兼顾敏捷性和试验性的结构式规制增强公法实施的有效性,其结构可归纳为“四关一评估”:硬法仅在重要关口作把控,建构性过程由软法发挥作用。
第一关:资质审核准入关。首先是针对特殊行业人工智能企业的资质核准,如医疗、金融、汽车等涉及社会、国家安全和公民重要权利的领域,采用特殊许可审批制。其次是针对模型训练数据相关从业人员的职业资格审批,如算法设计师、数据标注师、模型训练师等。不同于以往的数字技术服务,上述从业人员的个人价值观、国家安全观、道德信仰等决定了模型生成内容的价值取向、对社会的危害性等,应严格把控从业人员的职业准入,并同时采用硬法和软法进行双重规范。硬法侧重于对从业人员违法违规训练模型的事后处罚;软法侧重于引导从业人员如何有效合规。
第二关:算法标注说明关。算法决定了训练数据的生成方式,应作为训练数据规制的前置事项。我国针对算法治理已经有一定的经验和基础,《互联网信息服务算法推荐管理规定》作为硬法规范构成了算法治理的骨架,而《关于加强互联网信息服务算法综合治理的指导意见》则是算法治理的配套软法,除了“具有舆论属性或者社会动员能力”的生成式人工智能服务需要进行算法备案外,其他类型服务履行算法规则说明义务。另外需要关注训练数据的标注过程,数据标注的价值甚至超过了数据本身的价值,数据标注不仅是监管的重点也是产品商业竞争力的保证。数据标注的准确性、真实性、逻辑性等应当是重点监管的方面,要求企业对数据的标注规则、人员、过程留痕存档,涉及重要领域的备案,以强化人工智能企业对标注过程的重视。
第三关:数据来源安全关。数据来源安全不仅是公法监管层考虑的问题,同时也是企业技术安全层需要现实解决的问题。建议建立公开数据集来源公示制度。训练数据集的主要来源之一是对网络公开数据的收集,公开数据涉及个人信息保护和知识产权问题,也是数据来源合法性的重点监管对象。通过数据集的公示,使得数据集权利人了解数据被用于训练的事实,可以采取明确拒绝等方式避免后续数据的收集训练。已经被用于训练的部分如果无法通过模型遗忘技术等进行覆盖或过滤,则根据权利人的损失和数据训练的收益进行经济补偿。当然,数据集的来源公示会给企业造成较大的合规成本,尽管本文提出该方案,但现阶段仍考虑基于企业自愿性实施,而不是强制性要求。对于非公开数据集,通过数据交易、合作等方式获取的,涉及企业核心商业秘密,事前无需公法介入监管。
第四关:信息内容安全关。信息内容包含两个方面,一是模型算法、标注数据、参数的安全;二是与用户交互信息内容的安全。两个方面共同影响了服务的信息内容安全,应同步规制。针对模型本身的问题,由服务提供者承担网络信息内容安全责任,以及算法、标注数据、参数的安全审核责任。[33]由于模型的涌现性特征,对模型生成内容无法直接做信息内容安全合法性要求,只能根据企业的合规制度完善与否、企业是否穷尽了技术手段提升安全性等因素,以包容发展的态度予以处理。针对用户交互信息,则可以通过守法承诺、使用权限分级分类等方式实现安全性排查。服务使用时弹出安全使用承诺对话框,用户保证不通过引导、诱导等方式训练模型生成违法内容;用户使用风险性较高的服务,应先完成用户素养评测,通过合法性、道德性、安全性、伦理性等评测后方可使用。
“一评估”:训练数据安全评估。根据《生成式人工智能服务管理暂行办法》的要求,对提供具有舆论属性或者社会动员能力的生成式人工智能服务,按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》开展安全评估,加强个人信息保护、防范违法有害信息传播扩散、社会动员功能失控风险。如果训练数据中包含向境外提供在中华人民共和国境内运营中收集和产生的重要数据和个人信息的,应按照《数据出境安全评估办法》的规定进行安全评估,以规避国家数据安全风险,强化数据主权意识。
2、私法规制:“人财两分”
对于训练数据的人身权和财产权属性,硬法需要通过私法规制予以回应。私法规制仍然需要平衡产业发展和公民权利保障之间的紧张关系。对此,本文认为可以采用“人财两分”[34]的处理思路,对训练数据上的人身权益和财产权益进行分离规制。冲突解决遵循“二阶序列”式权益位阶方法[35],数据上的人身权益给予硬法关注,数据上的财产利益交由市场规则或软法调整,硬法暂无须介入。
首先,训练数据涉及的人身权问题。由于人身权利的价值位阶优先性,硬法制度应予以回应并强化保障。目前生成式人工智能训练的数据风险,主要涉及个人信息、隐私权等人格权,还有数据歧视、偏见、误导引起的权利侵害。《生成式人工智能服务管理暂行办法》对此做了回应,“尊重他人合法权益,不得危害他人身心健康,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益;”“在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视;”但上述规定远远不够,生成式人工智能服务在技术上的特殊性,对侵权责任认定带来了一系列影响,包括行为主体的复杂化、加害行为的智能化、损害后果的不确定、因果关系的多元化和过错认定的新颖化。[36]可参考欧盟《人工智能责任指令(草案)》,调整因人工智能导致损害的侵权责任规则,通过《民法典》侵权责任编等硬法的有效衔接来帮助受害人实现救济可能性,进而提高社会对生成式人工智能产品的信任,实现以人为本的基本价值目标。
其次,抓取公开数据集的财产权问题。“学而思与笔神作文案”以及“Stability AI案”中基于模型训练而抓取作品进行深度学习的行为是否侵犯著作权?2023年7月12日,Stability AI公司公共政策主管Ben Brooks在听证会上介绍了Stable Diffusion的运作机制,他特别指出“模型不存储训练数据,而是通过训练让模型能够理解单词、概念和图片或文本之间的关系。”加州大学伯克利分校的Pamela Samuelson对此进行了技术阐释:“Stable Diffusion包含大量参数,这些参数在数学上代表了训练数据中的概念,但图像本身并没有体现在其模型中。训练模型时,首先要将作为训练数据摄入的作品内容标注,并将其划分为各个组成部分。模型使用这些标注来辨别内容特征之间的统计相关性(这种相关性的尺度往往大得惊人)而模型正是在这种相关性的基础上进行训练的。从本质上讲,该模型正在提取和分析关于作品中离散元素的精确事实以及离散元素之间的相关性,以确定哪些其他离散元素与这些元素相关或不相关,以及这些相关性在不同语境中存在或不存在的频率。”[37]著作权的保护范围是作品的表达,尚未触及思想层面,生成式人工智能模型的深度学习是基于思想层面,因而不够成著作权侵权。[38]因此,欧盟还规定了基于“非商业使用文本挖掘”的版权例外,美国等国家通过合理使用制度为训练数据抓取留有余地。[39]日本政府人工智能战略委员会于2023年5月26日提交了一份草案,表示日本法律不保护AI训练所用资料的版权,日本文部科学大臣永冈桂子在当地会议上证实了这个立场。本文认为对训练数据的排他性利益和竞争性利益面向可做进一步区分,对知识产权等排他性利益的财产权侵害行为无须通过硬法规制,转向由平台企业、行业组织等制定软法规范予以有效治理;训练数据的竞争性权益由反不正当竞争法、反垄断法等硬法规制,以保障市场秩序、公平竞争等社会公共利益。
(二)软法:立体式柔性扩张
中国现有的软法规制既拘谨分散不成体系,又蜻蜓点水不够深入,在面对训练数据规制时,应更加注重体系性的强化,以主体、内容和技术的扩张为趋势走向,同时利用其柔性特点深入至硬法无法触及的领域。
1、基于主体的横向扩张
从规范性和普遍性视角来看,以往制定和发布软法的对象包括国家、民间组织和政治组织三类。[40]从生成式人工智能涉及的业务领域和社会影响的范围来看,软法的制定主体可横向扩张。首先是“平台企业”。根据训练数据涉及的范围,可分为公开数据平台和非公开数据平台,一般是指通过技术服务或整合服务汇聚数据集的平台。模型训练者通过爬虫抓取公开数据平台上的数据集,或者与平台合作传输数据集。平台企业对数据集的技术和商业双重控制力赋予了其规则制定者的权力,通过明确作品数据上传规则、抓取规则和授权使用、收益分成规则,可在一定程度上解决大模型开发者与知识产权权利人之间的利益冲突问题。平台规则旨在规范训练数据抓取行为、强化著作权人的利益保障,符合软法的治理目标。其次是“行业组织”。行业组织中的行业协会可通过协会章程、自律规约、共同声明等形式确立成员单位基于平等、协商、共识原则创建的规则体系,也作为软法的重要组成部分。一方面行业协会可以联合模型开发者共同发布声明,承诺训练数据的透明性、道德性、合法性、可解释性等,定期发布优质模型企业、生成式人工智能服务企业服务排行榜,激励企业自我优化。另一方面行业协会可定期组织生成式人工智能模型训练数据相关职业培训,重点在于促进服务规范化、标准化,提升数据训练者、标注者的服务质量以及职业伦理、道德素养。
2、基于内容的纵向扩张
训练数据内容的质量决定了生成式人工智能模型生成内容的质量,软法在训练数据内容的治理上仍有可扩张空间。首先针对训练数据内容的质量,主要从真实性、准确性、客观性、多样性四个方面展开。数据的真实性可通过发布主体的权威性予以增强,建议有关部门制定政策鼓励官方媒体、政府统计部门、公共事务机构、科研机构等开放优质数据集用于模型训练;训练数据的准确性依赖于数据清洗和准备、特征选择和提取、模型选择和调参阶段采用技术方法实现;数据的客观性与数据标注过程紧密相关;数据的多样性则取决于数据集整体设计方案。通过技术标准的制定和发布,从模型设计阶段就提升训练数据内容的质量,是一个行之有效的方案。可通过全国标准化委员会等机构出台相关的技术标准(如涉及数据标注的国家推荐性标准:《人工智能 面向机器学习的数据标注规程(GB/T 42755-2023)》),对模型训练的各个环节进行技术标准化厘定。此外还应关注训练数据本身的伦理性问题,[41]我国已经有相关软法规范可以直接适用。2021年《关于加强科技伦理治理的指导意见》将“增进人类福祉”“尊重生命权利”“坚持公平公正”“合理控制风险”和“保持公开透明”明确为科技伦理原则,并对创新主体、科研人员、科技类社会团体、科技人员在科技伦理治理的角色进行分别定义。随后的《新一代人工智能伦理规范》明确了人工智能的基本伦理规范,并且提出了一系列人工智能应用管理规范、研发规范、供应规范和使用规范。[42]最后是针对训练数据的分类分级,用于商业模型训练的数据一般不能是国家核心数据,利用重要数据作为训练数据的应进行安全评估。从分级角度,可以根据风险等级对训练数据进行分级治理,例如一般、重要、核心等;从分类角度,可以按照行业、信息内容等区分。
3、基于技术的深度扩张
通过技术类评测工具来治理训练数据的方法,又被称为“技术治理技术”的方法,目前也有一定实践成果。新加坡信息通信媒体发展管理局推出了AI治理测试框架和工具包AI Verify,是基于国际公认的人工智能治理原则的测试框架,公司可以在测试自己的人工智能系统时使用这一测试工具包。AI Verify的基本特征:第一,AI Verify不定义道德标准,也不对AI分类,而是让AI开发者自己去测试然后发布AI性能的声明;第二,企业采用了AI Verify,不能说明受测试的AI系统没有风险、没有偏见,也不能说明是安全、道德的;第三,AI Verify允许企业在本地环境下自己测试,以确保重要的数据不会泄露;第四,AI Verify的测试基于国际标准,包括五项内容和十一项原则。第四,AI Verify提供的工具包可供企业在内部环境下安装并测试。第五,AI Verify生成一份总结报告,包括测试结果以及过程中引用的是标准文件。[43]另外,我国也已经推出伦理道德相关的知识平台(至善),可以对产品的伦理做简单的测评,但该平台目前主要面向公众,如需对接商业化产品,还需要根据国内的科技伦理标准改造。
六结语
生成式人工智能各类模型和应用日新月异、迅速迭代,从专业人工智能逐步向通用人工智能发展,不仅对人类生活的各方面影响甚远,也逐渐成为引领社会经济增长和强化国家竞争力的新引擎。然而,由于训练数据的使用涉及公私法利益上的侵害,如何兼顾数据安全、产业发展和公民权利保护,成为训练数据规制的价值必要。生成式人工智能训练数据的问题需要根据国家产业的现状、监管机构的情况以及治理和发展目标三个指标权衡考量。硬法治理的确定性、强制性和审慎性面对不断更新的人工智能技术时力不从心,而软法治理所具有的灵活性、包容性、自治性等优势,与训练数据需要的创新容错治理环境相契合。生成式人工智能训练数据应以硬法的结构式刚性谦抑与软法的立体式柔性扩张为协同趋势,形成刚柔并济、软硬兼施的中国式现代化法治方案,并将在实践中不断迭代更新。(作者曾就职于政府和Top3互联网大厂)
参考文献:
[1] 姚志伟,李卓霖.生成式人工智能内容风险的法律规制[J].西安交通大学学报(社会科学版),2023(05):147-160.
[2] 刘晓泉,刘方玮.中国式现代化的五重世界意义[J].理论探索,2023(02):70-78.
[3] 习近平.论把握新发展阶段、贯彻新发展理念、构建新发展格局[M].北京:中央文献出版社,2021:8-9.
[4] 朱明婷,徐崇利.人工智能伦理的国际软法之治:现状、挑战与对策[J].中国科学院院刊,2023(07):1037-1049.
[5] 李爱君. 训练数据主体权益保护的新型数据财产权构建[J].政法论丛,2023(06):73-85.
[6] PHILIPP H.A legal framework for AI training data—from first principles to the Artificial Intelligence Act[J]. Law, Innovation and Technology, 2021(02):257-301.
[7] CALO.Artificial Intelligence and the carousel of soft law[J]. IEEE Transactions on Technology and Society, 2021(12):171-174.
[8] 禹卫华.生成式人工智能数据原生风险与媒介体系性规范[J].中国出版,2023(10):10-16.
[9] CAO. Towards making systems forget with machine unlearning[J].2015 IEEE Symposium on Security and Privacy 2015(01): 463-480.
[10] KUSAK. Quality of data sets that feed AI and big data applications for law enforcement[J].ERA-Forum 2022(02): 209-219.
[11] 梁上上.制度利益衡量的逻辑[J].中国法学,2012(04):73-87.
[12] 黄丽.论个人信息单独同意的利益衡量模型[J].科技与法律(中英文),2022,(05):138-148.
[13] 杨立新,袁雪石.论声音权的独立及其民法保护[J].法商研究,2005,(04):103-109.
[14] SALAMI E. Balancing competing interests in the reidentification of AI-Generated data[J]. European Data Protection Law Review (Internet) ,2022(03): 362-376.
[15] PHILIPP H.A legal framework for AI training data—from first principles to the Artificial Intelligence Act[J]. Law, Innovation and Technology, 2021(02):257-301.
[16] 任孟山,李呈野.从电报到ChatGPT:技术演进脉络下的国际传播格局史论[J].新闻与写作,2023(05):38-50.
[17] 商建刚.生成式人工智能风险治理元规则研究[J].东方法学,2023(03):4-17.
[18] 陈永伟.超越ChatGPT:生成式AI的机遇、风险与挑战[J].山东大学学报(哲学社会科学版),2023(03):127-143.
[19] 罗豪才,宋功德.认真对待软法——公域软法的一般理论及其中国实践[J].中国法学,2006(02):3-24.
[20] 姜明安.软法的兴起与软法之治[J].中国法学,2006(02):25-36.
[21] 寿步.人工智能领域伦理主体agent(行为体)的追本溯源[J].自然辩证法通讯,2023(12):10-17.
[22] 罗豪才,宋功德.认真对待软法——公域软法的一般理论及其中国实践[J].中国法学,2006(02):3-24.
[23] 江必新.论软法效力 兼论法律效力之本源[J].中外法学,2011(06):1163-1170.
[24] 吴新叶,陈可.社区中的法治:实践逻辑与实现路径——以软法与硬法有效衔接为视角[J].山西师大学报(社会科学版),2023(03):27-33.
[25] 陈吉栋.欧盟《人工智能法案》进入最终谈判阶段,全球首个AI法案呼之欲出.[EB/OL][2023-07-07][2023-07-10].https://mp.weixin.qq.com/s/6l3MBrGDwaJ09lY1_3VZkA.
[26] White Paper: The state of global AI standardization and what it means for Canada [EB
/OL][2023-03-29][2023-07-20].https://www.scc.ca/en/news-events/news/2023/white-paper-state-global-ai-standardization-and-what-it-means-for-canada.
[27] JOSH L. AI verify: Singapore’s AI governance testing initiative explained[EB/OL][2023-07-06][2023-07-20].https://fpf.org/blog/ai-verify-singapores-ai-governance-testing-initiative-explained/.
[28] PAGALLO. The environmental challenges of AI in EU law: lessons learned from the Artificial Intelligence Act (AIA) with its drawbacks[J]. Transforming Government,2022(03): 359-376.
[29] GUTIERREZ. Effective and trustworthy implementation of AI soft law governance[J]. IEEE Transactions on Technology and Society, 2021(04): 168-170.
[30] ZHENG K. China and EU’s wisdom in choosing competition soft law or hard law in the digital era: a perfect match? [EB/OL][2023-04-13][2023-07-20]. https://doi.org/10.1007/s12689-023-00101-8.
[31] BUCZYNSKI. Hard law and soft law regulations of Artificial Intelligence in investment management[J]. The Cambridge Yearbook of European Legal Studies, 2022(24): 262-293.
[32] 毕文轩.生成式人工智能的风险规制困境及其化解:以ChatGPT的规制为视角[J].比较法研究,2023(03):155-172.
[33] 支振锋.生成式人工智能大模型的信息内容治理[J].政法论坛,2023(04):34-48.
[34] 张新宝.论作为新型财产权的数据财产权[J].中国社会科学,2023(04):144-163+207.
[35] 包晓丽.二阶序列式数据确权规则[J].清华法学,2022(03):60-75.
[36] 徐伟.论生成式人工智能服务提供者的法律地位及其责任——以ChatGPT为例[J].法律科学(西北政法大学学报),2023(04):69-80.
[37] PAMELA S. Generative AI meets copyright[J].Science,2023(07):158-161.
[38] QUANG. Does training AI violate copyright law? [J]. Berkeley Technology Law Journal, 2021(04): 1407-1410.
[39] NORDEMANN. Copyright exceptions for AI training data—will there be an International level playing field?[J]. Journal of Intellectual Property Law & Practice, 2022(12): 973-974.
[40] 马长山.互联网+时代“软法之治”的问题与对策[J].现代法学,2016(05):49-56.
[41] ROCHEL. Learning from the ethics of AI - A research proposal on soft law and ethics of AI[J]. Tilburg Law Review, 2022(01): 37-59.
[42] 袁立志,朱垒.中美欧人工智能法律监管概览[EB
/OL] [2023-02-03][2023-07-17].https://mp.weixin.qq.com/s/7v4H4NMHHdFC_T60p04ZLg.
[43] JOSH L. AI verify: Singapore’s AI governance testing initiative explained[EB/OL][2023-07-06][2023-07-20].https://fpf.org/blog/ai-verify-singapores-ai-governance-testing-initiative-explained/.
往期回顾