李安 | 人工智能训练数据的版权信息披露:理论基础与制度安排
文摘
社会
2024-10-21 14:39
北京
作者:李安(中南财经政法大学知识产权研究中心讲师,法学博士)
出处:《比较法研究》2024年第5期
一、问题的提出
二、透明度议题下训练数据版权信息披露的价值意蕴
三、版权法视野下训练数据版权信息披露的法理逻辑
四、人工智能训练数据版权信息披露的比较法分析
五、人工智能训练数据版权信息披露的中国方案
六、结语
摘要:人工智能训练数据的版权信息披露是当前全球人工智能法治热切关注的问题。在透明度议题下,训练数据版权信息披露具有实现法律问责、促进技术改良的工具价值,同时也具备增进信任、责任心和合作的内在价值。在版权法视野下,披露训练数据中的版权信息,一方面是对作者精神权利的承认和尊重,另一方面可为著作财产利益的实现提供便利。欧美法律实践表明,训练数据版权信息披露应妥当设置披露范围、披露自由度、披露标准、披露例外等,以实现人工智能企业、版权人和消费者之间的利益衡平。我国应以透明价值和版权目标为取向,为不同类型人工智能的训练数据版权信息披露梯次配置柔性规范、中性规范、刚性规范,并对特定情形作出例外规定,同时构建多方参与的规范实施机制。关键词:文本数据挖掘;透明度;版权信息披露;合理使用;人工智能法
当前,世界主要国家和地区的人工智能法治都正在关注同一个问题——人工智能训练数据的版权信息披露。2024年3月,我国网络安全标准化技术委员会发布《生成式人工智能服务安全基本要求》,第5.2条倡议服务提供商“公开语料中涉及知识产权部分的摘要信息;在投诉举报渠道中支持第三方就语料使用情况以及相关知识产权情况进行查询”。2024年4月,美国国会议员提出《生成式人工智能版权披露法案》(Generative AI Copyright Disclosure Act)草案,要求人工智能企业在产品或服务上市前向美国版权局提交一份关于人工智能数据训练所用版权作品的详细概要以及网址链接。2024年5月,英国议会上议院三读通过《人工智能(监管)法案》[Artificial Intelligence (Regulation) Act],第5条规定人工智能企业应当向人工智能管理局提供其在数据训练中使用的所有第三方数据和知识产权记录。2024年7月,欧盟正式发布《人工智能法》(Artificial Intelligence Act),第53(1)条d项规定人工智能企业应当披露包括版权信息在内的训练数据信息。 世界主要国家和地区的人工智能法治之所以强调训练数据版权信息披露,是因为作品被作为数据广泛地用于人工智能的算法模型训练,但很少被记录和公开。其一,人工智能企业对作品性训练数据的使用缺乏详细记录。人工智能企业的算法模型训练使用了大量的作品性数据,但其对该类使用存在“文档记录债务”(documentation debt)。文档记录债务是“一种技术债务,用以描述文档记录的缺失、不充分或不完整问题”。在人工智能数据训练中,包括作品在内的数据使用情况没有被很好地记录和归档,进而妨碍法律责任的追究、技术问题的解决。其二,人工智能企业拒绝将所使用的作品性训练数据予以公开。或为避免责任追究,或为提防竞争对手,人工智能企业不愿公开训练数据中的版权信息。例如,百度推出文心一言,为证明大模型的质量和能力,只笼统地介绍训练数据包括万亿级网页数据、图片数据等,未进一步披露详细信息。又如,OpenAI推出第1、2、3代ChatGPT时在附随的技术文件中或多或少地披露了一些训练数据版权信息,但在发布GPT-4时以“竞争环境和安全影响”为由拒绝披露训练数据信息。 人工智能训练数据的版权信息披露立法,旨在尝试对作品性训练数据使用不记录、不公开的产业实践进行纠偏和规范。由此而来的问题是:法律是否应当介入纠偏?法律应该如何予以规范?训练数据版权信息披露立法对实践的纠偏需要理论证成,具体法律规范的制定需要理论指导。具体来说,我们需要重点回答两个理论问题:一是训练数据版权信息披露的价值基础是什么?二是训练数据版权信息披露的法理逻辑是什么?此外,一国法律规则的调整会改变该国人工智能发展的法律环境,进而影响该国人工智能企业的国际竞争以及人工智能投资的跨国移转,所以训练数据版权信息披露在我国的确立以及具体规则设计还应进行必要的比较法研究。在人工智能治理工具箱中,透明度虽有争议但仍是最受推崇的一项措施,人工智能的全过程透明包括人工智能训练数据的透明(输入阶段)、人工智能本身的透明(机器学习阶段)、在内容生成中使用人工智能的透明(输出阶段)。后两类人工智能透明已有较多研究,而人工智能训练数据信息尤其是版权信息的透明,鲜有研究。鉴于此,下文将逐次对训练数据版权信息披露进行价值阐释、法理解读、比较法分析,并以此为基础提出训练数据版权信息披露的中国方案,以期为我国人工智能创新发展的法治保障作出贡献。
前文已述,训练数据版权信息披露是人工智能透明度的一个子问题。总的来说,信息透明有两个价值维度:一是作为目的之手段的“工具价值”(instrumental value);二是作为目的本身所独立存在的“内在价值”(intrinsic value,或称“内生价值”)。同样地,训练数据的版权信息披露有工具价值和内在价值两个价值维度。 信息披露的工具价值,在于信息披露能够满足或实现特定目标。在人工智能语境中,信息披露所欲满足或实现的特定目标主要有两个:一是通过信息披露实现人工智能法律问责;二是借由信息披露促进人工智能技术改良。因此,可以说,对法律问责的实现、对技术改良的促进,是人工智能训练数据版权信息披露工具价值的主要内容。 其一,训练数据的版权信息披露有助于法律问责。“信息是个人行为受到监督的基础”,没有充足的信息就无法进行有效的执法司法,信息披露对法律问责而言具有获取证据、证明事实的作用。正如欧洲议会的研究报告所言:“透明度的主要作用是实现问责的工具。如果不知道一个组织在做什么,就无法追究其责任,也无法对其进行监管。”在这个意义上,训练数据版权信息披露是权利人和相关机构获知被使用作品信息、作品被使用方式等事实信息的重要途径,只有掌握了充足的事实信息才能够进一步评判作品的使用性质以及追究相应的版权责任。虽然目前多数观点主张人工智能数据训练中的作品复制、汇编等使用行为构成合理使用,但是该观点并非绝对成立。若人工智能以模仿特定作品表达为目的且生成内容与被学习作品构成实质性相似,则该人工智能对作品性训练数据的使用,很难被认定为合理使用。例如,在2024年奥特曼诉某AI平台案中,AI平台生成的图片与奥特曼版权人的图片构成实质性相似,法院判定被告侵犯版权。可见,我们需要结合人工智能数据训练中作品使用的具体信息来判断作品使用是否构成合理使用,若不构成合理使用则进一步追究版权责任。 那么该如何获得数据训练过程中作品复制、汇编等使用信息呢?在逻辑上,作品使用信息的获取有间接证据和直接证据。间接证据是指从输出内容的特征(例如在相同位置出现相同错误,生成内容与版权作品高度相似等)来反推人工智能数据训练中存在作品复制、汇编等使用行为,这被称为被诉侵权内容的“证据性相似”(probative similarity),是证明作品使用事实的替代方法。在针对人工智能企业的几起版权诉讼中,原告均无法获知训练数据集的具体内容,很少提供关于作品复制、汇编的直接证据,因此只能从人工智能输出内容的“证据性相似”出发推断自己作品被人工智能企业复制、汇编并用于数据训练。例如,在Tremblay, Awad v. OpenAI案中,原告主张ChatGPT能精准地生成自己作品的概要,由此推断OpenAI复制自己作品用于语言模型训练。但严格来说,上述推断并不完全成立,所生成的作品概要也可能有其他的内容来源,如第三方撰写的作品概要。可见,人工智能生成内容的“证据性相似”是证明力较低的间接证据,权利纠纷事实的调查和澄清需要直接证据:人工智能训练数据集中的作品信息。人工智能训练数据版权信息披露可以提供作品使用的直接证据,助力权利纠纷事实的调查。 其二,训练数据的版权信息披露有助于技术改良。人工智能的质量与数据质量呈正相关性,人工智能的高质量发展需要高质量的数据资源,劣质的训练数据集是出现人工智能偏见的一个重要原因。2016年美国政府白皮书《为未来的人工智能做好准备》指出“人工智能系统需要好的训练数据。如果训练数据不完整或带有偏见,那么人工智能会加剧这种片面所带来的问题。”作品是典型的高质量数据资源,作品性训练数据的披露可从技术监督、技术交流两个方面促进人工智能技术进步。一方面,作品性训练数据的披露可促成技术监督,进而推进技术改良。例如,OpenAI在发布ChatGPT-1时披露其使用BookCorpus数据集(包括7000多本涵盖冒险、科幻、爱情等多元风格的书籍)来进行模型训练。之后,一些同领域技术人员对该训练数据集进行系统分析,指出了三点缺陷:一是违反了许多书籍的版权限制;二是包含了数千本重复的书籍;三是在书籍体裁上存在显著偏斜,尤其是部分内容过于色情。第一个是法律缺陷,后两个是技术性缺陷。同领域技术人员对某一企业训练数据集的技术性评析,不仅是对该企业人工智能技术的批评和监督,更是对该企业人工智能技术进步和优化的建议。另一方面,作品性训练数据的披露可形成技术交流,继而促进技术改良。某企业所披露的训练数据集信息本身就是一种技术信息的交流,可能会对其他企业的人工智能数据训练产生启发。此外,更为重要的是,上述同领域技术人员对某企业训练数据集的技术评析具有正外部性,其不仅会促进被批评企业的技术改良(知错能改,善莫大焉),也会对其他企业起到警示教育作用(有则改之,无则加勉),对整个行业的技术发展具有积极意义。 相比工具价值,内在价值“本质上与一些社会期望的理想目标相联系或等同,如信任、信赖、政府合法性、企业责任感、道德等”。训练数据版权信息披露的内在价值,主要作用于人工智能企业和利益相关者(如版权人和消费者)的心理、情绪、感情等领域,促进各方的互信与互动、和解与合作,其作用机理具体表现为以下两个方面。 一方面,训练数据的版权信息披露通过保障人工智能企业利益相关人的知情权,来提高利益相关人的安全感、信任感,关照利益相关人的情绪和感受。作为一项新技术,人工智能的推广使用及其经济社会潜力的释放离不开公众信任,版权人、消费者对人工智能产品的支持和接纳都需要信任。对于不透明的陌生事物,人们的信任感无从建立。人们总是把不透明和暗箱操作联系起来,从而产生不信任和抵制行为。版权人对人工智能训练数据集合法性的猜忌,消费者对人工智能产品质量的顾虑,很大程度上源自人工智能企业对训练数据信息尤其是版权信息讳莫如深。例如,2022年11月,日本插画制作应用软件“Clip Studio Paint”发布消息称计划推出AI绘图功能,迅即遭到很多用户(多数用户是绘画师)的批评。由于收到了很多“不想使用来历不明的应用程序,不知道生成内容是不是利用他人版权作品生成的”等质疑,应用软件商于次月撤回了该消息。 可能有观点认为版权人、消费者会因时间、能力等因素无法实际阅读、实质理解披露信息,进而无法基于完全了解、实质理解而产生真正的信任。的确,知情与信任呈正相关关系,但主体间信任的建立并不取决于完全了解和实质理解,因为信任“处于全知与无知之间,是不顾不确定性去相信”。如果无知(不知道任何信息)就无法产生信任,如果是全知(掌握全部信息)就不再需要信任了。人工智能训练数据的版权信息披露,只要打破“无知”状态就能够产生信任,无需苛求“全知”效果。此外,人工智能企业的信息披露行为本身就能够传递出负责任、可信赖的信息。“信任属于主观的倾向和愿望”,不需要“足够的客观根据”,信息披露行为本身就具有心理或情绪慰藉价值。试想,恋人一方允许对方查看手机,即使对方不实际查看,也会因其坦诚行为而对其更加信任。同理,即使人工智能企业所披露的训练数据版权信息没有被利益相关者实际查看或实质理解,其披露行为本身也会增进版权人、消费者对人工智能企业的信任。 另一方面,训练数据的版权信息披露是人工智能企业向外传递尊重版权、值得信赖等信号的重要机制,有助于其自我审视,培育并彰显企业责任心。“对于那些寻求建立更广泛应用人工智能所需的初始信任的监管机构和技术人员来说,发出可信任信号是最有前途的选择。”从法经济学视角来看,训练数据版权信息披露涉及不完全信息动态博弈,其内在机理可以用小波斯纳的信号传递理论予以解读。A不知道B的私人信息,这种信息不对称妨碍了两者之间的互信和互动。为了开展合作,B可以通过特定行为来向A传递自己的私人信息。小波斯纳指出,人与人之间的信任和合作取决于人的耐心(即贴现率,贴现率低则耐心大,贴现率高则耐心小),而耐心的大小是一个私人信息;低贴现率、具有较大耐心、偏好合作的主体会采取具有一定成本并且可以被观察到的行为来传递出积极信息,从而将自己与高贴现率、具有较小耐心、偏好投机的主体进行区分。能够传递信息的行为有两个要点:一是具有一定成本;二是具有可观察性。训练数据的版权信息披露行为具有一定成本,也具有可观察性,是一个信号传递行为,能够实现合作型人工智能企业与投机型人工智能企业的分离均衡,便于消费者以及其他合作者分辨可信赖的、具有责任心的人工智能企业,增进人工智能领域的信任与合作。这也是OpenAI等公司早期发布人工智能产品时主动披露训练数据版权信息的原因之一。 以上两个方面表明,训练数据版权信息披露,能够增进各方互信和互动,促使各方达成和解和合作。版权人、消费者的信任感与人工智能企业的责任心一起构成智能社会的信用链条,扩展了智能时代的“社会资本”——人们之间构建相互联系、为共同目标而合作的能力。社会资本是信任的熔炉,是一个经济体健康与否的关键,其重要性不亚于土地、机器、工厂等物质资本。信任是对未来复杂性的简化,是不顾不确定性去相信、去与他人交互,由此打开了行动和前进的可能性,使人际间的合作成为可能。作品性训练数据的披露能够彰显人工智能企业的责任心,提高利益相关人对人工智能企业的信任感,打消双方交互的疑虑和猜忌,推动双方的行动和前进,这对人工智能的版权对话、推广应用等具有重要价值。
在版权法中,精神权利与财产权利并列,一同为作者提供创作激励:以署名权为核心的精神权利提供名誉激励,以复制权为核心的财产权利提供经济激励。主观尊严利益和客观许可利益是人工智能数据训练对版权人的两个冲击点。在版权法视野下,人工智能训练数据的版权信息披露是必要的,一方面版权信息披露是对作者精神权利的尊重和认可,另一方面版权信息披露为著作财产权利的实现提供了便利。 (一)版权信息披露的道德语法:承认并尊重作者精神权利 对作者精神权利的承认和尊重,是证立人工智能训练数据版权信息披露义务的一个重要法理逻辑。以署名为核心的精神权利在版权法英文文献中的用词是“credit”,该词意指对某人贡献的承认、为某人赢得名誉。英文单词“credit”的名词词义之一是影视作品片头或片尾字幕中的演员职员信息表。训练数据版权信息披露的内容会涉及作者、作品名称等信息,其作用与影视作品中的演员职员信息表一样,是在道德意义上对作者及其作品在人工智能模型开发中的贡献的承认,为作者赢得荣誉。 当前多数观点认为人工智能数据训练中的作品复制、汇编等构成合理使用,即便如此,人工智能企业作为合理使用者仍应尊重和认可作者的精神权利。相比财产权利,精神权利在版权法中常被边缘化,但却更为根本、更具自然权利属性。在作者权传统中,著作权是作者人格的延伸,作者精神权利属于人格权,是固有的,不能被放弃和剥夺。正因如此,版权法中包括合理使用在内的权利限制或例外原则上只能克减财产权利,不得剥夺作者的精神权利。《伯尔尼公约》第10条第3款强调作品的合理使用应当“指明作品出处和作者姓名”。与《伯尔尼公约》一致,《中华人民共和国著作权法》(以下简称“《著作权法》”)第24条规定合理使用可以不经许可、不支付报酬,但“应当指明作者姓名或名称、作品名称”。合理使用者的署名等义务不得随意豁免,原则上应勉力履行,不履行则应具有正当理由。依据上述国际条约和国内法律的规定,即使人工智能数据训练的合理使用观点成立,也仅仅是免除了著作财产权利许可和报酬支付义务,人工智能企业标明作品出处和作者姓名以示尊重和认可的义务依然存在。 退一步来讲,即便人工智能数据训练中的作品复制、汇编等不构成合理使用,而采用法定许可或者授权许可,“披露训练数据中的版权信息以尊重和认可作者精神权利”这一命题依然成立。这是因为,不仅限于合理使用,法定许可、授权许可中的作品使用者也应履行署名义务,标明作品出处。理由有二:第一,从法解释学来看,合理使用是一项较为严格的权利限制(无需许可,不付报酬),法定许可是较为轻微的权利限制(无需许可),授权许可没有负担权利限制,合理使用者依据《著作权法》第24条应标明作品出处,举重以明轻,法定许可和授权许可中的作品使用者当然也应标明作品出处。第二,依据《著作权法》第31条,出版者、表演者、录音录像制作者、广播电台、电视台等依照本法有关规定(包括法定许可、授权许可)使用他人作品,不得侵犯作者的署名权等。更为具体的法律条文如《著作权法》第25条,规定课件制作法定许可应“指明作者姓名或名称、作品名称”。总的来说,合理使用、法定许可、授权许可中的作品使用者均应尊重作者的精神权利,履行署名等义务。不管构成合理使用,还是不构成合理使用,人工智能企业均应披露训练数据的版权信息以尊重和认可作者的精神权利。 我们应认识到,作者的精神权利并不是无足轻重,基于作者精神权利的训练数据版权信息披露义务也并非无关痛痒,因为其事关“承认”问题。为承认而斗争——这是由黑格尔(Hegel)提出后经霍耐特(Honneth)继承发展的一个著名命题。黑格尔指出,一个主体的自我意识需要在另一个自我意识主体的承认中得到满足。霍耐特认为,人类尊严和荣誉的承认构成社会正义的中心原则,内心期望的承认遭受破灭的这一蔑视体验是社会冲突的重要原因之一。以往的经济学家、社会学家只看到了人类社会冲突的经济动机而忽视了其中的道德动因。人的权利纠纷,不仅会因经济冲突而起,也会因道德冲突而生,这就解释了人们为何“为一元钱打官司”。作为权利纠纷的道德语法,“为承认而斗争”在版权法中并不陌生。例如,“乌苏里船歌”案、“安顺地戏”案等法律纠纷的发生原因就是歌曲《乌苏里船歌》、电影《千里走单骑》没有对赫哲族、安顺地区人民的贡献给予充分的认可和尊重,这种不被承认的蔑视体验使其走向了“打官司,讨说法”斗争道路。作品在人工智能数据训练中的贡献不被承认的蔑视体验,也是当前数据训练版权侵权纠纷的诉由之一。例如,在Tremblay, Awad v. OpenAI案中,原告控诉OpenAI侵犯版权,诉由是被告大模型训练对作品的使用没有权利许可(consent)、支付报酬(compensation),也没有署名以示尊重(credit)。无独有偶,美国作曲家、作家和出版商协会(ASCAP)2023年通过了应对人工智能的六项原则,其中的一项原则是“credit”,即要求人工智能企业通过标明作品出处等方式对模型训练中作品性数据的贡献予以承认和尊重。尊重并认可署名等精神权利是对作者心情的体察,是对作者感情的关怀,事关作者尊严的承认,具有更为根本性的内涵,人工智能训练数据的版权治理应对此给予充分重视。 (二)版权信息披露的经济动因:辅助著作财产利益的实现 除了承认并尊重作者的贡献,训练数据的版权信息披露还有助于著作财产利益的实现。前文已述,目前主流观点认为人工智能数据训练对作品的复制、汇编等构成合理使用。不过,合理使用不能适用于人工智能数据训练的所有场景,如以模仿个别作者为目的且生成内容与被学习作品实质相似的人工智能,其将作品用于数据训练很难认定为合理使用,未经许可复制使用作品的,应承担侵权责任。不管是构成合理使用,还是不构成合理使用,训练数据版权信息的公开均可为著作财产利益的实现提供制度便利。 对于不构成合理使用的人工智能数据训练(如以模仿个别作者为目的且生成内容与被学习作品实质相似),训练数据版权信息披露能够辅助“接触+实质性相似”侵权认定规则的适用,进而判定侵权责任、保护许可利益。必须承认,人工智能有时是从训练数据中“记忆”而非“学习”,会出现生成内容与训练数据实质性相似的侵权问题。版权侵权认定规则“接触+实质性相似”中的“接触”要件在实际适用过程中被简化的“在先发表”架空,理应重申“接触”要件的独立性和重要性。如前所述,训练数据版权信息的披露就是证明人工智能企业“接触”版权作品的直接证据,有助于核查被诉侵权的人工智能系统是否复制使用过涉案作品。此外,训练数据版权信息的披露也便于确定“实质性相似”的比较对象。综上,训练数据版权信息披露能够辅助版权侵权认定规则“接触+实质性相似”的适用以及侵权责任的判定,这可以从反面敦促人工智能企业寻求作品性训练数据的版权授权,保障版权人的许可利益。 即使数据训练中的作品复制、汇编等构成合理使用,人工智能企业仍有与权利人进行版权合作的可能,而训练数据版权信息披露能为双方之间可能发生的版权合作提供便利。《著作权法》第24条规定,合理使用者“可以不经著作权人许可,不向其支付报酬”。注意,这里是“可以”而非“应当”,合理使用者可以不经许可、不付报酬,也可以寻求许可、支付报酬。法律作如此规定,为合理使用者预留了以较高道德标准进行行动的空间,合理使用者出于道德、名誉、形象等可以放弃“不经许可,不付报酬”特权,转而寻求与权利人进行版权合作,这对于维系社会情感的多样性、促进社会道德水平的提升,无疑具有促进作用。合理使用者放弃特权、寻求合作的可能性不是想象出来的,实践中确有实例。譬如,在《纽约时报》起诉OpenAI版权侵权之后,OpenAI于2024年1月8日发表声明强调其数据训练中的作品复制等使用行为属于合理使用。四个月后也即2024年5月7日,OpenAI再次发表声明称“虽然我们相信法律先例和正确的公共政策会将机器学习定性为合理使用,但是我们也认为,针对人工智能时代的内容促成一个广泛有益的社会合作是很重要的”。在坚称合理使用的同时,OpenAI自2023年12月以来陆续与大西洋杂志社(The Atlantic)、新闻集团(News Corp)、斯普林格集团(Axel Springer)等多个版权主体展开内容合作。其中,OpenAI与新闻集团的内容合作涉及《华尔街日报》《纽约邮报》《泰晤士报》等,相关新闻报道称该交易额高达2.5亿美元。人工智能训练数据的版权信息披露对版权合作的达成具有积极作用:一方面,其作为信息工具,可为合作谈判提供交易对象的基本信息,降低交易成本;另一方面,其作为信任工具,可使版权人基于知情而产生信任,也可使人工智能企业向外传递可信赖、负责任等积极的合作信号。 此外,如果将人工智能数据训练中的作品复制、汇编等定性为合理使用,其合理使用法律规则也可能采用“允许权利保留”的立法模式,在这种立法模式中训练数据版权信息的披露是权利人主张权利保留、选择退出的制度保障。由于权利冲突的复杂性、权利衡量的多重性,知识产权的权利限制也有受到反限制的特点。作为版权权利限制,合理使用也存在反限制,例如《著作权法》第24条第1款第(四)项和第(五)项在时事性文章、公众集会讲话的合理使用规则中附加一个但书,即著作权人/作者声明不许刊登、播放的除外。与人工智能数据训练相关的一个同类立法例是欧盟2019年《单一数字市场版权指令》第4条,其对商业目的的文本数据挖掘例外附加了“退出机制”,该规则具有较强的域外影响力,有可能成为下一个“布鲁塞尔效应”(brussels effect)。训练数据版权信息的公开对权利保留、选择退出而言非常重要,因为除非版权人知晓人工智能训练数据中的作品信息,否则版权人无法进一步行使自己的退出权利,也无法检查自己已经作出权利保留的作品是否被纳入训练数据集。在这个意义上,可以说,欧盟2024年《人工智能法》第53(1)条d项所规定的训练数据信息披露义务是欧盟2019年《单一数字市场版权指令》第4(3)条(该条规定版权人可以选择权利保留、退出合理使用规则)的配套性立法。
技术竞争和产业竞争具有国际性,而法律规则的调整变动会深刻影响技术、产业的国际竞争。人工智能训练数据版权信息披露规则的确立及其规则设计,应具有必要的国际视野,考虑国内人工智能企业的国际竞争,评估人工智能投资跨国移转的可能性。因此,比较法研究是我国人工智能训练数据版权信息披露法律制度建设的必要一环。因篇幅有限,本文重点对欧盟法和美国法进行比较分析。 欧盟《人工智能法》于2021年4月提出,2024年7月正式颁布。最初,欧盟《人工智能法(草案)》并不意图处理版权问题。然而,2022年末以来生成式人工智能的兴起尤其是ChatGPT等大模型的发布和应用,促使欧盟立法者尝试解决其中的版权问题,因此2023年上半年版权议题被引入《人工智能法(草案)》。2023年6月,欧洲议会提议在《人工智能法(草案)》中引入两个版权相关条款:一是第28b(4)条b项之内容合规义务,即在现有技术框架下以及不损害包括言论自由在内的基本人权的情况下,采取充分的安全措施来防止生成内容违反包括版权法在内的欧盟法律;二是第28b(4)条c项之版权透明义务,即人工智能企业应记录并公开一份足够详细的使用受版权保护的训练数据的概要(summary)。 上述拟定条款在2024年最终颁布的《人工智能法》中演变为第五章“通用人工智能模型”第2节“通用人工智能模型提供商的义务”第53(1)条c项和d项。第53(1)条c项规定:模型提供商有义务制定政策以遵守欧盟版权法,尤其是识别并遵守(包括采用最先进技术措施)权利人依据《单一数字市场版权指令》第4(3)条明确作出的权利保留。第53(1)条d项规定:模型提供商应参照人工智能办公室提供的模板,记录并公开一份充分详细的关于通用人工智能模型训练所用内容的概要。值得注意的是,第53(1)条d项与原初拟定的条款不同,规定人工智能企业的训练数据信息披露范围涵盖所有数据,不再特地要求其与版权相关。 不过,我们应看到,《人工智能法》第53(1)条d项之训练数据信息披露的重点依然是版权信息。我们不应孤立地解读第53(1)条d项,而应结合序言第107条和第53(1)条c项予以体系化解析。虽然第53(1)条d项不再将训练数据的透明义务限于版权性数据,但序言第107条指出第53(1)条d项中的训练数据透明义务主要服务于版权人的权利行使(即从文本数据挖掘版权例外中选择退出的权利),这表明欧盟《人工智能法》第53(1)条d项之训练数据透明义务仍然主要着眼于版权问题。总的来说,《人工智能法》第53(1)条c项是对欧盟2019年《单一数字市场版权指令》第4(3)条之版权人选择退出权利的重申,紧随其后的第53(1)条d项旨在保障该选择退出权利的实现——只有充分获知训练数据的具体情况,版权人才能更好地行使退出权利以及检查人工智能企业是否真正遵守了退出义务。可以认为,第53(1)条d项中训练数据信息披露的重点依然是版权信息,也可以预见,在欧盟人工智能办公室将来发布的信息披露模板中,版权信息将会被重点强调。《人工智能法》序言对训练数据信息披露作出了更为详细的说明,具体内容如表1所示。表1 欧盟《人工智能法》序言关于训练数据信息披露义务的规定序言 | 主要内容 |
第104条 | 本法中开源人工智能模型的透明度例外条款不延及训练数据信息披露 |
第107条 | 训练数据信息披露义务应考虑商业秘密和机密信息的保护 |
模型提供者起草并公开一份足够详细的关于人工智能模型训练所用内容的概要 |
上述概要不要求技术性详细但应综合、全面,以方便包括版权人在内的各利益主体去行使和执行欧盟法所规定的权利 |
人工智能办公室应提供一个简单、有效、允许叙述性信息披露的概要模板 |
第108条 | 人工智能办公室负责监督训练数据披露义务的履行 |
第109条 | 科研目的的人工智能提供商不受数据披露义务约束,但鼓励其自愿遵守该义务 |
在不影响欧盟版权法的前提下,允许包括初创企业在内的中小企业简化合规方式 |
在对模型进行修改或微调时,训练数据信息披露义务仅限于该修改或微调 |
各类版权协会所主导的民间倡议,是美国人工智能训练数据版权信息披露主张的首要体现。2023年3月6日,包括版权协会、出版商、艺术家个体在内的美国版权人在华盛顿发起“人类艺术运动”(Human Artistry Campaign)。该项运动提出七项人工智能应用准则,其中第6项强调“可信度和透明度对人工智能的成功和创作者的保护至关重要”,指出“完整记录受版权保护的作品、表演和肖像,包括它们用于开发和训练任何人工智能系统的方式,是非常重要的。算法的透明度和作品出处的清晰识别是人工智能可信度的基础”,呼吁利益相关者联合制定技术标准来识别训练数据中的版权内容,记录其使用方式,并予以披露。无独有偶,如前文所述,美国作曲家、作家和出版商协会2023年通过应对人工智能的六项准则,其中之一为透明原则,强调人工智能企业应保留源数据。 很快,国家层面关注到了相关民间倡议,并与之进行对话。2023年8月30日,美国版权局就“人工智能与版权”议题公开征求意见,其中设专节就“透明和记录”(transparency & recordkeeping)问题向公众征求意见:为了让版权人能够确定他们的作品是否被使用,是否应该要求人工智能模型开发商收集、保存和披露关于用于训练模型的内容材料的记录,训练数据集的创建者是否应该承担类似的义务?具体来说,记录和披露需要何种精确程度?应该向谁披露?使用第三方模型的人工智能开发商应承担哪些义务?这种记录和披露规则对人工智能模型或系统开发商、创作者、消费者或其他相关方的成本是什么?该征求意见于2023年12月截止,收到超过1万份的意见反馈。按工作计划,美国版权局2024年将会就该征求意见出具一份总结报告。 除美国版权局征求意见之外,还有美国国会议员的立法动议。2023年12月,美国众议院议员提出立法草案《人工智能基础模型透明法》(AI Foundation Model Transparency),要求联邦贸易委员会等构建与训练数据透明相关的法律规则。2024年4月,如前所述,美国众议院议员提出立法草案《生成式人工智能版权披露法案》,要求人工智能企业在智能产品新版本或更新版本发布上市至少30天前,向美国版权局提交一份足够详细的关于人工智能数据训练所用版权作品的概要;若训练数据是网络上的公开数据,则应提交其网址链接。美国版权局应建立并维护线上数据库,并向社会公开。该提案的上述要求可追溯适用于之前已经发布上市的人工智能系统。该义务如有违反,则处不低于5000美元的罚款。该立法提案获得了美国唱片业协会、美国作家协会、美国职业摄影协会、北美词曲作家协会、美国音乐出版商等版权组织的支持。此外,2024年5月,美国参议院发布报告《驱动美国人工智能创新》,其中提到应考虑人工智能训练数据的联邦政策问题,包括评估训练数据集中版权数据的透明度问题。 总的来说,欧美等世界主要国家和地区均已关注到并开始着手处理人工智能训练数据的版权信息披露问题,相关法律实践是围绕人工智能企业与版权人、消费者等主体的利益平衡问题展开的。比较而言,弱披露规则可以降低人工智能企业的合规成本,更偏向人工智能企业的利益;而强披露规则可以更好地保障版权人、消费者的知情权等,更偏重版权人、消费者的利益。训练数据版权信息披露的规则设计,该如何调和人工智能企业的利益与版权人、消费者的利益?这是欧美法律实践的核心问题,其具体体现为以下四个议题的抉择。 其一,披露范围应当聚焦于版权还是全类覆盖?在美国,不管是民间倡议,还是国家立法,主要强调训练数据版权信息的透明。欧盟《人工智能法》2023年草案曾要求人工智能企业披露受版权保护的训练数据,而2024年最终公布的法案不再将披露范围限于训练数据的版权信息,而是要求披露所有的训练数据信息。相比而言,将披露范围聚焦于版权信息会增加人工智能企业从训练数据集中识别、筛选受版权保护数据的成本,但其优点有二:第一,将披露范围限于版权数据而非全部数据,更容易获得人工智能企业的理解和配合,因为训练数据之上具有显著的竞争利益,训练数据信息披露对人工智能企业而言是宁少勿多、宁窄勿宽。第二,从训练数据集中识别、筛选出版权信息,能够实现上文所述的版权法目标,即表明作品出处以承认和尊重作者的精神权利,公开版权信息以促成版权交易和内容合作。此外,如果要求披露全部训练数据势必会涉及个人信息数据,而个人信息保护法是禁止或限制人工智能企业将个人信息数据向第三方机构披露或向社会公开的。要求人工智能企业披露全类训练数据,的确可以减少版权数据的识别、筛选成本,但势必会增加个人信息识别、筛选成本以及信息披露法律风险成本,而后者可能要比前者更大。 其二,披露义务应为自愿遵守还是强制履行?在欧美法律实践中,人工智能训练数据的版权信息披露多为强制性,这种强制性以较为严厉的法律责任为后盾。不过,也有非强制性的,如欧盟《人工智能法》序言第109条规定科研目的的人工智能提供商不受训练数据披露义务约束,但鼓励其自愿遵守该义务。另如,我国网络安全标准化技术委员会2024年3月发布的规范性技术文件《生成式人工智能服务安全基本要求》,第5.2条提出人工智能服务商“宜”公开语料(训练数据)中涉及知识产权部分的概要信息。可以认为,人工智能训练数据版权信息披露的制度规范具有多样性,既有基于鼓励和自愿的柔性规范,也有基于强制和问责的刚性规范。 其三,披露标准应是综合性概要还是详细清单?欧盟《人工智能法》序言第107条指出“训练数据披露不需在技术上详细但应全面综合”,也即不要求逐个详尽披露训练数据,只需列出主要数据集合以及对其他零散数据进行叙述性披露。反观美国,《生成式人工智能版权披露法案》(草案)要求更为详细的内容披露,如要求人工智能企业提供相关数据的网址链接。概要式的信息披露,更多地考虑到了人工智能企业的合规成本问题,而清单式的信息披露,更多地关照到了版权人的相关利益。两者具有不同的价值取向和利益偏好,一刀切式地规定概要式信息披露抑或清单式信息披露,似乎均有不妥。更为可取的办法是,为不同的人工智能类型设置不同的披露标准。 其四,披露规则的例外情形该如何配置?法谚有云:有原则恒有例外。就训练数据版权信息披露而言,披露应为原则,而不披露应为例外,披露的例外情形是披露规则的重要组成部分。例如,欧盟《人工智能法》序言第107条强调信息披露应考虑人工智能企业的商业秘密保护。又如,欧盟《人工智能法》序言第109条强调应允许包括初创型企业在内的中小型企业简化合规方式。总的来说,披露的例外规则有两类:一类是避免与他人权利冲突的披露例外情形,另一类是基于市场竞争考虑的披露例外情形。
综合考虑训练数据版权信息披露的透明价值、版权目标,以及域外法治经验,我国的制度方案应兼顾国内国际两个大局:一方面,信息披露规范应妥当设置披露范围、披露自由度、披露标准和披露例外,注意平衡国内人工智能企业、版权人、消费者的利益,不能盲目偏袒任何一方;另一方面,法律规制强度应与欧美等国家和地区的法律规则保持相当水平,注意发展并维护我国人工智能技术和产业的国际竞争力,避免处于竞争劣势。具体来说,我国可从“纵向层次”和“横向结构”两个方面设置训练数据版权信息披露的自由度、标准和例外情形,同时通过多方参与的规范实施机制将披露规范从“纸面上的法律”转变为“行动中的法律”。 (一)版权信息披露规范的纵向层次:柔性规范、中性规范、刚性规范 在训练数据版权信息披露制度愿景中,我们意欲规范的人工智能是多样的,意图保护的价值和利益是多元的。因此,一刀切式地规定强制披露抑或自愿披露、概要式披露抑或清单式披露,要么会失之于宽,要么会失之于严。相比而言,类型化、场景化、层次化的立法更有可能取得令人满意的规范效果。本文主张以透明价值和版权目标为导向,以“技术分类、规则分级”为基本方法,为不同的人工智能类型梯次配置不同强度的训练数据版权信息披露规范。具体来说,训练数据版权信息披露规范的三个层次如下。 第一,非表达型人工智能适配柔性披露规范,鼓励自愿披露。非表达型人工智能,指没有表达性内容输出的人工智能,例如自动识别技术、药物筛选技术等。脸书公司等使用某影视公司的三维影视作品所训练的自动驾驶场景识别技术,即属此类。非表达型人工智能在输出端没有表达性内容的输出,不会取代版权人的作品市场,更不会威胁人类的创作性职业,其对作品的使用是未落入版权财产权利控制范围之内的非作品性使用。因此,非表达型人工智能的训练数据版权信息披露可适配强制性最弱的柔性规范。不过,从实现透明内在价值(社会信任与合作)和尊重作者精神权利(为承认而斗争)角度来看,非表达型人工智能训练数据的版权信息披露仍有必要性。所以,非表达型人工智能适配的柔性规范适宜采取“遵守或解释”(comply or explain)机制:鼓励非表达型人工智能企业披露训练数据中的版权信息,当然其也可以选择不披露,但应对不披露作出解释。“遵守或解释”机制最早源于公司法,当代法理学主张使用该机制来加强软法的约束力。如表2所示,被规范主体是否披露以及以何种标准披露版权信息由其自主决定,但不披露负有解释义务,因此具有一定的软约束力。“遵守或解释”机制具有以下两个制度优点:其一,“披露”抑或“不披露并予以解释”,能够让非表达型人工智能企业根据自身情况自由选择,规则的灵活性能使企业更好地应对市场环境的不断变化。其二,“不披露并予以解释”是一种很好的信号传递机制,能够彰显企业的负责任态度,对社会信任和合作具有积极价值。 第二,大众表达型人工智能适配中性披露规范,即程序上规定强制披露,实体上允许概要式披露。大众表达型人工智能,指以模仿大众表达为目的的生成式人工智能,被用于数据训练的作品来自数量众多的作者。大部分生成式人工智能在实践中属于该类。例如,微软小冰为了开发绘画功能,使用人类近400年内236位著名画家的画作来训练其绘画模型。大众表达型人工智能有表达性内容输出,所学习以及生成的内容是大数据中的大众表达,不大可能会替代某个被学习作品的市场,但会冲击人类的创作性职业。大众表达型人工智能数据训练的版权规则以合理使用为主。上文已述,合理使用者应依法标明作品出处以承认和尊重作者精神权利;而且,合理使用规则不排斥版权合作以及可能附加退出机制。这表明版权人在大众表达型人工智能场景中仍可能获得一些财产利益,版权信息披露对可能的版权合作具有辅助作用。鉴于大众表达型人工智能对版权人利益的影响强度,以及考虑对作者精神权利的尊重、对可能存在的版权合作的支持,该类人工智能的训练数据版权信息披露可适配中性披露规范。如表2所示,其内容主要有以下两点。一是程序强制,即大众表达型人工智能必须披露其训练数据中的版权信息,信息披露具有强制性。这与上文的柔性规范不同,柔性规范之下被规范主体是否披露具有相当程度的自由度和自主性。二是实体宽松,即放宽内容披露标准,不要求有详细清单,仅要求综合性的概要,允许叙述性披露。这与下文的刚性规范不同,刚性规范之下被规范主体的内容披露标准更高。 第三,个人表达型人工智能适配刚性披露规范,即程序上规定强制披露,实体上要求清单式披露。个人表达型人工智能,指以模仿个别作者为目的的生成式人工智能,被用于数据训练的作品主要来自特定作者。例如,“AI孙燕姿”等AI歌手通过学习目标歌手的曲目而生成声学模型。个人表达型人工智能有表达性内容输出,所学习以及生成的内容主要是特定主体的个性化表达,对被学习作品以及特定作者具有较为显著的市场替代作用。据此,个人表达型人工智能的数据训练很难认定为合理使用,其对作品的使用应获取许可、支付报酬。该类人工智能旨在学习模仿个别作者,其作品性训练数据比较容易识别和记录,版权信息披露的合规成本相对较低。综合考虑个人表达型人工智能对版权人利益的显著影响强度、人工智能企业的合规成本、作者精神权利的承认需要、版权合作的制度支撑等因素,该类人工智能的训练数据版权信息披露适宜配置刚性披露规范。如表2所示,其内容主要有如下两点。一是程序强制,即个人表达型人工智能必须披露其训练数据中的版权信息,信息披露具有强制性。这与柔性规范不同,与中性规范相同。二是实体严格,即内容披露标准应该从严,要求清单式披露,尽量披露训练数据中的作品信息及其作者信息,这与中性规范的概要式披露有所不同。
(二)版权信息披露规范的横向结构:原则性规定与例外情形 原则与例外是重要且常见的法学思维方式,关涉法律的体系性与科学性。原则之所以需要例外,有两个原因:一是提高法律的妥当性。原则只有在一般情形下具有妥当性,不能确保在所有情形下均具有妥当性。为最大程度实现妥当性,例外是“法律系统在诸‘原则’之下于系统内进行自省式运行”的一种机制。二是保证法律的灵活性。以原则为主体的法律规范是一般化的,而具体的生活实践是多样的。例外为原则性规定的适用提供了回旋余地和缓和机制,避免原则性规定一刀切式地僵化适用。人工智能训练数据的版权信息披露规范也存在这种“原则-例外”关系:披露规范以“原则”形式予以规定,同时承认存在“例外”情形。上文中由柔性规范、中性规范、刚性规范组成的纵向层级性披露规范是训练数据版权信息披露规范的主体,即原则性规定,下文将主要讨论披露规范的例外情形。总的来说,例外情形有以下两类。 其一,基于市场竞争考量的例外情形。新技术版权规则所欲解决的利益冲突除了技术提供商与版权人之间的利益冲突,还有大技术提供商与中小技术提供商之间的利益冲突。后一种利益冲突关涉技术提供商之间的市场竞争问题,而市场竞争又与技术创新密切相关,因此不可不察。一项版权规则会增加技术提供商的合规成本,而大企业与中小企业对同一版权合规成本的承受力是不同的。相较而言,同一版权合规成本对大企业负担较小,而对中小企业负担较大。如果不对中小企业予以例外关照,会使其处于市场竞争劣势,提高初创型企业的市场进入门槛,长此以往,会使市场不断寡头化。因此,为了维护市场竞争、促进技术创新,人工智能训练数据的版权信息披露规范应为中小企业作出例外规定。 其二,基于权益非冲突性的例外情形。若同一客体之上存在复数权益,则有权益冲突之可能。法律是为解决权益冲突而生,绝非为制造权益冲突而生,因此原则性的法律规定需要基于权益非冲突性作出例外让步。人工智能训练数据之上不仅有版权权益,还可能涉及人工智能企业的商业秘密权益、网络用户的个人信息权益。我国2024年9月出台了《网络数据安全管理条例》,该条例第19条强调生成式人工智能服务提供者应当加强对训练数据的安全管理,而个人信息保护、商业秘密保护正是训练数据安全管理的核心内容。为解决权益冲突问题,如果人工智能企业披露训练数据中的作品性数据信息会侵害人工智能企业的商业秘密权益或网络用户的个人信息权益,则有必要对人工智能企业的训练数据版权信息披露义务作出例外规定。 (三)版权信息披露规范的实施机制:执法司法、行业自治与企业合规 如果说上文中由“纵向层次”和“横向结构”组成的训练数据版权信息披露规范是“纸面上的法律”,那么本节内容讨论的是纸面法律该如何落地实施成为“行动中的法律”。法律的生命在于实施。训练数据版权信息披露规范的落地实施,需要国家、行业、企业等各方力量的协作。 首先,以执法和司法为抓手推动训练数据版权信息披露规范的实施。一方面,确定国家版权局为版权信息披露的管理者和监督者。训练数据版权信息披露需要一个行政执法部门,如欧盟《人工智能法》中的人工智能办公室、美国《生成式人工智能版权披露法案》(草案)中的美国版权局。为了推动披露程序运转,我国可将国家版权局作为主管部门,负责接收被披露的版权信息并建立可供公众查询的公共数据库。另一方面,发挥法院对版权信息披露实践的指导作用。法院的司法判例和司法建议对实践具有指导意义,如前所述,法院2007年的“何某诉教育部考试中心案”判决及司法建议,对高考试卷合理使用他人作品如何标明作品出处、尊重作者精神权利具有重大实践意义。同样地,我们应重视并充分发挥司法对训练数据版权信息披露实践的指导作用。 其次,召集各利益相关方起草训练数据版权信息披露的行业准则。披露规范中的许多要求较为抽象,其落地实施需要更有操作性的行为准则。正因如此,欧盟《人工智能法》非常重视“行业准则”(code of practice)的作用,其第56条规定:欧盟人工智能办公室应邀请各方利益主体共同起草行业准则,对包括训练数据信息概要式披露的详细充分程度在内的问题给予更为具体的实践指导。我国也应该充分调动行业自治的积极性和能动性,指导各利益相关方就相关文档记录标准、技术标准凝聚行业共识,提炼行业内的最佳实践经验,形成能够辅助训练数据版权信息披露规范落地实施的行业准则。 最后,引导人工智能企业内部合规。过度依赖执法等压力性外部监管,会不当地增加监管成本、降低监管效能;企业合规能够克服外部监管的局限性,激活企业自我规制、自我整改的能力,显著提高法律实施效果。人工智能企业作为训练数据版权信息披露的行动主体,其积极性应被充分调动起来,实现自我合规。例如,欧盟人工智能办公室发布训练数据信息披露模板,实质上就是指导企业自我合规的重要举措。我国版权局也可以发布披露文档模板、示范案例等合规指引,兼以行政指导、教育引导、信用评价等温和手段激发企业自我合规的内在动力,使其与监管部门相向而行。 (四)版权信息披露对我国人工智能国际竞争力的影响评估及优化策略 作为人工智能的法律规制,训练数据版权信息披露会对技术和产业的国际竞争产生影响,因为在国际共识尚未达成、国际统一行动尚未成型的背景下,一国法律规则的冒进会增加国内企业参与国际竞争的法律成本,引发相关投资的国际转移。因此,为不损害人工智能的国际竞争力,我国的训练数据版权信息披露应与世界主要国家和地区的相关法律规则相当,不应过于严格。如前文所述,本文的训练数据版权信息披露方案由“纸面上的法律”和“行动中的法律”组成,从这两个方面来看,本文的披露方案对我国人工智能国际竞争力是友好的。 首先,“纸面上的法律”包括版权信息披露的柔性规范、中性规范、刚性规范、例外规范,其与欧盟和美国的法律规则相比,具有相当性。具体来说,非表达型人工智能的柔性披露规范是基于自愿和鼓励的,覆盖范围比欧美的自愿披露规范更广;大众表达型人工智能的中性披露规范采取概要式披露,与欧美法律基本一致;个人表达型人工智能的刚性披露规范虽然采用清单式披露,但鉴于其训练数据集中于特定作者群体,版权信息记录、披露成本较小,对人工智能企业竞争力的影响有限;最后,上述披露规范还附加有较为全面的例外情形。与欧美等国家和地区规则基本持平的训练数据版权信息披露规范,不会对我国人工智能企业的国际竞争力产生较大负面影响。 其次,“纸面上的法律”可能存在的问题可以经由“行动中的法律”予以优化。立法主导的“纸面上的法律”是人工智能法治的重中之重,但人工智能法治不能单纯依靠立法,还应重视“行动中的法律”,充分发挥执法司法机关、行业、企业的能动性。静态纸面上的训练数据版权信息披露规范存在很多“建设性模糊”(constructive ambiguities),如灵活的法律规则和抽象的法律概念,这为执法司法机关、行业、企业实施法律,形成“行动中的法律”预留了很多机动空间。如果我国披露规范的某些内容对人工智能企业国际竞争力产生不利影响,或世界主要国家和地区的相关法律规则有新的变化,我们可以通过执法司法、行业自治、企业合规等环节来动态地改进“行动中的法律”,以发展和维护我国人工智能企业的国际竞争力。
在人工智能时代,作品具有数据资源属性和算法训练价值,人工智能企业将作品作为数据资源用于算法模型训练。在此背景下,人工智能训练数据集中的版权性数据信息是否应当予以披露,以及该如何披露?这已成为当前世界主要国家和地区人工智能法治热切关注的一个重点问题。经过透明价值的哲理思考、版权法目标的法理解析、域外法治实践的比较研究、披露规范的层次化配置和结构性设置,本文认为,人工智能训练数据的版权信息披露不仅必要,而且可行。 作为人工智能全过程透明的三大类型之一,训练数据版权信息披露是人工智能法治的重要组成部分。可以预期,面对日新月异的技术革命和产业变革,本文提出的人工智能训练数据版权信息披露规范的具体内容可能需要因应具体需求不断更新,而本文提出的层次化、结构性、动态化披露规范体系的生命力是强健的——相比于一刀切式的静态法治思维,技术分类-规则分级、原则性规定-例外情形、纸面上的法律-行动中的法律等思维框架更具针对性、实效性和灵活性,也更为精细化。我们应基于上述思维框架,根据技术和产业的未来发展状况以及人工智能法治的国际动向,适时对训练数据版权信息披露规范的层级配置、规则内容、例外情形、实施机制等作出相应调整。