商业秘密是否可以成为AI时代另辟蹊径的知识产权保护手段?本文探讨了AI时代商业秘密保护的挑战,分析了生成式AI中数据和算法的保护问题,提出了企业在AI研发中的商业秘密保护策略,并探讨了针对应用AI企业可能面临的商业秘密风险及保护方案。
作者丨陈际红 吴小旭 马辰
随着生成式人工智能技术的发展,业界在不断探索生成式人工智能技术以及相关应用创新对于知识产权制度带来的挑战,从人工智能算法的可专利性、AI参与创造带来的著作权保护客体问题、人工智能作为专利发明人的挑战,以及大模型在训练、运营过程中所形成的大量具有商业价值的数据等。这些新的成果及产物对传统的知识产权保护制度带来极大的冲击。商业秘密,作为一种防御性的知识产权权益,一方面,不需要经过法定的授权程序,另一方面,其构成要件上似乎也可以“避免”专利权、著作权等权利要件所要求的“人的创作”、“属于表达”、“解决技术问题”等限制性条件的要求,似乎可以为人工智能技术及应用提供“天然的权利保护屏障”。本文主要探讨商业秘密是否可以成为人工智能时代另辟蹊径的知识产权保护手段。
一、生成式人工智能带来的特有商业秘密保护问题
生成式人工智能技术的工作原理为:从现有数据中学习模式和特征,基于学习数据(训练数据)生成与所学模式相符的新数据,同时通过迭代训练过程来完善其输出结果。因此,目前的生成式人工智能技术是基于算法和大数据相关性而进行归纳推理,从大数据的复杂关系中找出规则,并进行预测,并输出结果[1]。对于生成式人工智能技术而言来说,数据、算法是实现其“输出结果”的关键因素。特别是,大模型训练过程中所形成的权重(即“数据”)对于输出结果的准确性十分重要。然而,这关键的数据及算法往往在是否“属于版权的表达”方面产生争议,导致其难以通过传统的软件著作权方式进行保护,而模型“黑匣子”中所包含的数据、算法等却十分符合“商业秘密”的保密性要求。
此外,在生成式人工智能技术的应用中,用户通过输入提示词来创建新内容。正如以上的工作原理分析,生成式人工智能技术将根据输入内容来预测输出结果。因此,如果输入内容包含商业秘密,则人工智能技术提供方在提供其服务时很可能会接触到相关商业秘密。此前三星集团也发生了员工在使用ChatGPT处理工作时无意间泄露了公司保密数据的事件。在Cyber Haven的一项调查中显示“员工粘贴到ChatGPT中的11%数据是机密”[2],因此,企业在引入生成式人工智能技术时,对于如何保证自身的商业秘密问题也逐步引发关注。
基于上述生成式人工智能技术涉及商业秘密保护的特殊性,以下将从人工智能技术的研发及应用两个角度出发,分别探讨企业在开发、应用人工智能技术涉及的商业秘密保护问题。
二、人工智能技术的商业秘密保护
《反不正当竞争法》对于“商业秘密”的定义为“不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息”。司法实践中,权利人在主张“商业秘密”权利时,通常需要证明相关信息满足以下条件:1)不为公众所知悉;2)具有商业价值;以及3)采取合理的保密措施。
生成式人工智能技术用以训练或学习的数据资源,广泛地牵涉到作品、个人信息、商业秘密等。本文在假设企业合法获取训练数据的基础上,结合商业秘密的构成要件,探讨利用训练数据进行人工智能技术开发过程中所形成的信息是否可以通过商业秘密的方式进行保护。
结合生成式人工智能技术的开发流程可知,大模型从训练、微调到推理过程中,其相关信息内容主要包括:代码、算法以及数据。
1)数据
大模型开发过程中涉及多种数据,涵盖原始数据、标注数据、权重等。在原始数据方面,大模型训练所需的数据用万亿级别计算,基本上依赖各类公开信息,如出版书籍、文学作品、学术论文、学校课本、权威媒体的新闻报道、维基百科、百度百科等[3]。在训练过程中,出于训练数据的质量要求,研发企业往往还会对数据进行清洗、标注、转换等,并形成相关的训练数据集。高质量的数据集对后续模型的训练至关重要。一些企业会将某些数据集进行开源,供公众进行模型训练。可见,训练过程形成的训练数据集、权重等数据,将有利于提升大模型的训练质量及推理质量,具有商业价值。
在大模型开发过程中,由于原始数据主要为公开信息,不满足“保密性”的要求,因此,难以构成“商业秘密”。训练数据集、权重等经过企业加工、处理所形成的数据,在满足“保密性”及“保密措施”的条件下可以构成大模型研发企业的商业秘密。然而,商业秘密保护具有天然的脆弱性,一旦泄露(或“可获得”),就会失去价值。企业往往希望结合其他的保护方式对其无形资产进行保护。此外,司法实践中,当权利人主张“商业秘密”时,还需要明确其主张保护的商业秘密的具体内容,即商业秘密的“秘点”。“秘点”范围的界定及内容的明确既是权利人的义务,也是被告否定非公知性要件或双方信息实质性相同的分析前提。如果训练数据集、权重等数据的量级十分巨大,一方面,权利人难以解释具体的内容,另一方面也存在比对分析的困难,甚至于某些数据如果基于常规算法或常规数据获得的,可能面临“非公知”的挑战。数据“商业秘密”保护方式相关的上述问题亟需在未来等待司法实践的进一步考验。
基于上述商业秘密权利的障碍,“数据持有权”相关权益可能可以成为研发企业保护大模型相关数据的备选方案。在《数据知识产权登记证》“第一案”[4]中,原告数据堂公司花费大量人力财力录制了语音数据,虽然相关语音数据进行了开源,但数据堂公司对于开源许可证进行了非商业使用的限制,同时在北京知识产权保护中心对相关数据进行登记并取得《数据知识产权登记证》。法院最终认定,数据堂公司就涉案数据集取得的《数据知识产权登记证》,可作为证明数据堂公司享有涉案数据集相关财产性利益的初步证据;涉案数据集虽然因处于公开状态不符合商业秘密的构成要件,同时因数据内容的选择、编排上不具有独创性而不构成作品,但数据堂公司对此付出大量技术、资金、劳动等实质性投入,合法收集形成具有实质量的声音数据条目,在原始数据上添附了更多的商业价值,能够满足人工智能模型研发主体对声音数据的需求,可为数据堂公司吸引流量、带来交易机会与竞争优势等商业利益。该种商业利益本质上是一种竞争性权益,属反不正当竞争法所保护的合法权益。
2)代码、算法
目前很多大模型都是在开源项目基础上进行修改、改进及调整后形成。诚然,开源代码由于“公开”无法构成商业秘密;而在开源代码基础上进行的修改、改进及调整自研部分内容,有可能构成“商业秘密”。但是,自研部分内容是否需要公开(遵守开源义务),应当受限于相关开源许可证的要求。如果大模型使用的基础是“强传染性”开源义务的开源许可证,其后续的自研部分很可能需要遵循相应的开源义务,按照相关开源许可证进行继续开源。因此,对于研发企业来说,在引入开源大模型进行研发之前,需要提前进行开源许可证的合规义务分析,以确保企业对于改进代码的知识产权策略不会与相关开源义务存在冲突。
算法描述了如何从输入数据得到输出数据所需要的计算步骤和计算规则,属于底层代码的上位概念。由于算法与计算逻辑及规则有关,可能会落入“智力活动的规则和方法”的范畴,因此,研发企业通过专利或著作权方式对算法进行保护有时候会面临客体适格方面的挑战。当研发企业将算法以“商业秘密”方式进行保护时,则可能面临大模型监管涉及的“透明性”“可解释性”的披露要求。
中国《个人信息保护法》赋予个人主体对于人工智能系统进行个人信息处理相关的知情权,《互联网信息服务算法推荐管理规定》明确提出了服务提供方的算法解释义务;欧盟《人工智能法案》要求通用人工智能模型的提供者应履行相关披露和透明度要求、公布训练数据总结等。对于如何实现“算法的透明性”,美国国家标准与技术研究院(NIST)在研究报告《可解释人工智能的四个原则》中提出了可解释人工智能的四个基本特征。具体包括:
(1)解释(Explanation),人工智能对其决策过程和结果提供依据或理由;
(2)有效性(Meaningful),人工智能提供的解释对于目标受众而言是清晰易懂的;
(3)解释准确性(Explanation Accuracy),解释可以准确反映人工智能产生特定输出的原因,或者准确反映其运作过程;
(4)知识局限性(Knowledge Limits),人工智能可以识别其设计或批准不适用的情况,或其答案不可靠的情况。
可见,算法的透明性不等于算法信息的公开,而是类似于“算法原因”的公开,需要说明算法的运作及决策逻辑、依据。对于企业来说,“算法原因公开”与“算法的商业秘密保护”并不存在天然的矛盾,而是可以寻求合理的平衡。在中国首例算法作为商业秘密保护案件[5]中,法院认为,“即使其中有些是已经公开的算法技术,但因为解决同一运算和逻辑问题有各种不同算法,原告经过付出劳动,而选择某一种或某几种算法,并不为公众所知悉且具有商业价值。”可见,即使算法已经公开,如果企业通过相关数据训练测试对算法涉及的路径选择、系数设置、权重排序等进行了选择、设置等信息,且不为公众所知悉,有可能作为商业秘密予以保护。
三、人工智能技术应用过程的商业秘密保护
在使用人工智能技术时,如果用户输入的内容涉及商业秘密,可能被人工智能技术用于响应用户的后续请求生成“输出内容”。这些“输出内容”可能是依赖输入内容形成的,很可能也构成商业秘密。甚至有观点认为,人工智能技术也可以在人类不知道的情况下生成商业秘密[6]。由于生成式人工智能技术服务的特殊性,“输入内容”在被人工智能技术处理用于形成输入时,可能被相关技术人员接触,甚至将“输入内容”用于人工智能技术的后续训练及技术改进,则输入内容相关商业秘密存在泄露的风险。同时,对于可能包含商业秘密的“输出内容”,如果相关人工智能技术服务是通过互联网方式提供,其传输过程也面临着网络安全的泄露风险。
虽然人工智能技术在应用时可能存在商业秘密泄露的问题,但在很多工作场合,其极大地提高了效率,有利于企业提升竞争力,因此,目前企业的主流方式是考虑如何合规安全地使用人工智能技术,而不是一味地禁止。从商业秘密保护角度,应用人工智能的企业应该建立整体的解决方案,涵盖基于输入内容到输出内容的流程,并重点考虑数据处理过程中相关数据流可能涉及的人员、系统等,并依此建立相关的保密要求。特别是,对于利用人工智能技术生成的内容,是否构成“商业秘密”也是企业需要考虑的要点。
基于司法实践中有关商业秘密采取“合理措施”的认定原则要求以及行业实践情况,企业在应用人工智能技术时,可以考虑:
1)采购本地化或内部部署的人工智能系统
在该模式中,人工智能系统将部署在企业的私有云上,输入内容的存储、处理以及输入内容的生成都在企业自主可控的网络空间,只要企业内部对于相关私有云采取适当的数据隔离、权限管理、下载限制等保密措施,则可以实现输入内容及输出内容的“保密性”。
2)人工智能技术使用的指引及培训
虽然上述模式可以满足企业的“保密要求”,但是对于大部分企业来说,私有化部署的采购成本较高,而且可能无法享受“实时改进、更新”的大模型技术。因此,对员工合规地使用人工智能技术提供相应的指引以及培训,是企业引入人工智能技术的基石。在相关指引及培训中,应当让员工知悉商业秘密的范围、如何保护商业秘密、使用人工智能技术的风险和好处;在允许的条件下,还应当对使用人工智能技术的工作内容范围、脱敏措施、输出内容的存储要求等内容进行细化。
3)保密条款的更新
企业在技术采购合同中通常会涉及保密条款。考虑人工智能技术的特殊性,企业在采购合同中应当针对人工智能技术相应细化保密条款的内容,包括:明确输入信息/输出信息的保密性、权属以及使用目的,不得用于模型改进训练等;明确输入信息/输出信息的存储、处理、删除等网络安全措施要求等。
4)其他可能的技术措施
虽然人工智能技术的提供方目前暂时无法提供“商业秘密”过滤的功能,结合目前内容合规管理的过滤机制技术情况,在人工智能技术前端设置基于企业定制的“商业秘密过滤装置”可能也将会成为具有较高保密要求企业可选择的路径之一。
四、小结
生成式人工智能在提高生产力和提供创新解决方案方面给予了人类新的技术解决思路;同时,由于人工智能技术对于数据信息及大算力的依赖性,也难以避免数据的流动及处理,增加了商业秘密保护的难度。对于生成式人工智能技术研发企业,一些新型的技术成果,例如数据、算法,难以通过传统的软件著作权方式进行保护,商业秘密及数据权益的保护方式应纳入企业的知识产权规划范畴。对于应用生成式人工智能技术的企业,则应当考虑实施安全保护措施,制定清晰的管理政策,以减轻商业秘密的泄露风险,确保在人工智能大环境下保持自身的竞争优势。
[注]
陈际红 律师
北京办公室 合伙人
业务领域:网络安全和数据保护,知识产权权利保护,反垄断和竞争法
行业领域:金融创新和金融科技,电信和互联网,信息和智能技术
吴小旭 律师
北京办公室
非权益合伙人
业务领域:网络安全和数据保护,知识产权权利保护
行业领域:电信和互联网
马辰 律师
北京办公室 知识产权部
《闻弦歌而知雅意:京津沪自贸区数据跨境流动政策对比解析》
《自然资源部双箭齐发,厘清智能网联汽车测绘数据处理的九大问题》
《行笃知明:数据要素交易中的合规审查与交易设计》
《“重要数据”揭开面纱?——<数据安全技术 数据分类分级规则>解读》
特别声明
以上所刊登的文章仅代表作者本人观点,不代表北京市中伦律师事务所或其律师出具的任何形式之法律意见或建议。
如需转载或引用该等文章的任何内容,请私信沟通授权事宜,并于转载时在文章开头处注明来源于公众号“中伦视界”及作者姓名。未经本所书面授权,不得转载或使用该等文章中的任何内容,含图片、影像等视听资料。如您有意就相关议题进一步交流或探讨,欢迎与本所联系。