研究 | 漫谈人工智能与知识产权

时事   2025-01-02 17:17   上海  

作者董文涛



说起人工智能与知识产权的关系,需要关注两个方面的问题:一是当前的知识产权制度如何评价人工智能;二是未来的人工智能如何影响知识产权制度。


一、当前的知识产权制度如何评价人工智能?


梅因说,法律在颁布之时就已经落后于社会了。人工智能问题使梅因所谓的法律滞后性越发突出,但在法律尚未修订或新法尚未制定之前,人工智能问题不得不被包括知识产权制度在内的现行法律评价。


(一)算力


人工智能的三大基础是算力、算法和数据。算力类似于基础设施,即使算法再独特,数据再庞大,没有算力支撑也是枉然。在算力的开发与提供过程中,诸如量子计算、算力调度分配等领域会出现大量具备新颖性、创造性和实用性的技术方案,权利人既可以“主动公开”申请为专利,也可以“秘而不宣”作为技术秘密。


(二)算法


算法是一个既熟悉又陌生的概念,它因“大数据杀熟”“信息茧房”等网络热点现象而为国人所知晓,却又因处于人工智能的技术前沿而神秘莫测,被称为“黑匣子”。算法是一系列定义清晰的计算步骤与方法,旨在从特定的输入数据集合出发经过一系列处理过程得到期望的输出结果。从某种意义上说,宋丹丹老师在小品《钟点工》中的“把大象关进冰箱里,总共需要三步”也是一种算法。


1、专利


算法属于“智力活动的规则和方法”,依法不具有可专利性。而且,大模型基于自主学习还会产生动态算法、迭代算法,以至于算法的最初设计者有时甚至难以作出解释,而如果连发明人自己都解释不了自己的发明,自然也不可能申请发明专利。


当然,既包含算法又包含技术特征的权利要求整体,则有望申请专利。根据《专利审查指南》,假设某种基于算法的专利可以实现计算机系统内部性能的改进,提升硬件运算效率或执行效果,比如减少数据存储量、减少数据传输量、提高硬件处理速度等,那么,它就不再仅仅是智力活动规则与方法,不再仅具有数学、统计或逻辑意义,还具有技术方案的物理意义,就可以申请专利。


2、版权


版权法不保护思想,保护对思想的独创性表达。算法属于思想的范畴,无法获得版权法保护。但是,依赖算法实现其功能、并作为算法之表达的软件代码,则可以获得版权法保护。当前的司法实践,需要警惕“无代码比对”即认定构成软件版权侵权的错误导向。这一做法可能会扩大软件著作权的“势力范围”,将属于思想范畴的算法纳入保护之列。当然,在功能、模块、界面等方面均相同,且被告有机会接触原告软件,甚至被告软件的开发人员就是原告的离职员工等情况下,如果被告拒不提交,无法实现代码比对,或被告严重迟延提交其软件代码的,法院当然可以根据举证规则认定侵权。


3、技术秘密


算法的“黑匣子”属性决定了与其最契合的知识产权客体是技术秘密。技术秘密无须专利般的新颖性和创造性,只要其有价值,属于非公知信息,且权利人采取了合理保密措施,就可以受到法律保护。


当前,国内不少人工智能企业都声称自研了一套独特算法。比如,在国内首起保护算法的商业秘密案件中,原告即有类似主张,而被告抗辩其采用的算法均为公开模型。法院认为,即使为公开模型,但模型选择及权重排序是权利人通过大数据的收集、处理和测试后的最优选择,属于权利人付出劳动的成果,不为公众所知悉,并能为权利人带来商业利益和竞争优势,应作为商业秘密予以保护。笔者认为,由于被告算法的开发人员系负有保密义务的原告离职员工,该节事实加强了法官关于其不正当性的心证,否则,如果被告开发人员与原告并无交集的话,判决结果就未必如此了。毕竟,技术秘密具有非排他性,也就是说,多家人工智能企业各自独立开发并同时拥有相同或实质性相似的算法而互不影响、互不构成侵权,这种情况是完全可能存在的。


(三)数据


数据是以电子或者其他方式对信息的记录。从理论上讲,数据可以成为商业秘密,获得反不正当竞争法保护;数据库整体还可能构成汇编作品,获得版权法保护。而根据国家的战略顶层设计,“数据知识产权”甚至有望成为一种独立的知识产权客体。兹不详述。


根据所记录信息的内容不同,我们不妨将数据划分为两类:一类是版权数据,比如各类图片、长短视频、音乐、深度报道、小说、诗歌、论文、专著、软件源代码等;第二类是非版权数据,比如商业秘密、专利等技术信息、公民个人信息等均不构成版权作品的数据。目前,在人工智能产业中,各方争议较大的主要体现在版权数据方面。


1、语料投喂


训练大模型的过程被形象地称为“投喂”。如果未经版权人许可,将其版权作品作为语料“投喂”,人工智能公司是否构成版权侵权?且不从支持国家人工智能战略、推动人工智能行业发展等宏观的价值判断出发,单从法律层面分析,笔者也坚定地持不侵权之观点,理由如下:


其一,不宜机械地认定人工智能公司侵害“复制权”。


“投喂”的前提当然是收集获得包括海量版权作品在内的数据。如果人工智能公司通过爬虫技术从网络中收集了海量版权作品,存储于硬盘之中,那么,显然已经实施了版权法意义上的复制行为了。但笔者认为,即便如此,也不宜认定其侵害复制权。


版权人控制单纯的复制行为没有意义,只有当复制是进一步侵权行为之过程行为时才有必要予以单独规制。比如,行为人印制了大量盗版书,但在被查获时一本也没有卖出去,自然无法认定其构成侵害发行权,但是,印制盗版书的目的显然是为了销售盗版书,故而不宜放纵此等行为,认定其构成侵害复制权。而在网络环境中,我们可以随时随地未经许可将他人的摄影、美术、文字等作品下载到本地,并且通过复制、黏贴等手段拷贝成千上万个复制件,这一行为看似实施了未经许可的复制行为,但只要我们没有进一步实施通过信息网络传播该作品或者将该作品打印出来对外发行等,那么,从实质上看就没有损害版权人的利益。


同样道理,人工智能公司在收集获取海量版权作品时尽管可能实施了复制行为,但是,此举并非进一步实施其他侵权行为(比如通过信息网络传播作品、发行作品等)的过程行为,因此,并没有损害版权人的利益,不宜机械地认定构成侵害复制权。


其二,版权法中没有规定“阅读权”,更没有规定“机器学习权”或“语料投喂权”。众所周知,购买并阅读盗版书的行为,并不构成版权侵权,而人工智能学习、处理向其“投喂”的未经权利人许可的版权数据的过程,与人类阅读盗版书无异,自然也不应认定侵权。


其三,既然“个人学习、研究或者欣赏”构成版权法中的合理使用,类比推理,大模型的“机器学习”似也可构成合理使用。对这一点,即使《著作权法》第二十四条第一款第(十三)项作为法律依据似乎并不那么充分,还有《著作权法实施条例》第二十一条以及与该条类似的《伯尔尼公约》第九条第二款可以适用。


人类的学习往往伴随着直觉、情感和体会,而“机器学习”则是通过算法处理和分析大量数据,从数据中提取模式、关联性和规律,基于这些数据进行决策、预测并输出识别结果。如果把人工智能看作人类,那么,在她的眼里,无论再美、再伟大单个作品也不过是大量版权数据中的沧海一粟而已。所以说,人工智能接受版权数据的“投喂”,并不是像人类那样在“使用”作品,既然如此,又何谈未经许可使用作品而构成侵权呢?


其四,在版权数据海量、版权人海量的情况下,除非人工智能公司有意或无意地承认其究竟“投喂”了哪些版权数据(比如,在美国的一起某图库公司诉某人工智能的版权案件中,人工智能生成的图片中竟然打着图库公司的水印,可见其图库被用于“投喂”),否则,权利人几乎不可能知道,而且即使知道也很难证明其作品被用于“投喂”的事实,这也意味着,版权人很难获得侵权救济。正所谓,有权利必有救济,无救济则无权利。即使赋予版权人“机器学习权”或“语料训练权”,但版权人根本无法得到救济的话,也是空有其名罢了。


2、生成内容


以ChatGPT为代表的生成式人工智能可以生成与版权作品外观无异的图片、音乐、视频、软件代码等内容。围绕生成内容的争议主要有两个:


(1)生成内容是否构成版权作品?如果构成作品,版权归属于人工智能公司,还是人工智能的使用者?


版权法保护人类的创作,不保护非人类的创作。如果是人工智能自主生成的内容,则不构成作品,这一点并无争议。如果是人类利用人工智能,通过反复输入、修改提示词而生成的内容,就有人提出“使用者享有版权”的观点。笔者认为,就使用者利用人工智能生成的内容而言,无论是人工智能公司还是使用者都不享有版权。此处不再展开,感兴趣的读者可以阅读《AI或成为版权法的终结者——兼评AI图片版权侵权案》一文。


(2)如果生成内容与他人在先作品相同或实质性相似,人工智能公司是否构成侵权?


这其实是前两年的老问题了。当前,国内外流行的通用人工智能早已“越过山丘”,不太可能出现生成内容与他人在先作品相同或实质性相似的情况了。即使出现了这一情况,恐怕也只能是算法上极其偶然的巧合,而非人工智能公司有意为之的抄袭。毕竟,人工智能公司“志不在此”。如前文所述,在机器人眼里,任何单一作品在海量版权数据面前都显得微不足道,算法决定了它不会盯着一只羊薅羊毛。


二、未来的人工智能如何影响知识产权制度?


很多人都认为,如果人工智能继续迭代下去,在未来,它不仅会取代更多人类的工作,改变国际格局和社会结构,而且还可能统治乃至摧毁人类。但由于人类很可能无法提供支撑人工智能统治、摧毁人类的算力,所以《三体》的作者刘慈欣说过,人类的无能或将是抵御人工智能的最后屏障。


将“在未来人工智能会不会终结知识产权制度?”这一问题抛给人工智能,多个大模型都有类似回答:既然知识产权制度在历史上每次都能对科技进步带来的冲击作出适应性调整,那么,这一次也不会例外。笔者认为,人工智能的这个回答太官方、太谦虚了,更像是刻意低调地隐藏实力。那么,随着人工智能的发展,知识产权制度究竟会何去何从呢?


(一)商标法面临最小的冲击


知识产权制度内部其实并非铁板一块,三大知识产权法的机理存在不小差异。版权法、专利法保护的是智力成果,旨在鼓励有益作品的创作传播及发明的创造应用,但商标法保护的客体则并非智力成果(尽管很多商标标识很有创意),并非商标标识本身,而是保护商标背后所蕴含的商业信誉。由于商业信誉与企业获取、掌握或垄断的知识及智力成果没有直接关系,因此,商标法受到人工智能的冲击相对较小,在很长时间内还将继续存在。


有人说,人工智能帮助人们快速设计商标标识(Logo),由此会导致商标注册申请量的大爆发。其实,根本无须担心这个问题。面对激增的申请数量,商标管理机构可以“用魔法打败魔法”,利用人工智能对大规模商标申请予以初级甚至终极审查。更何况,商标申请量与整个社会商业主体的数量、存续和活跃程度密切相关,与是不是可以免费快捷地设计出Logo没有强关联。


(二)技术秘密或成权利人的“敝帚自珍”


技术秘密具有非排他性,不同主体可以各自秘而不宣地拥有相同的技术,而随着市场主体通过人工智能获取知识的能力的进一步提升,这样的情况将变得更为普遍。门槛较低的技术秘密,其他主体通过人工智能可以轻易直接获取;门槛较高的技术秘密,其他主体通过人工智能来实施数据分析、模式识别等反向工程可事半功倍——技术秘密的非公知性岌岌可危。


而一旦稳定的量子计算技术将来与人工智能结合起来,则会进一步加速机器学习算法,突破数据加密,提高人工智能感知、认知和决策能力,届时再辅之以质谱分析等其他“破解”技术,无论是配方、工艺还是密码、参数等技术秘密,面对量子人工智能上帝般的视角,终将都是浮云。届时,也许重要的早已不是技术秘密本身,而是对人工智能破解技术秘密的伦理或法律规制。


(三)版权法、专利法终将是人类法制史上的过客


如果说人类历史上的农业、工业与科技革命都着眼于技术的话,人工智能所引发的知识革命和思维革命则是着眼于人类自身。


知识曾是人类最伟大的资本,如今因人工智能而变得唾手可得。未来,人工智能还将向人类提供更逼真、更有创意、更满足个性化需求的知识产品,从而根本性地影响人类的阅读、学习方式,进而影响“创作方式”与“创作激励”。人工智能还将凭借难以置信的模拟、分析、深度学习、跨专业跨学科等能力,打破“时间”“空间”“成本”“精力”等人类从事科学研究的天然瓶颈,重塑“发明”与“创造”的内涵。按这样的发展趋势,社会整体的知识产品将被分为三类:一是人类自身完成的智力成果,即“人类成果”,二是人类利用人工智能完成的成果,即“人机合作成果”,三是人工智能自主完成的成果,即“机器成果”。与后两者相比,“人类成果”无论是在数量还是在价值方面,其比重无疑将会越来越小,版权法和专利法“旨在激励人类创作与创造”的基础逻辑将逐渐动摇,直到最后成为人类法制史上的过客。


当然,在中短期之内,丝毫不影响企业继续加大知识产权投入,特别是在神经网络、自然语言理解、AI芯片、深度学习算法及应用、类脑智能、具身智能等方面还需要“做加法”,加强人工智能领域的技术攻坚与专利布局。


对于某一作品或发明,究竟它是“人类成果”,还是“人机合作成果”,抑或是“机器成果”,会变得越来越难以分辨。如果法律不加区分地对三类成果都予以保护,那么,可以想象,大多数核心技术都将可能被极少数人工智能公司所垄断,从而进一步加剧人类社会的不平等。这一担心不无道理。因此,有必要根据人工智能发展及应用情况,适时修订、完善版权法和专利法,在法律制度层面“做减法”。比如:明确排除“机器成果”甚至是“人机合作成果”的可版权性和可专利性;与此同时,在版权登记、专利审查、司法个案审查中逐步探索建立对“人类成果”“人机合作成果”“机器成果”等三类知识产品的分辨机制,以防止不当地扩大保护。




董文涛 合伙人

danieldong

@allbrightlaw.com




免责声明

本文内容仅为提供信息之目的由作者/锦天城律师事务所制作,不应视为广告、招揽或法律意见。阅读、传播本文内容不以建立律师-委托人关系为目的,订阅我们的文章也不构成律师-委托人关系。本文所包含的信息仅是作为一般性信息提供,作者/锦天城律师事务所不对本文做日常性维护、修改或更新,故可能未反映最新的法律发展。读者在就自身案件获得相关法域内执业律师的法律意见之前, 不要为任何目的依赖本文信息。作者/锦天城律师事务所明确不承担因基于对本文任何形式的使用(包括作为或不作为)而产生的一切责任、损失或损害。

 END


云上锦天城
锦天城总部设在上海,提供专业法律服务。已在北京、杭州、深圳、苏州、南京、成都、重庆、太原、青岛、厦门、天津、济南、合肥、郑州、福州、南昌、西安、广州、长春、武汉、乌鲁木齐、海口、长沙、昆明、香港、伦敦、西雅图、新加坡和东京开设办公室。
 最新文章