GEN AI 合规 FAQs(四)| GEN AI 研发中的知识产权及技术进出口合规问题

文摘   2024-10-09 17:39   北京  

欢迎点击上方 TMT法律论坛 关注我们



专栏

GEN AI

导读

自Open AI掀起生成式人工智能的狂潮以来,大模型在各行各业的应用日益广泛,成为推动企业创新与新质生产力发展的重要力量。与此同时,合规挑战亦如影随形。在此背景下,我们推出系列“GEN AI 合规 FAQs”。


每期,我们都将聚焦企业应用Gen AI相关的核心话题,从产品备案到训练数据集构建,从电信业务许可到内容安全管理,从数据安全保护到知识产权风险应对……全方位覆盖不同合规领域及应用场景,以期帮助Gen AI应用企业妥善应对潜在的法律风险。


本期为"GEN AI 合规 FAQs"第四期“GEN AI 研发中的知识产权及技术进出口合规问题”。


注:专栏配图均由AI生成







Q: AI算法可以申请专利吗?


《专利法》仅对技术方案加以保护,将人的抽象思维活动、智力活动规则和方法排除在专利客体的保护范围之外。


GEN AI算法是基于数据和代码并根据某种数学模型而设计的、通过计算机程序运行的有步骤的运算方案,其本质是数学运算模型。因此,如果将基础的算法直接作为专利申请,很可能被认为是抽象的运算思维,从而不具备可专利性。


发明专利申请是否属于“技术方案”是专利保护客体的必备要件,因此需要将抽象算法转换为具体算法技术方案,才能使得算法专利申请达到专利授权的客观标准。《专利审查指南》在“关于涉及计算机程序的发明专利申请审查的若干规定”专章中就此进行了详细的规定及说明。概括而言,如果该算法专利申请满足以下情形中的至少一条,可认为属于《专利法》所规定的技术方案,属于专利保护的客体:

  • 权利要求中涉及算法的各个步骤体现出与所要解决的技术问题密切相关,比如,算法处理的数据是技术领域中具有确切技术含义的数据,算法的执行能直接体现出利用自然规律解决某一技术问题的过程,并且获得了技术效果;

  • 算法与计算机系统的内部结构存在特定技术关联,能够解决如何提升硬件运算效率或执行效果的技术问题,包括减少数据存储量、减少数据传输量、提高硬件处理速度等,从而获得符合自然规律的计算机系统内部性能改进的技术效果;或者

  • 解决方案处理的是具体应用领域的大数据,利用分类、聚类、回归分析、神经网络等挖掘数据中符合自然规律的内在关联关系,据此解决如何提升具体应用领域大数据分析可靠性或精确性的技术问题,并获得相应的技术效果。


综上,对于GEN AI算法是否可以申请专利不能一概而论,如果专利申请在包含GEN AI算法特征的同时,也包含利用了自然规律的技术特征,通常可以被认为具有可专利性。



Q: 使用开源模型进行二次开发,要注意哪些开源合规义务?


对于企业而言,从零开发大模型对算力、数据的要求极高,需要较高的研发投入成本。目前主流研发方向之一是企业基于已有的开源模型进行二次开发,将该开源模型作为底座,输入训练数据进行微调后形成新的模型。由于基础模型为开源模型,因此研发过程中的开源合规问题也随之而来。


区别于传统软件行业的开源软件(免费且公开下载源代码),AI大模型的开源包括模型代码、模型参数以及训练数据的开源,其从“完全开源”到“完全闭源”可以划分多个维度,例如:

  • 完全开源,即代码、模型参数和训练数据均对外开源且无使用限制;

  • 存在使用限制的开源、部分开源,比如仅模型参数开源等。

因此,使用不同的开源模型进行二次开发,应当基于该开源模型的许可内容,分析相应的合规义务。通常包括如下几点:

  •  二次开发后的衍生作品,是否需要强制开源;不同的开源协议的“传染性”不同,如果使用了带有“强传染性”协议的开源模型,例如GPL、AGPL协议等。在对此类开源模型进行修改、使用后,在对外分发时,可能需要对新模型或衍生作品继续开源。

  •  使用限制;主要指开源协议中是否限制商业用途、是否对用户量进行限制等。例如国内智谱华章的ChatGLM-6B开源模型严格限制开发者对其商业性使用,LLaMA-2许可协议中约定对于月活7亿以上的用户需要单独申请使用许可。

  • 是否存在非竞争条款;在开源模型的许可协议中,非竞争条款较为常见。例如,LLaMA-2虽是开源、可商用的模型,但其许可协议同样限制不得将LLaMA-2的代码、生成内容及其他输出结果用于改进任何其他大模型(LLaMA-2的衍生模型除外)。

  • 许可证之间的兼容性;AI开源大模型发布中,可能将模型权重、代码、数据分别适用不同开放程度的许可证。后续在研发阶段,在集成不同的权重、数据、代码时,则需要考虑各模型之间适用的开源许可证兼容问题。


Q: 在GEN AI领域技术出口方面需要注意哪些风险?


GEN AI的研发依赖算力、算法以及数据,从技术层面分析,该三要素分别代表了硬件、软件以及数据资源三个维度,在GEN AI技术出口时,可以从前述三个维度的角度考量相关风险。


在硬件方面,管控人工智能技术输出的主要方式包括:

  • 算力硬件设备的对外提供,如美国商务部通过《对向中国出口的先进计算和半导体制造物项实施新的出口管制》等规定限制先进芯片的对华提供;

  • 依赖算力硬件的云服务的对外提供,如美国商务部发布拟议规则制定通知,要求美国IaaS提供商及其外国经销商实施客户身份验证程序,收集客户信息,报告外国客户使用云算力训练人工智能大模型的情况。

在软件方面主要涉及人工智能算法(即大模型)的对外提供。例如,美国国会众议院提交的《增强海外关键出口限制的国家框架法案》提到对一些“人工智能系统”进行出口管制,并限制美国人与外国人合作开发此类系统和技术。该法案的人工智能系统包含了专有或闭源模型,也没有排除开源模型。目前中国的《禁止出口限制出口技术目录》虽然未明确将GEN AI(生成式人工智能)技术列入目录中,但实践中监管部门在受理有关GEN AI技术出口合同许可/备案时,也会针对具体技术内容及项目情况考量技术出口风险。


在数据方面,GEN AI研发的相关数据包括训练数据,也包括研发过程中形成的模型参数等数据。在中国法项下,数据处理者向境外提供在境内运营中收集和产生的重要数据应该申报数据出境安全评估。在《中国(北京)自由贸易试验区数据出境管理清单(负面清单)(2024版)》中,明确将人工智能研发设计过程中,收集和产生的与行业竞争力相关的高价值敏感数据列为“重要数据”,从数据出境层面与技术出口的管制进行呼应。 




相关规范

《专利法》

第二条第一款:“本法所称的发明创造是指发明、实用新型和外观设计。发明,是指对产品、方法或者其改进所提出的新的技术方案。”

第二十五条第一款第(二)项:“对下列各项,不授予专利权:智力活动的规则和方法”。

《专利审查指南》

第二部分第一章第4.2条:“智力活动,是指人的思维运动,它源于人的思维,经过推理、分析和判断产生出抽象的结果,或者必须经过人的思维运动作为媒介,间接地作用于自然产生结果。智力活动的规则和方法是指导人们进行思维、表述、判断和记忆的规则和方法。由于其没有采用技术手段或者利用自然规律,也未解决技术问题和产生技术效果,因而不构成技术方案。它既不符合专利法第二条第二款的规定,又属于专利法第二十五条第一款第(二)项规定的情形。因此,指导人们进行这类活动的规则和方法不能被授予专利权。”

《数据安全法》

第三十一条 关键信息基础设施的运营者在中华人民共和国境内运营中收集和产生的重要数据的出境安全管理,适用《中华人民共和国网络安全法》的规定;其他数据处理者在中华人民共和国境内运营中收集和产生的重要数据的出境安全管理办法,由国家网信部门会同国务院有关部门制定。

《数据出境安全评估办法》

第四条数据处理者向境外提供数据,有下列情形之一的,应当通过所在地省级网信部门向国家网信部门申报数据出境安全评估:(一)数据处理者向境外提供重要数据;(二)关键信息基础设施运营者和处理100万人以上个人信息的数据处理者向境外提供个人信息;(三)自上年1月1日起累计向境外提供10万人个人信息或者1万人敏感个人信息的数据处理者向境外提供个人信息;(四)国家网信部门规定的其他需要申报数据出境安全评估的情形。

《中国(北京)自由贸易试验区数据出境管理清单(负面清单)(2024版)》

第五部分 人工智能训练数据中规定:


"GEN AI 合规 FAQs" 专栏系列往期回顾


第一期 | 生成式人工智能产品的备案要求是什么?

第二期 | 如何合规地建立大模型预训练数据集?

第三期 | GEN AI生成内容有哪些知识产权风险?



重要提示:

本专栏所有内容仅作为信息性参考,不构成法律意见,不能作为任何行动的依赖。本文中的回复意见可能是不全面的,考虑到监管的不断实践,不排除后续的进一步变化。任何的行动,请以律师的正式意见和监管的意见为准。




作者往期文章推荐

中伦解读


域外关注


本期文字:吴小旭 李佳笑 马辰

本期编辑:陈瑊 陈煜烺 马辰


TMT法律论坛
聚焦数据合规、网络安全、GDPR、大数据、Fintech、人工智能、自动驾驶与电子商务等TMT领域的前沿法律实务,由中伦TMT团队运营,合作与沟通:DataLaw.pg@zhonglun.com。
 最新文章