近期,“斯坦福抄袭中国大模型”事件引起业界广泛关注。我国模型“被抄袭”证明国产模型已经具有了全球竞争力和国际认可,而此事件对负责任的模型开源生态建设、传统文化的保护和利用提出了新的问题。
一、责任方面,开源模型“窃书”算不算“偷”?
首先,在开源生态中,“抄袭”涉及的知识产权问题主要通过开源许可证或开源协议来进行管理。软件开源时代,研发者作为版权所有人,通过开源许可证授予不特定使用者附条件的版权许可,前提是满足其特定的限制条件,每一款许可证的前提条款规定不同(如使用率最高的Apache Licence 2.0,要求在延伸的代码中带有原来代码中的协议、商标、专利声明和其他原来作者规定需要包含的说明,且如果修改后的文档与原有文档有显著差异,必须放置版权说明)。
1.1 是否侵权——Llama3V对MiniCPM的“窃书”是否构成知识产权侵权?
从权利主体和行为特征来看,可以构成:
a.从权利主体来看,开源并不意味着所有人都可以免费拿着研发者的成果任意使用或“为非作歹”,研发者仍为其工作成果的版权权利人,有权对其作品主张权益保护,这在开源许可协议中均有确认;
b.从行为特征来看,将他人开源的工作成果微调并直接转化为自己的工作成果公开发布,可能符合传统软件知识产权侵权的定义,可参考《计算机软件保护条例》第二十四条对于软件版权侵权的规定,涉及未经软件著作权人许可,“复制或者部分复制著作权人的软件”,“向公众发行、出租、通过信息网络传播著作权人的软件”,“故意删除或者改变软件权利管理电子信息”,以及“转让或者许可他人行使著作权人的软件著作权的”等需要承担侵权责任的行为。
有几个值得探讨的点:第一,针对“未经软件著作权人许可”的判定,MiniCPM采取的模型开源协议已经授予了不特定第三人使用权,只要用户遵循发布者要求的协议规定即可自行决定是否使用此内容,并不存在“不打招呼就使用即为盗用”,MiniCPM的开源模型许可协议中附加使用权的前提条件包括来源说明,Llama3V未进行来源说明直接使用和发布且署名为自己,可能被视为未满足前提条件而不再享有使用权,从而符合“未经软件著作权人许可”的认定;第二,开源并不是直接的盈利行为,但是否盈利并不是侵权认定的前提,而是损害赔偿的参考,Llama3V的抄袭给团队带来了较大的媒体曝光和知名度,在模型开源与商业转化更加密切的趋势下,是否盈利应该不能作为阻碍点。
1.2 是否违约——面壁是否可以借助开源许可协议等法律工具来主张权益?
根据开源许可协议本身的约定内容及协议的约束力来看,可以主张:
a.从协议本身的约定内容来看,面壁对MiniCPM的代码和模型分别进行开源许可,代码依照 Apache-2.0 协议开源,模型权重的使用则遵循其特定的“通用模型许可协议-来源说明-宣传限制-商业授权”(以下简称为“面壁开源模型协议”),但对学术研究完全开放。Llama3V直接使用了其模型权重,根据面壁开源模型协议的约定,使用其模型,包括对模型的下载、运算、共享、修改、分发等操作,以及对于模型结果的共享、修改等操作,需要进行来源说明,即“使用者使用通用模型和通用模型结果时须附上此通用模型的来源及本许可协议链接”,而Llama3V仅署名自己,没有任何说明,是违反该开源协议的约定的。
b.而从协议的约束力来看,是否可直接依据协议主张权益是个待定的问题。单就来源说明来看,软件时代的开源协议主要涉及到此类版权说明且已经获得了国内外法院判例的认可,传统的开源许可证具备合同的特征,属于广义合同的范畴,可以被认定为非典型合同、格式合同,使用者对协议的承诺是通过行为作出的,即一旦下载、使用、分发开源大模型的部分或全部,即视为对协议条款所约定的内容均已知晓、理解并接受,因此应受合同条款的约束。基于此,目前依据此条款要求抄袭团队整改并增加版权说明、甚至停用下架是有依据的。至于协议其他部分设置的保证否认条款、责任限制条款是否具有合同约束力,是另一个问题,但即便这些条款因何种原因无效或不具可执行性,来源说明条款应仍有效,对模型的发布者及使用者仍具有约束力。
二、伦理方面,
不负责任的行为在模型开源生态中如何控制
在Llama3V这一案例中,“抄袭者”并非仅借鉴他人项目的代码或者模型架构,而是直接在miniCPM模型参数上加上随机高斯噪声就发布了新项目,且没有任何“致敬”或“感谢”。此类窃取和谎报学术不端行为在模型开源生态怎么看待和处理,有以下几个点值得讨论:
2.1 窃取和谎报学术不端行为违背开源精神?
不标注引用成果的来源是明显违背开源精神的做法,使用和借鉴前人的开放成果时,至少应主动标明来源并事先说明。即便在事后才披露来源并增加说明,这种做法难免引发外界的持续质疑,尤其对于模型企业来说,参与开源生态必须重视遵守开源精神和学术规范。
2.2 开源社区是否需要对窃取和谎报学术不端行为进行处理和规范?
开源生态对于模型时代以及企业竞争的重要性不言而喻,大模型的研发和训练极其需要人力物力的投入,相较于传统的软件开源,开源模型的研发成本消耗更大,如果纵容窃取行为将折损模型研发的积极性。在构建所有人都遵守规则的开源生态环境方面,开源社区因可以直接下架开源项目,具有一定的平台掌控力,在规范开源学术伦理方面是否可以有所作为是可以探讨的点,例如建立学术不端行为的投诉举报和处理机制等。
三、发展方面,
简书这类文化起源性的传统知识,
应该如何更有效地利用?
版块介绍 — 治理之智
在全球化背景下,科技的快速发展也带来了前所未有的治理挑战。本板块内容依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态,聚焦于AI风险、AI大模型安全、AI大模型开闭源生态、AI大模型出海等AI治理政策研究,基于技术理性的风险观,为大模型发展与安全平衡与取舍提供独到见解。同时,我们致力于收集和分享海内外AI治理先进理论与经验,为构建合理的科技治理体系提供智慧与灵感。
推荐阅读
Reading
1、治理之智 | 《大模型训练数据白皮书》在第七届数字中国峰会发布:大模型是数据要素价值释放的最短路径
- END -