周辉|开源人工智能模型的法律治理

文摘   2024-08-30 10:00   上海  

作者简介|PROFILE

周辉,中国社会科学院文化法制研究中心研究员。


摘要:开源正在重塑产业格局并引领商业模式的创新,作为开源领域的新兴力量,人工智能正依托开源的资源汇聚能力和协同优势快速发展。然而,人工智能在开源环境下的健康有序发展仍面临诸多挑战,目前人工智能领域内的开源问题大都集中在开源人工智能模型。因此,需要在明确开源人工智能模型内涵和分类的基础上,审慎评估其正向价值和潜在风险。为构建科学严谨且适应时代发展的开源人工智能模型治理制度框架,我国应借鉴各国在开源人工智能模型治理方面的既有经验,支持开源有序发展、明确风险管理责任与义务、推进多元主体协同发展、制定负面清单、推动形成国际开源人工智能联盟,从而营造公正开放的开源生态,确保开源人工智能模型的发展始终沿着安全可控、合法合规的轨道前进。

键词:开源;人工智能;法律治理


全  文

以ChatGPT为代表的生成式人工智能快速发展的过程中,围绕是否开源的问题,形成了两种不同的发展路线。一方面,OpenAI在ChatGPT发布后选择了闭源发展路径,另一方面是Meta开源Llama 2基础模型,这推动了更多人工智能平台的开源发展。随着开源在人工智能领域的作用日益凸显,相关基础模型能力的迅速提升,也引发了产业和学术界关于两种路线的讨论。

这场争论的焦点在于安全性和利益的分配。有观点认为过度追求闭源可能损害创新,不利于人工智能在全球范围内的传播。然而,也有人担忧开源带来更多误用和恶意利用强大人工智能系统的可能,存在生化武器、核武器新型扩散的风险。也有组织批评认为在缺乏防护措施的情况下公开模型是不负责任的。

相较于闭源,人工智能开源具有广泛的优势。第一,具有开放性,有助于打破个别国家、平台对前沿人工智能技术的垄断,填平人工智能时代的技术鸿沟。第二,具有场景适应性,能够使得算法灵活地自由微调,通过定制适配多元场景的产品或服务,提高人工智能技术对经济社会发展的辅助能力。第三,具有专业用户友好性,可以为专业人士提供深度探索和高效实现专业功能的平台,助力研发创新。第四,具有高度透明性,这便于实施包括测试、审计在内的更广泛的社会监督机制。第五,具有兼容性,可以兼容闭源模型,促进双方优势互补,推动技术发展。

中国人工智能领域的创新潜力巨大,亟待进一步挖掘,面对开源所带来的前所未有的发展机遇,我们应当把握机遇,同时确保有效的风险管理,积极倡导开源人工智能模型的发展路径。本文将从四个维度深入分析开源人工智能模型:核心内涵与认定标准、分类分级逻辑、正向价值与潜在风险的辩证思考,以及全球治理策略的选择与制度架构设计。通过这一系列探讨,本文旨在全方位剖析开源人工智能模型的本质特性和面临的挑战,为促进未来开源人工智能模型在安全环境下的创新与发展,提出具体的政策与制度建议框架。


一、开源人工智能模型的内涵标准与分类逻辑

开源运动起源于20世纪60年代,由MIT计算机专业学生推动。1991年,Linux操作系统的推出催生了开源软件的广泛响应,全球软件产业在开源的助推下蓬勃发展,削弱了发达国家在软件领域的优势。1998年,开放源代码促进会(Open Source Initiative,简称OSI)成立,该组织制定了开源软件的定义,为开源提供了明确的原则和规则。近年来,开源不断向新领域拓展,在信息技术产业中催生了协作创新,深刻地改变了商业模式,其中人工智能成为了开源的新热点。开源被视为推动技术创新发展的有效手段。截至2024年4月,根据Hugging Face的统计,全球范围内已有622054个开源模型和136941个开放数据集可供全球开发者使用。在Github2024年4月发布的《CLiB中文大模型能力评测榜单》中,上榜的开源大模型数量达到了43个,占比达56%。开源人工智能模型在性能提升和应用前景方面,都在展现出突出的潜力。

与传统开源软件相比,开源人工智能模型在任务执行方式上存在本质区别。传统开源软件主要通过明确的规则编程来实现功能,即使创新,仍会局限于工具属性,其风险相对可控。开源人工智能模型则依赖于深度学习来执行任务,具有强大的自我迭代能力,使得开源人工智能模型,特别是在达到通用人工智能水平时,可能带来不可控或不可预期的风险。

(一)开源人工智能模型的内涵标准

对开源人工智能模型进行定义,对于推动开源人工智能模型发展具有必要性和重要性。一是可以促进规范开发、研究和使用,推动规范化与可持续发展;二是有助于提高透明度,消除偏见,增强公众对开源人工智能模型的信任;三是有利于激励全球多元背景参与者在有共识的基础上协同创新,共享成果,减少重复成本;四是有助于法律政策制定者深入理解开源人工智能模型的特性,据此制定科学合理的法规,推动开源创新安全发展。

然而,遗憾的是,国际上目前尚未达成对开源人工智能模型的统一定义。开源领域具有重要影响力的开放源代码促进会,虽然曾对开源软件作出过权威和详细的定义,但也仅针对开源人工智能在其社区中提出非常初步的0.0.8版本定义。根据该定义,开源人工智能需要提供四种基本自由:自由使用、自由研究、自由修改和自由分享。实现上述自由的前提是公开透明地提供人工智能系统的核心要素。以机器学习系统为例,这就需要向公众提供代码、数据、模型的修改权限。对照这一定义,目前几乎没有人工智能系统完全符合开放源代码促进会的所有要求。

在欧盟最新颁布的《人工智能法》中,序言第102条和第103条指出,开源模型在于将其模型的权重、架构细节、使用指南等核心信息公之于众,并通过许可协议赋予用户自由使用、复制、分发、研究、更改及优化软件、数据和模型的权利。即使要求使用者在分享衍生作品时保留原作者的署名并遵循相应的共享条款,这也可视为是免费与开源的。免费开源的人工智能组件覆盖了软件、数据、通用AI模型、工具、服务及AI系统,这些组件可以通过多样化的渠道发布。

开源人工智能模型源于软件开源,但又不同于软件开源。软件开源的核心在于其源代码能够被公众获取并应用于各种合法场景,人工智能模型的开源则不仅仅是软件系统的源代码开放。根据现有被称为开源人工智能模型的情况来看,其开放的要素还会涵盖训练数据集、算法实现细节、架构设计方案、参数调优策略,以及模型训练步骤等不同维度。

参考开放源代码促进会和欧盟《人工智能法》中对于开源人工智能模型的相关定义和解释,即使存在非标准化开源协议的限制,只要基础模型的这些关键要素得到了充分或部分程度的开放,允许其他研究者或开发者重现原有模型或对其进行修改和完善,相关基础模型就可以被认定是开源的。

(二)开源人工智能模型的分类分级

鉴于开源人工智能模型的复杂性超越了传统开源软件的范畴,其开放性不再单纯局限于源代码的可获取性,而是涵盖了数据集、算法、模型参数等多个核心要素的不同开放层级。依据关键要素的披露情况与权限设定,可将当前开源人工智能模型分为三大类别:全面公开受限型、部分公开受限型、渐进式公开型。同时,依据模型参数规模的量级,可以进一步细分出小型、中型、大型模型的层次架构。这一分类与分级体系,对于精准把握开源人工智能模型的特性至关重要,既促进了对该领域风险的精细化管理,也为制定针对性的法律政策提供了坚实基础,有助于推动开源人工智能生态的良性扩张与广泛应用,确保行业的健康与可持续发展。

1. 根据开放程度进行分类

基于模型开发、训练和应用密切相关的关键要素的不同开放程度,可将现有被称为“开源”的人工智能模型分为三类(见表1)。

第一类是全面公开受限型。例如,OLMo公开了模型权重、训练代码、训练日志、消融研究、训练指标和推理代码等,允许用户灵活使用这些资源。GPT-Neo-X20B是由EleutherAI开发的一个具有200亿参数的自回归Transformer语言模型,不仅开放了模型权重,还包含了完整的训练和推理代码,确保研究者能够充分复现和改进模型。同样,Salesforce Research推出的XGen-7B模型,具备70亿参数级别,针对长序列处理能力进行了专门优化,该模型的权重、训练数据及训练代码都对外实现了完全开放。开发者与使用者之间形成的是许可使用关系,使用者只需要遵守开源协议。

第二类是部分公开受限型。以Llama 2为例,虽然模型本身及其相关推理代码是开源的,但其训练代码、训练数据集等并未公开。同时,如果被许可方或被许可方关联公司提供的产品或服务的每月活跃用户超过7亿,须经再次授权方可使用其Llama 2模型。Falcon 180B则是由TII发布的拥有1800亿参数的模型,它同样开放了模型权重和代码,明确指出该模型可用于学术研究和商业场景探索,但如果用于托管用途,须经申请获得授权。这类开源人工智能大模型存在特定的服务条款或使用政策。在这种情况下,开发者与使用者之间的法律关系更为复杂,不仅涵盖了基本的许可使用权,也可能涉及服务协议和附加的使用限制条款。

第三类是渐进式公开型。开发者逐步公开模型的不同阶段成果,初始阶段可能只公开模型架构和训练代码,随着项目的推进逐渐公开更多资源。例如,Stability AI的Stable Diffusion最初采用了逐步发布的方法,首先向社区提供对托管模型的访问权限,在确保模型稳定性和效果得到初步验证后,才进一步公开了模型权重。

究其根本,三种不同开源方式的区别主要在于模型公开内容与其全部内容的异同,以及可能存在的差异是否会随着开源状态的变化而变化。如果人工智能模型的公开版本就是其研发者研发的版本或两者相差不大,则原模型中可能存在的风险、漏洞或其他问题也有更大可能为开源后的模型所继承。而在部分公开受限模式或渐进式公开的早期阶段,开源模型与研发者研发的原模型间差异较大,甚至模型实际运作的结果会因训练参数、训练数据的不同而天差地别。此种情形下,开源后模型在使用中产生各种安全隐患或被发现其他风险时,是否能够归因于或大部分归因于原模型的缺陷,就无法一概而论。因此,在研发者选择使用不同开放程度开源模型或使用者选择已开源模型时,除了考量模型适应特定需求的程度,可能还要注意到不同开源协议所带来的不同风险分担方式。

2. 根据模型参数量级进行分级

模型乃是人工智能系统的关键组成部分,其参数量的规模与人工智能系统的内在复杂性、学习潜能及对计算资源的需求通常呈现出正相关关系。鉴于此,依据开源AI模型的参数量级进行分级(见表2)不仅是对模型性能的一种度量方式,也是评估其潜在风险和挑战的重要维度。

一是小型模型。这类模型在保持相对较小的模型规模的同时,能够实现较好的性能。小型模型具有较低的训练成本和部署要求,适用于边缘设备或资源有限的场景,比如嵌入式系统或移动端应用。例如,GTE-Small模型拥有0.3亿参数,尽管参数量不大,但仍能够在特定任务上展现不错的性能。二是中型模型。相较于小型模型,中型模型在处理更复杂的任务时具备更高的容量和灵活性。它们能够捕捉更多的模式和上下文信息,适用于自然语言处理、计算机视觉等领域的各种任务。如阿里的Qwen-14B拥有140亿参数,Qwen1.5-32B拥有320亿参数。三是大型模型。这类模型往往基于Transformer架构或其他先进的深度学习结构,经过大量数据训练后能表现出强大的泛化能力和零样本学习的能力,不仅能够处理复杂的自然语言任务,还能在多种学科和领域内进行跨领域的思考和推理。如YUAN 2.0-102B是国内首个开源的千亿级模型;xAI开源的Grok-1拥有3140亿参数。

大型人工智能模型虽在处理复杂任务时展现出优越性能,例如在高度精确的语言生成、大规模图像识别等方面,然而,它们对算力的高需求成为限制其广泛应用的障碍之一,这无疑提升了用户的使用门槛。因此,大型模型的开发和运行维护通常集中在资金和技术雄厚的科技巨头手中。相比之下,中小型人工智能模型以其较低的资源消耗和较高的灵活性,在促进技术创新和应用多样化方面展现出独特的优势。开源策略对于中小企业尤为关键,它降低了技术获取的门槛,鼓励了更广泛的创新尝试。从国家发展战略的维度审视,无论是中小模型开源还是大型模型的开源对于提升国家整体的科技创新能力都具有不可估量的价值,不仅能够促进产学研用紧密结合,形成良性的技术迭代与产业升级循环,还有助于构建更加自主可控的技术生态,对于维护国家安全、提升国际竞争力具有深远意义。


二、开源人工智能模型的正向价值及其风险反思

开源人工智能模型的支持者们认为它是推动技术进步和社会发展的“良药”,而非阻碍。英国原副首相奥利弗·道登(Oliver Dowden)亦对此持肯定态度,他强调对开源的限制可能会阻碍人工智能在全球范围内的传播和应用。事实上,开源模式在人工智能领域的应用已经展现出了巨大的价值,为各行各业的创新与发展提供了强有力的支持。然而,开源人工智能模型在推动技术创新与发展的同时,其背后的风险与挑战同样不容忽视。人道技术中心(Center for Humane Technology)等组织对当前向公众部署大模型的做法表示了深切的担忧。开源社区最杰出的倡导者之一劳伦斯·莱斯格(Lawrence Lessig)警惕开放权重的开源模型潜在的隐患,但并未完全否认开源的价值,强调需要采取更好的措施来降低风险。因此,有必要深入探讨开源人工智能模型的正向价值,并对其可能带来的负面影响进行必要的思考,以更全面、更客观地认识开源人工智能模型。

(一)开源人工智能模型的正向价值

第一,开源人工智能模型为技术创新和市场竞争注入了新的活力。通过搭建一个人才与机构协同合作的平台,开源模式促进了跨领域专业知识的融合与交流,极大地加速了人工智能的创新进程。这种开放式的知识共享机制,不仅有助于深度挖掘技术的潜在价值,更为底层基础软硬件的协同研发提供了强大的推动力。同时,开源模式在降低开发成本、提升研发效率方面展现出了显著优势。开发者们可以依托现有的开源工具和框架,迅速构建出功能强大的应用程序,避免了从零开始搭建整个系统的烦琐过程。这不仅缩短了开发周期,也有效控制了开发成本,更多创新想法能够得以快速落地。更为重要的是,开源人工智能模型给市场竞争带来了新的机遇。其低门槛的特性使得更多用户能够轻松接触和采纳,从而培育出更多的人工智能研发者,并快速拓展市场份额。以Stable Diffusion等开源模型为例,其凭借广泛的社区支持和丰富的应用场景,成功与闭源模型展开竞争,并在市场中占据了一席之地。这种竞争态势不仅有助于打破科技巨头的市场垄断,更丰富了整个技术创新生态。

第二,开源人工智能模型有利于开展第三方监督。开源人工智能因其公开透明的特性,极大地便利了研究工作和监管活动。由于在传统专有系统中往往难以满足对目标模型实现深度研究和操控,研究者们普遍倾向于对那些拥有庞大用户基数并可能带来即时风险的已部署系统实施红队测试。在闭源环境下,底层内容审核机制的工作原理不易剖析,例如,到底是审核节点成功识别并拦截了不适宜的用户输入,还是模型自身基于某种策略选择不予回应,又或者是用户界面层面对不当反馈进行了有效屏蔽等问题在封闭系统中往往难以准确诊断。同时,开源所带来的透明度有助于发现和解决潜在的问题,监管机构可以利用这一优势,更好地进行监管活动,确保人工智能系统的合规性和安全性,为人工智能行业的健康发展提供安全的保障。

第三,开源人工智能模型赋能经济社会发展。从图文生成到音视频合成,从广告制作到代码写作,生成式人工智能作为高效的催化剂、强大的动力引擎,催生新的商业模式、服务和产品,成为新质生产力的代表。开源方式为下游市场的多样化发展提供了广阔的空间,用户能够根据自己的实际需求,对模型进行灵活的定制和优化,从而创造出更加多样化的下游应用。同时,开源推动了人工智能技术更深入地渗透到各个行业中,无论是医疗、教育、金融还是制造业,开源人工智能模型都为行业的创新和发展提供了强大的支持。此外,开源人工智能模型还能够促进不同行业之间的合作,这种合作模式促进了技术的跨领域整合。通过开源平台,不同行业的企业可以共享技术和资源,实现跨界合作,共同开发出更加符合市场需求的产品和服务,这种跨界合作不仅有助于提升企业的竞争力,也有助于推动整个社会的创新和发展。

第四,开源人工智能模型有助于中小国家共同发展。受高昂的研发成本、技术封锁以及知识产权壁垒的限制,中小国家在高新技术领域发展较慢,而开源人工智能模型的出现,打破了这些界限。共享代码、算法、工具和模型,降低了人工智能技术的准入门槛,使得中小国家的企业、科研机构乃至个人开发者,能够快速学习、适应并创新。与支持特定语言并针对特定受众定制的闭源模型不同,开源模型使中小国家能够构建使用本土语言和文化的模型。例如BigScience大型开放式多语言模型(BLOOM)能够在有足够训练数据的情况下让开发人员以更低的成本结合新语言进行微调。同时,开源不仅催化了本土技术人才的迅速崛起,还架设了跨国界的技术沟通与合作桥梁,促进了国际的互信与合作,为中小国家在国际技术规则制定中争取到了更多的话语权。各国可以基于技术贡献而非经济实力展开合作,共同谋划人工智能的未来发展方向,确保技术发展惠及全人类。

(二)开源人工智能模型的风险反思

第一,开源人工智能模型存在较大风险,可能带来内容安全、网络攻击、非法利用和不可控负面后果等风险。首先,最关键的问题在于内容安全层面,由于开源模型降低了生成违规内容的技术壁垒,包括但不限于非自愿产生的违法内容的生成,且原始模型在内容审查方面存在天然挑战,尤其在经历下游平台的定制与应用阶段后,其有效实时的监控与管理尤为困难。其次,虽然开放源代码和API有利于开发者个性化定制和创新整合,但如果基础模型未经严密的安全审核,则其中隐藏的安全隐患可能随之被传递至衍生版本,增加系统遭受网络攻击的风险。此外,在开源环境下,不法分子可能通过对模型推理代码的篡改,规避既有的安全防护机制,将原本合法用途的AI模型转化为实施诈骗、制造恶意软件等不法行为的工具。更进一步讲,开源人工智能模型所带来的不可控负面影响不容忽视,例如ChatGPT 4.0所展示的强大蛋白质设计能力警示此类技术可能间接触发生物科技安全风险,甚而触及敏感的生化武器研发领域。因此,既要鼓励开源人工智能模型以促进技术创新,又要对具有高风险性的大型模型实行严格的监管措施,确保其发展既能推动科技进步,又能有效防范各类安全风险。

第二,开源人工智能模型在一定程度上可能导致资源的过度消耗。由于开源的特性,任何具备相关知识和技能的开发者都可以参与进来,这促进了技术的创新和应用的广泛性。然而,无限制的开放和自由也可能带来一些问题。由于缺乏严格的开发计划和资源管理机制,开发者往往根据个人兴趣进行开发,导致大量重复工作和资源浪费。同时,一些项目未经充分评估就匆匆启动,部分应用未经优化和测试,导致运行效率低下,难以实现预期效果,进一步加剧资源浪费。此外,开发者过度追求技术新颖性,忽视实际应用中的效率和成本问题,会大量消耗计算资源和存储空间。

第三,开源人工智能模型将引发知识产权风险,包括但不限于著作权、商业秘密等。一方面,在著作权风险方面,学界对于开源软件是否受著作权法保护存有分歧。虽然开源许可通常允许源代码的使用、修改和分发,但不同的开源许可协议(如GPL、MIT、Apache 2.0等)有不同的要求。由于开源技术的“自由”属性与知识产权的“独占性”天然存在冲突,不当使用开源代码,例如未遵守许可协议中的署名、分发条件等,可能导致版权侵权。另一方面,在商业秘密风险方面,商业软件在整合开源软件时,可能会面临商业秘密泄露的风险,这在很大程度上是由开源许可协议的特殊传播性质所导致的。如果在专有软件中融合了采用GPL等具有较强传染性的开源许可协议的组件,那么该专有软件可能被迫遵循类似的开源条款,从而导致商业机密的意外公开。此外,如果引入的开源组件中包含恶意代码、病毒或存在安全缺陷,那么这也可能为商业秘密的外泄提供机会,对内部系统的保密性构成威胁。

第四,开源人工智能模型的应用可能增添高昂成本,并潜藏不正当竞争风险。一是如果开源模型使用包含侵权内容、低质量的数据集,企业或者个人在应用该开源模型前需要投入高昂的成本来精选数据,这无疑增加了下游应用者的成本;如果不投入成本进行改进,开源模型的应用可能出于非恶意地偏离最初的设计意图,从而导致严重的后果。此外,开源人工智能模型不仅仅是代码,还包括了训练数据、模型权重和微调,这些要素对于理解模型的工作原理和应用都至关重要。然而,由于开放程度的不同,如果只提供代码、训练数据和模型权重,而没有微调,可能需要投入大量资金才能获得相当的性能。二是开源作为一种商业策略,虽有力地激发了市场竞争的活力,但也滋生了不正当竞争的隐患。由于缺乏统一的开源人工智能模型定义,某些企业可能利用开源作为市场渗透的捷径,随后通过闭源部分功能或变更许可协议,限制了原本的开放性,这种策略初期可能吸引用户,但长远看会损害技术创新和市场竞争秩序。此外,一些开源人工智能模型由头部公司主导,通过广泛使用来加强网络效应,但实际上并不完全开放。这些企业可能要求用户使用其配套工具和服务,并利用监管豁免获得优势地位,从而巩固而非打破市场垄断,对行业竞争构成不利影响。开源社区对于推动开源发展起着重要作用,而目前国内开源社区面临组织协同机制松散、专业人才匮乏的问题,缺乏有效的项目管理、社区运营机制,以及合理的激励与利益分配体系,这影响了开源生态的公平竞争环境与长期发展潜能。

虽然开源人工智能模型在发展进程中存在价值上的争议与质疑,但不能因此而否定开源,亦不可对其伴随的风险置之不理。实际上,停滞不前、反对开源的发展才是最大的风险所在,正确的态度应该是秉持开放和包容的精神,正面应对这些质疑与挑战,深入剖析存在的制约因素,进而探索切实可行的解决方案,更好地释放出开源人工智能模型的正向价值。


三、全球开源人工智能模型的治理路径选择

在全球开源人工智能模型的发展与治理领域中,各国展现出了多元且分化的发展策略与监管立场,反映了各方对开源人工智能模型所蕴含机遇与挑战的不同认知与应对。

(一)欧盟:积极推动和风险防控

欧盟作为开源人工智能模型的积极推动者,充分认识到开源在人工智能技术创新、资源共享和国际合作层面上的巨大价值。尽管欧洲存在市场碎片化的现象,缺乏统一市场的强有力支撑,导致在人工智能大模型的发展上相对较弱,但欧盟正通过积极推动开源人工智能模型的战略,来激活区域内竞争,进而推动人工智能产业的发展。《产品责任指令》中规定,当人工智能系统中的软件、硬件作为产品投放市场时,需遵守相应规定,但“在商业活动之外研发、提供的自由且开源的软件”则不受此限。《人工智能法》中规定,整个法规不适用于在自由和开源许可下发布的人工智能系统,除非它们作为高风险人工智能系统或属于第5条或第50条的人工智能系统投放市场或投入使用。此外,《人工智能法》还为不具有系统性风险的通用人工智能模型设立了一个有限的开源豁免规则,可以免除透明度等义务,但提供者必须分享详细的训练内容摘要并遵守欧盟版权法。这意味着,对于基于自由与开源许可的人工智能系统,欧盟给予了有限的豁免,在推动人工智能技术创新发展的同时,防控开源人工智能模型可能引发的风险。

(二)美国:审慎观望与意见纷呈

美国的关注点更多集中在开源人工智能模型可能带来的潜在风险,尤其是对国家安全和全球战略平衡的影响。首先,美国对于开源人工智能模型的态度存在争议。一方面,在产业界内部,关于开源人工智能模型的利弊存在截然不同的看法。支持者主要是部分科技巨头,视开源为驱动创新和经济增长的强大力量,相信其能够带来前所未有的发展机遇。然而,反对者担忧开源模式可能会侵蚀现有的商业生态和稀释技术创新的独有价值,更害怕它提供一个制造大规模破坏性武器的蓝图,易于被恶意利用。另一方面,对白宫2023年10月30日出台的《安全、可靠和可信人工智能行政命令》存在争议。尽管该行政命令得到了人工智能企业的支持,但反对声音亦不在少数。批评者认为此类规定可能会对人工智能的发展构成障碍。有专家表示此行政命令或预示着联邦政策层面似乎准备放弃曾使美国企业在计算与数字技术领域处于全球领先地位的开放式创新模式。2024年2月7日,美国加利福尼亚州发布了《前沿人工智能模型安全与创新保障法案》(Safe and Secure Innovation for Frontier Artificial Intelligence Models Act,SB 1047法案),旨在加强对前沿人工智能模型安全性的监管。然而这一法案也引发了争议,TechNet和The AI Alliance等组织认为该法案损害开源生态,并且不利于小型科技公司发展。其次,美国关注到核武器扩散等重大国际安全问题,其立法机构提出《人工智能和生物安全风险评估法》,旨在监督和研究生成式及开源人工智能模型在生物化学武器研发中的潜在不当用途。此外,美国担忧过度开源人工智能模型可能有利于其他国家或竞争对手提升技术水平,从而动摇自身在全球科技竞争中的领先地位。因此,美国倾向于强调开源人工智能模型的风险防控,而没有明确提出具体的豁免条款或鼓励措施。但美国在开源人工智能模型的发展与推广上也扮演了关键的角色。作为全球主要的开源技术研发和应用大国,美国拥有众多世界级的开源人工智能平台和项目,这些平台不仅是技术创新的温床,也是全球开发者社群交流与合作的核心枢纽。美国政府及私营企业对开源文化的倡导和实践,吸引了全球各地的顶尖人才参与贡献,促进了知识和技术的快速迭代与共享。其培养开源文化氛围以及鼓励跨地域、跨领域的深度合作等方面值得全球其他国家和地区借鉴和学习。

(三)中国:鼓励创新与规范引导

欧盟、美国开源人工智能模型治理路径的选择,一方面带有其既往相关领域立法或治理的特点,另一方面也体现着不同国家或地区在发展人工智能开源生态上的公共政策导向选择,包含着其利益诉求。对欧盟而言,其在互联网发展过程中一度未能形成大体量、业务稳定的互联网本土企业,领域内社交媒体、电商等市场长期为美国企业主导或占据,亦受到其他国家企业跨境业务的冲击。因此,欧盟希望通过构建适宜开源人工智能模型发展的良好政策环境,在人工智能领域实现“超车”,并结合《人工智能法》及其他制度,兼顾对个人权利的保障和对人工智能风险的防范。美国在互联网产业、新兴技术产业长期居于领先地位,人工智能治理、数据流动规制等方面也倾向于市场导向和企业自治,避免给美国的科技巨头造成过多限制。但是,随着美国对其国家安全和在国际上的领导地位愈发重视,加之全球范围内科技竞争、商业竞争愈发激烈,美国逐渐开始担心其先进技术或高质量数据会经由开源等途径为其竞争对手获取,削弱其优势。因此,美国的开源生态虽较为完善,其监管策略却有收紧的趋势。

我国应采取何种开源人工智能模型治理路径,除了研究、参考域外经验以外,更关键的仍然是要立足于我国目前的开源人工智能模型发展状况及发展需要。大体而言,我国应倡导开源人工智能模型发展,并拓宽人工智能开源生态发展的国际化道路,特别是在“一带一路”机制的合作框架下,与更多国家分享技术成果,形成全球科技合作的新格局。开源软件实践已证实,打破软件系统的学习、使用、分享和改进壁垒,能为所有参与者带来诸多益处。在人工智能行业中,参与者同样需要这样的裨益。当前,尽管我国在开源人工智能模型数量和技术水平上仍需加强,特别是在满足中文需求及提升个人开发者参与度方面存在明显不足,但也意味着我国拥有广阔的发展空间和发展潜力。正如前文所言,人工智能模型开源不仅是中小国家共同发展的渠道,也是削弱技术霸权、推动全球科技民主化进程的关键力量。在全球技术竞争日益加剧的今天,鼓励开源可以视作一种战略选择,能够为中国提供一条在技术上实现自主和创新的途径,有助于打破技术垄断。《新一代人工智能发展规划》《国家新一代人工智能标准体系建设指南》和《全球人工智能治理倡议》等政策文件都强调了开源开放的重要性,旨在通过标准化推动人工智能技术的优化和规范化发展。国务院国资委、国家网信办、工业和信息化部等部门均表示应坚持开放合作,支持企业持续加大国际合作力度,积极参与开源社区建设,贡献开源项目,参与国际标准制定。

然而,国内开源人工智能模型发展实践中面临供给端困境。一是对于中小企业来说,合规压力也是一个不容忽视的难题。大型企业通常拥有专业的合规部门,与政府建立了良好的沟通机制,能在遵守各项法规的过程中形成规模效应,降低单个项目的合规成本。相比之下,中小企业在面对复杂的合规环境时,特别是在算法备案、数据安全、隐私保护等环节,合规成本居高不下,加重了其负担。这对中小企业在开源人工智能模型领域的创新动力产生了双重抑制效应。一方面,严格的合规要求可能促使中小企业在研发过程中采取更为谨慎甚至保守的策略,避免触碰合规红线,在一定程度上抑制了技术创新与产品迭代的速度。另一方面,高额的合规成本可能会迫使中小企业放弃某些有潜力但合规风险较高的开源项目,从而错失市场机遇。过高的合规门槛不仅降低了中小企业的参与度和活跃性,还进一步加剧了大型语言模型领域市场集中度的提升,可能导致行业生态趋向单一化,降低了多样性与竞争活力。因此,需要出台相关政策改变这一现状,为中小企业提供必要的指导和支持。二是科技企业发展需要动力。在竞争激烈的市场环境下,科技企业既要保证生存,又要追求发展壮大的愿景,需要努力实现商业利益的最大化。然而,面对高额的先期投入,如何在追求技术创新和确保商业回报之间找到恰当的平衡点,成了摆在众多科技企业面前的一道现实考题。这需要政策制定者、行业领导者以及社会各界共同努力,探寻创新模式,创造有利条件,以支撑和鼓励更多科技企业参与到开源人工智能模型的浪潮之中。


四、开源人工智能模型治理的制度框架

中国作为一个具有全球影响力的大国,既要积极推进人工智能技术开源,促进技术的本土应用和发展,又要审视其对国内应用可能产生的负面影响以及国际安全层面的风险挑战。在此背景下,我国需要肩负起双重责任,既要鼓励和促进开源人工智能模型发展,又要确保其不会引发不可控的安全和伦理等问题,同时在国际维度上,也要最大限度地规避技术外溢带来的安全威胁和战略不确定性。因此,中国有必要构建科学、严谨且适应时代发展的开源人工智能模型治理制度框架,支持具备良好风险管理能力的开源人工智能模型健康发展,确保开源人工智能模型的研发和应用始终沿着安全可控、合法合规的轨道前进。

(一)建立支持开源机制,为行业注入发展能量

为鼓励算法与基础模型的创新,可以从以下三方面来支持开源:一是政府提供财政和公共采购服务支持。中央和地方财政应设立专项资金支持人工智能发展,并鼓励政府和国有企事业单位采购符合国家标准的开源人工智能模型产品与服务,促进其发展。同时,通过提供财政补贴鼓励中小企业,利用第三方机构为中小企业提供合规和法律咨询服务,减轻中小企业面临的合规和法律障碍,促进其健康发展。二是制定税收抵免等优惠政策。为了鼓励在这一关键技术领域的投入,政府可以允许符合条件的投资支出按照一定比例在应纳税额中予以抵扣,从而实质性降低企业在安全技术研发和设备升级过程中的财务负担。同时,在资源配置层面,政策设计应侧重资源的均衡分配,防止单一企业垄断资源,确保小企业和初创企业也能获得发展空间。三是引入“开源豁免”。对不同类型的开源人工智能模型采取差异化的监管措施,鉴于完全免费、无任何使用限制且面向全体用户的开源在推动技术普惠和创新方面发挥的关键作用,政策层面上可以积极探讨并酌情授予它们适当的法律责任豁免特权。

(二)设置风险管理义务,赋能行业稳健前行

国家相关部门应为开源人工智能模型研发者制订专门的合规指引,针对不同级别的开源人工智能模型设置不同的风险管理义务,引导各类型企业形成合规能力、主动管控风险,推动开源人工智能模型创新发展。第一,对于中小型人工智能模型,可以明确规定其研发团队在项目的初始阶段乃至全过程所必须承担的基本义务。这些义务不限于采纳恰当的模型训练流程和方法论,还包括确保团队成员接受必要的伦理教育和技术技能培训,严格执行数据源的适用性审查以及潜在数据偏差的排查等一系列关键环节。只有在切实履行上述基本义务的前提下,方可视具体情况对其可能面临的法律责任予以适当减轻或有条件豁免,从而有力保障开源人工智能模型的健康、有序发展。第二,对于大型开源人工智能模型的开发团队,除去上述基本义务之外,作为技术提供者和生态建设者,还需要对开源模型技术和生态承担进一步的管理义务,例如,就技术应用可能带来的社会潜在影响进行周密且深入的风险评估工作,制定并实施针对各类潜在风险的防控策略,确保能够及时预见并妥善管理风险。同时,大型开源人工智能模型的开发团队需要保持对自身开发实践的持续反思与动态调整,即定期对项目进行自我审查,并随外部环境变化及时做出适应性改进,以确保大型开源人工智能模型的安全稳定发展。

为确保规制措施既有效而又不会形成过度的合规负担,还需要明确界定开发者及开源平台的责任界限。鉴于开源共享的本质,一旦模型开源发布,其开发者及托管该模型的开源平台实质上丧失了对模型后续流通与应用的直接控制力。因此,合理的规制框架需要将开发者和开源平台的责任限定在其能够直接控制的范围内,而非无限延伸至模型被第三方下载、修改或应用之后的各种情形。换言之,在开源模型被他人使用和操作的环节,开发者和开源平台不应承担不合理的法律责任,以此来保障创新动力与开源不受阻碍。这一过程也需要尊重不同类型的开源协议,承认基于开源协议形成的研发者与使用者之间的权利、义务与责任分担规则,即法律不应对全面公开、部分公开、渐进式公开等不同方式中的开源进行介入和干预,而应注重确保研发者有义务制定并随开源模型发布对应的开源协议,并通过监管执法等手段督促各方遵守协议。

(三)构建协同治理机制,保障开源生态安全

第一,构建协同自治机制。一方面,构建多主体、多维度、多价值、多场域的协同自治机制,包括基础模型开发者、微调模型开发者、下游应用者等多元主体应共同参与。一是开源模型各主体需基于自身对竞争风险的认知,建立防范不当竞争的合规机制;二是各主体定期开展技术自查,紧跟技术迭代步伐,对发现的技术问题或安全隐患迅速响应,采取改进措施,增强技术的可靠性和稳定性。另一方面,应积极发挥行业协会等社会组织的自律管理职能,通过制定行业规范和评价体系,维护市场的公平竞争秩序。例如,Debian社区制定了一系列具有指导意义的规则,明确了贡献者的决策权力,为社区在面临冲突或责任问题时提供了参考。

第二,构建协同监管机制。一是政府多部门协同监管。政府多个部门应通力合作,发挥现有机关职能进行法律监督。人工智能主管部门和其他相关部门如市场监管部门、工信部门、网信部门、知识产权部门以及国安部门等应密切协作,对开源人工智能模型的知识产权保护、合同协议履行、反垄断规制、用户权益保护等问题进行严格监督和执法,加强监管互操作性,形成联动效应。 二是聚焦高风险应用场景。监管制度应紧密贴合实际应用场景,例如交通运输部门制定自动驾驶汽车的针对性监管制度,而非对具有广泛用途的图像识别系统进行泛泛规定。这样既能有效规避应用场景下的特定风险,又能避免对技术创新的过度约束,促进开源人工智能模型在各领域的广泛应用。

(四)创建开源负面清单,遏制不可控风险

负面清单管理模式注重运用法律手段,可以有策略地引导和约束市场主体的行为。通过对各行各业深入分析,系统性地筛选出那些由于涉及国家安全、社会稳定、个人隐私保护、伦理道德底线等因素而不适宜采用开源人工智能模型的敏感行业和场景。不仅需要涵盖军事、政务、金融、医疗、教育等传统意义上关乎国计民生的重要领域,还要包括新兴技术融合可能导致复杂风险的交叉地带,诸如自动驾驶、智能安防、大数据挖掘、人脸识别等领域中的特定应用场景。通过这种方式,在鼓励技术创新的同时,预先设定好“红线”,防止技术误用和滥用,切实保障国家安全和社会公众利益。

(五)建立开源AI联盟,推动国际合作

Meta和IBM等40多家公司和组织联合发起了开源AI联盟,该联盟旨在通过开放源代码,进行负责任的AI创新,同时确保科学严谨、安全、多样性和经济竞争力。该联盟将开展多个项目,包括开发和部署标准、工具,推进开放基础模型的生态系统,以及支持全球人工智能技能培训和探索性研究。

对于我国而言,构建类似的开源AI联盟具有深远的战略意义。第一,通过整合国内外优质资源,可以形成强大的合力,进一步加大对数据要素、算力、资金等关键资源的投入,从而加速人工智能技术的创新步伐,实现以发展促安全的良性循环。第二,借助开源AI联盟这一平台,我国可以更加积极地与其他国家和地区开展合作与交流,共同探索开源人工智能模型的治理之道,推动制定统一的开源人工智能模型定义和技术标准。如中国与俄罗斯于2024年5月就人工智能技术开发利用维度发布声明,明确双方高度重视人工智能问题,愿就人工智能的发展、安全和治理加强交流与合作。俄方欢迎中方提出《全球人工智能治理倡议》,中方欢迎俄方在人工智能领域提出治理准则。双方同意建立并用好定期磋商机制加强人工智能和开源技术合作,在国际平台上审议人工智能监管问题时协调立场,支持对方举办的人工智能相关国际会议,反对利用技术垄断、单边强制措施恶意阻挠他国人工智能发展、阻断全球人工智能供应链。第三,通过聚集头部科技企业的力量,可以共同推动开放、安全、负责任的人工智能发展,为全球人工智能生态的繁荣与稳定作出重要贡献。


结  语

开源人工智能模型的法律治理是一项复杂而关键的任务,需要从多个维度进行深入分析,包括技术、经济、社会、伦理及文化等各个方面。为实现有效治理,各利益相关方应建立起紧密的合作关系,确保所制定的法规和政策既能促进技术的持续创新与发展,又能维护社会的核心价值和伦理准则。同时,监管措施应具备动态调整的能力,以适应技术和社会的不断变化。展望未来,我们将持续关注开源人工智能模型的法律治理动态,不断优化和完善监管体系,以应对技术变革带来的新挑战,推动开源人工智能模型的创新发展。


扫码阅读全文


原文开源人工智能模型的法律治理刊于《上海交通大学学报(哲学社会科学版)》2024年第8期(第18-33页)。

————————

编辑:黄艺聪

审校:孙启艳

上海交通大学学报哲学社会科学版
上海交通大学主办的CSSCI来源期刊,综合性人文社科期刊,每月出版。
 最新文章