2024年11月15日,欧盟发布了《通用人工智能实践准则草案(第一稿)》,标志着该准则制定工作的重要里程碑。该草案旨在为未来可信、安全的通用AI模型的开发与部署提供指导框架。此外,草案还包含了一些开放性问题,以指出需要进一步完善和推进的领域。未来,最终版的行为准则将设定明确的目标、措施以及关键绩效指标(KPIs)。对于通用AI模型提供者而言,该行为准则将详细规定透明度和版权相关规则。特别是对于可能带来系统性风险的一小部分最先进的通用AI模型提供者,行为准则还将详细列出系统性风险分类、风险评估措施以及技术和治理缓解措施。该稿子由欧盟任命的四个独立专家工作基于通用AI模型提供者的意见与建议而起草完成。分别解决透明度和版权相关规则(工作组1),系统性风险的识别与评估(工作组2),系统性风险的技术缓解措施(工作组3),系统性风险的治理缓解措施(工作组4)。此次发布的草案旨在广泛征求意见,相关反馈意见截止于2024年11月28日。
一、主要内容
(一)通用人工智能模型提供者规则
1.透明度
措施 1:向人工智能办公室提供文档:签署方需编制并更新模型技术文档,包括训练和测试过程、评估结果等,应包含如提供者和模型基本信息、预期任务和集成系统类型、可接受使用政策等内容,鼓励考虑向公众披露部分信息。
措施 2:向下游提供者提供文档:签署方要为下游提供者提供使他们能理解模型能力和限制的信息,包括模型与外部软硬件交互、相关软件版本、架构和参数等,同样鼓励向公众披露部分信息。
附录:可接受使用政策基本要素:可接受使用政策应包含目的声明、范围、主要预期用途和用户、可接受和不可接受用途、安全措施、监控和隐私、警告和账户处理、确认等要素,为用户提供使用指南。
2.版权相关规则
措施 3:制定版权政策:签署方需制定符合欧盟版权法的政策,涵盖模型整个生命周期,明确责任,在模型修改或微调时仅关注相应部分。
措施 4:遵守文本和数据挖掘(TDM)例外限制:进行 TDM 时要确保合法获取版权内容并遵守权利保留规定,包括遵循 robots.txt、确保爬虫不影响搜索引擎可发现性、采用行业标准识别权利保留手段、参与制定标准、排除盗版来源等。
措施 5:透明度:签署方要公开版权合规措施相关信息,包括权利保留合规信息、爬虫名称和 robots.txt 特征、指定联系点处理投诉、记录数据来源和授权信息等。
(二)系统性风险分类
1.系统性风险类型:包括网络攻击、生化核风险、失控、自动化模型用于研发、说服和操纵、大规模歧视等,签署方还可识别其他风险,如重大事故、大规模隐私侵犯等。
2.系统性风险性质:从起源、驱动因素、意图、新颖性、概率 - 严重性比、风险实现速度、可见性、事件进程等维度描述风险性质。
3.系统性风险来源
危险模型能力:如网络攻击、生化核能力、自主性、说服力等,这些能力虽有益处但也可能引发风险。
危险模型倾向:如与人类意图和价值观不一致、欺骗倾向、偏见等。
模型功能和社会技术背景:包括去除防护栏的潜力、工具访问、发布和分发策略、人类监督、模型泄露等因素。
(三)具有系统性风险的通用人工智能模型提供者规则
1.安全与安保框架(SSF):签署方需采用、实施并公开 SSF,其全面性应与预期系统性风险的严重程度成正比,框架应包含风险评估、缓解措施、报告机制等内容。
2.风险评估
措施 8:风险识别:持续彻底识别系统性风险,依据风险分类确定相关风险。
措施 9:风险分析:采用稳健方法分析风险路径、映射风险指标、分类风险严重程度、预测风险发生时间。
措施 10:证据收集:持续收集证据,包括模型无关证据、最佳评估、确保科学严谨性、充分评估模型能力、评估模型在不同系统中的表现、进行多样化评估、开展探索性工作、分享工具和最佳实践、透明报告评估结果等。
措施 11:风险评估生命周期:在模型开发和部署的全生命周期持续评估风险和收集证据,包括训练前准备、训练中定期收集、部署中更新评估、部署后监测等阶段。
3.技术风险缓解
措施 12:缓解措施:在 SSF 中详细说明从风险指标到安全和安保缓解措施的映射,包括安全缓解措施(如模型行为修改、部署防护、提供反制工具)和安全缓解措施(如保护未发布模型权重和资产、控制访问、进行安全测试、筛查内部威胁),同时说明现有措施的局限性和评估映射充分性的过程。
措施 13:安全与安保报告(SSR):创建 SSR,包含风险和缓解评估结果、成本效益分析、方法细节、内部审查结果等,其全面性和详细程度应与模型的系统性风险指标成正比。
措施 14:开发和部署决策:基于 SSR 建立决策过程,确定继续或停止开发和部署的条件,包括不继续的条件(如风险未有效缓解)和继续的条件(如改进缓解措施或通过成本效益分析),以及外部输入和决策机制。
4.治理风险缓解
措施 15:系统性风险所有权:确保各级组织(执行和董事会层面)对系统性风险有足够的所有权,明确责任和资源分配。
措施 16:遵守和充分性评估:每年评估 SSF 的遵守和充分性,考虑计划活动并向董事会报告。
措施 17:独立专家系统性风险和缓解评估:在模型生命周期中适当进行独立专家评估,包括部署前充分测试、部署后允许独立研究,评估可根据风险程度调整。
措施 18:严重事件报告:识别、跟踪、记录和报告严重事件及可能的纠正措施,建立报告和响应流程。
措施 19:举报保护:实施举报渠道并提供保护,告知员工举报邮箱。
措施 20:通知:向人工智能办公室通知模型相关信息,包括模型分类、SSF、SSR 和重大系统性风险,明确通知时机和内容。
措施 21:文档记录:记录遵守准则和法案的证据,包括模型分类信息、SSF、SSR 和风险评估证据,考虑制定标准化模板。
措施 22:公众透明度:适当公开 SSF 和 SSR 以帮助生态系统理解和缓解风险,可对可能增加风险或泄露敏感信息的内容进行编辑。
二、关键原则
1.与欧盟原则和价值观一致:措施、子措施和关键绩效指标应符合欧盟法律中的基本原则和价值观,如欧盟基本权利宪章、欧盟条约和欧盟运作条约等6。
2.与人工智能法案和国际方法一致:有助于人工智能法案的适当应用,考虑国际方法,如人工智能安全机构或标准制定组织开发的标准或指标。
3.风险相称性:根据风险程度制定措施,对更严重或不确定风险的要求更严格,措施应具体、有针对性,区分不同风险类型和因素,平衡具体要求和灵活性。
4.面向未来:子措施和关键绩效指标应能适应技术变化,参考动态信息源,便于更新,例如明确可能需要新措施的模型类型。
5.与提供者规模相称:考虑通用人工智能模型提供者的规模,为中小企业和初创企业提供适当简化的合规方式。
6.支持人工智能安全生态系统发展:促进利益相关者合作,支持知识共享和最佳实践交流,认可开源模型的积极影响。
三、展望
目前草案处于初步阶段,将根据反馈进一步完善,未来迭代将遵循起草计划和原则,可能会更详细地参考人工智能法案条款,根据实际情况调整措施,如系统性风险模型和提供者数量增加时可能引入更详细的分层措施。
接下来,作为行为准则全体会议的一部分,四个工作组主席将与近1000名利益相关者、欧盟成员国代表以及欧洲和国际观察员一起,在专门的工作组会议上讨论该草案。每个工作日,四个工作组中的一个将举行会议,各自主席将汇报最近的起草进展。同时,还将邀请一组平衡的利益相关者代表发表口头意见。所有参与者都将有机会以互动方式发表观点并向各自主席提问。
此外,全体会议参与者还已通过专门平台(Futurium)收到了草案,并有两周时间提交书面反馈,截止日期为11月28日(星期四)中午12点(中欧时间)。基于这些反馈,各工作组主席可能会对第一稿草案中的措施进行调整,并为行为准则增添更多细节。他们的起草原则强调,措施、子措施和KPIs应与风险相称,并考虑到通用AI模型提供者的规模,同时为中小企业和初创企业提供简化的合规选项。
根据欧盟的AI法案,行为准则还将反映对开源模型提供者的显著豁免。此外,原则还强调了需要在明确要求和适应技术发展的灵活性之间保持平衡。
首版通用人工智能行为准则草案的发布,标志着在推动AI技术安全、可信发展方面迈出了重要一步。随着讨论的深入和反馈的收集,该行为准则将逐步完善,并为未来AI技术的广泛应用奠定了基础。