点击蓝字 关注我们
2024年3月4日,由全国网络安全标准化技术委员会发布的《生成式人工智能服务安全基本要求》(以下简称“《要求》”),是同2023年8月25日发布的《生成式人工智能服务内容标识方法》,又一对2023年7月13日发布的《生成式人工智能服务管理暂行办法》(以下简称“《暂行办法》”)的部分标准予以细化,是《暂行办法》的配套性技术文件,更是指引生成式人工智能服务安全发展的重要指南性文件。该文件规定了生成式人工智能服务在安全方面的基本要求,涵盖语料安全、模型安全、安全措施等关键领域,并提出相应安全评估要求。本文将详细解读这些安全要求的具体内容,并对相关服务提供者在提供生成式人工智能服务过程中的合规要点作出建议。
一、文件的适用范围及基本要求
该文件第一条首先明确了其适用范围,即针对利用生成式人工智能技术向公众提供生成文本、图片、音频、视频等内容的服务的组织或个人,确立了一系列安全基本要求,包括语料安全、模型安全、安全措施等,并给出了安全评估要求。这一规定有助于明确标准的适用主体,为服务提供者提供了明确的法律遵循指南,同时也促进了生成式人工智能服务行业的规范化发展。
该文件沿用了《暂行办法》中对生成式人工智能服务及其服务提供者的定义。具体而言,“生成式人工智能服务”是指利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务。而 “服务提供者”则是指以交互界面、可编程接口等形式提供生成式人工智能服务的组织或个人。
如本团队往期文章《生成式人工智能服务管理暂行办法》所指出的一般,《暂行办法》将《生成式人工智能办法(征求意见稿)》中的“研发和提供服务”改为了“提供服务”,体现出《暂行办法》的规制重点在于服务应用层的信息内容安全,对模型及其相关技术作为基础设施的功能研发活动并不适用,意在鼓励生成式人工智能在多领域的探索应用。但是,境外AIGC服务提供者(无论是模型层还是应用层),无论是直接向境内提供相关服务,还是通过API接口或其他形式“封装”后提供“间接”服务,都将受限于管理办法的相关规定。
根据上述定义可知,无论服务提供者位于境内还是境外,只要生成式人工智能服务面向中华人民共和国境内的公众,就应当遵循《要求》的规定。此外,需要注意的是,“服务提供者”的范畴不仅仅涵盖直接向公众提供AIGC服务的主体,还应包括为AIGC服务提供技术支持的主体。
但需要注意的是,在适用范围上,与《暂行办法》需保持一致的是,《暂行办法》不仅明确了“对境内公众提供服务”适用,还引入了一项“安全港”例外,即“行业组织、企业、教育和科研机构、公共文化机构、有关专业机构,未向境内公众提供生成式人工智能服务的,不适用本办法的规定”。这意味着,只有对“公众”提供的生成式人工智能服务适用《暂行办法》,对大量垂直领域,如支持科研、工业应用等场景则排除适用。
二、《要求》中合规要点解读
作为该《文件》的核心内容,关于生成式人工智能服务在安全方面的基本要求,该文件规定了语料安全、模型安全、安全措施等三个方面内容,并在此基础上明确了安全评估的具体要求,具体内容如下:
(一)语料安全要求
1.语料来源安全
与《暂行办法》第七条,服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据这一要求相对应,该《要求》在此基础上,从语料来源管理、语料搭配、可追溯性方面提出了细化要求:
(1)语料来源管理方面
要求使用合法来源的语料,并对语料内容质量提出了量化标准,如语料内容含违法不良信息超过5%的,不应采集或使用该来源语料。
(2)不同来源语料搭配方面
要求提高语料来源的多样性。具体来说,对于不同语言和不同类型的语料,应当结合使用多个不同的语料来源。例如,在使用境外语料时,应合理地结合境内外的不同来源的语料,以保持语料的全面性。这样做有助于提高生成内容的质量,确保内容的客观性和多样性。
(3)语料来源可追溯方面
要求服务提供者具备合法的处理依据,例如开源许可协议、相关的授权文件、交易合同或合作协议等。若涉及自采语料的使用,无论是自行生产的还是从互联网采集的,提供者都需保留详尽的采集记录。对于他人已明确表示不可采集的语料,如通过robots协议或其他限制采集技术手段明确表明不可采集的网络数据,以及个人明确表示拒绝授权采集的个人信息等,都应坚决避免采集。同时,按照我国网络安全相关法律法规及政策文件要求阻断的信息,不应作为语料。
2.语料内容安全要求
《暂行办法》第四条和第七条都对训练数据提出了“合法”的要求。为此,《要求》提出服务提供者可采取多种手段,包括但不限于关键词过滤、分类模型以及人工抽检等,识别并过滤含有违法不良信息的语料。同时,《要求》还从知识产权和个人信息两方面提出了进一步的细化要求。
(1)知识产权合规方面
《要求》围绕着建立知识产权管理策略、识别知识产权侵权风险、完善投诉举报渠道、公开摘要信息等方面提出了多项措施以避免侵权风险。对此问题,在(2024)粤0192民初113号案中,当用户输入“奥特曼”或“迪迦”等关键词时,被告经营的Tab网站中AI绘画模块产生的图像特征与原告持有的合法授权IP形象高度相似,这表明该模块的底层训练语料中包含了属于他人版权的作品。在生成图像内容的过程中,该模块利用了这些版权作品,导致产出的内容带有原版权作品中的特定元素或特征,从而侵犯了权利人的知识产权。因此,服务提供者在管理语料内容时必须严格审慎,防范潜在的知识产权风险。
(2)个人信息保护方面
要求服务提供者应确保其个人信息处理行为具有合法性基础,即取得对应个人信息主体的同意或符合法律、行政法规规定的其他情形。当涉及敏感个人信息的使用时,还必须获得个人的单独同意。
3.语料标注安全要求
《暂行办法》第八条规定,在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。该《要求》在此基础上,对标注人员、标注规则、标注内容等方面提出了更为具体的规定。
(1)标注人员
首先,在安全培训方面。要求定期对标注人员进行培训,培训内容包括标注任务规则、标注工具使用方法、标注内容质量核验方法、标注数据安全管理要求等。
其次,在考核方面。要求考核合格者具备上岗资格,考核内容包括标注规则理解能力、标注工具使用能力、安全风险判定能力、数据安全管理能力等,建立定期重新培训考核以及必要时暂停或取消标注上岗资格的机制。
最后,在职能划分方面。至少划分为数据标注和数据审核两类,同一标注任务下同一人员不得担任多项职能。
(2)标注规则
首先,在规则制定方面。要求标注规则包括标注目标、数据格式、标注方法、质量指标等内容,覆盖数据标注以及数据审核等环节。
其次,在功能性标注规则方面。要求应能指导标注人员按照特定领域特点生产具备真实性、准确性、客观性、多样性的标注语料。
最后,在安全性标注规则放面,要求应能指导标注人员围绕语料及生成内容的主要安全风险进行标注。
(3)标注内容准确性
首先,对于功能性标注,对每一批标注语料采取人工抽检,内容不准确的,应重新标注;内容中包含违法不良信息的,该批次标注语料应作废。
其次,对于安全性标注,每一条标注语料至少经由一名审核人员审核通过。
(二)模型安全要求
1.模型生成内容安全性
要求服务提供者应对每次使用者输入的信息进行安全性监测,引导模型生成积极正向内容,并建立常态化检测测评手段,对测评过程中发现的安全问题及时处置,通过指令微调、强化学习等方式优化模型。
2.模型生成内容准确性
要求服务提供者采用技术手段提高生成内容的实时性与精准度。例如,在用户提出法律咨询问题时,人工智能生成的回答应当引用现行有效的法律法规,而非过时失效的规定。另外,服务提供方应当通过不断优化和校正模型,以减少人工智能生成内容中出现的不准确或虚构情况。
3.模型生成内容可靠性
要求服务提供者采取技术措施提高生成内容格式框架的合理性以及有效内容的含量,提高生成内容对使用者的帮助作用。
(三)安全措施要求
1.模型适用性
服务提供者在服务范围内应用生成式人工智能服务时应充分论证模型的必要性、适用性和安全性。如生成式人工智能服务应用于关键信息基础设施领域,或者医疗信息服务、心理咨询、金融信息服务等重要场合的,应当配备与风险程度相适应的保护措施。面向未成年群体的生成式人工智能服务服务提供者,还应设立未成年人保护措施,同时需遵守《未成年人保护法》《个人信息保护法》《未成年人网络保护条例》等规定,保障未成年人身心健康安全。
2.服务透明度
服务提供者以交互界面提供生成式人工智能服务的,应在网站首页等显著位置向社会公开服务适用的人群、 场合、用途等信息,并公开基础模型使用情况。以可编程接口形式提供服务的,应在说明文档中公开上述信息。
3.用户数据处理
服务提供者应当为用户提供一种便捷的途径,用以关闭其输入信息用于模型训练的功能。这可以通过多种方式实现,比如设置直观易懂的选项,或者提供简洁的语音控制指令。为了确保这种便捷性得到落实,《要求》进一步通过具体示例加以明确:当用户选择通过选项来关闭该功能时,从服务主界面开始,到达关闭选项的操作过程应控制在四次点击以内。
同时,为符合《办法》中对于“透明度”的要求,服务提供者应确保在界面设计或用户交互过程中,以显著方式向使用者告知其输入信息的收集状态,并清晰地展示关闭信息用于训练的选项或指令。
4.用户管理
根据《办法》第十条和第十四条,生成式人工智能服务提供者有义务指导使用者科学理性认识和依法使用生成式人工智能技术,并对使用者的行为进行监督。为了有效执行这些监督职责,《要求》提出了以下三项具体措施:
(1)实施监测机制
通过关键词筛查或分类模型等方式,对用户输入的信息进行实时监测,以便及时发现并处置不当行为;
(2)拒绝回答机制
对于检测到的含有明显偏激或诱导生成违法不良信息的问题,服务提供者的系统应自动拒绝回答,防止传播潜在有害内容。
(3)人工监看机制
配备专门的监看人员,及时根据监看情况提升生成内容的质量与安全性,并对第三方投诉进行收集和响应。
5.服务稳定性
为维护服务的稳定性,《要求》建议服务提供者采取多项安全措施,例如将训练环境与推理环境隔离以防止数据泄露和不当访问、持续监测模型输入内容以预防诸如DDoS、XSS和注入攻击等恶意攻击、定期进行安全审计以识别和修复潜在安全漏洞,以及建立数据、模型等备份机制和恢复策略等。
(四)安全评估要求
为促进生成式人工智能服务提供者有效履行安全评估的职责,《要求》细化了《暂行办法》中的要求,即提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并按照规定履行算法备案和变更、注销备案手续。根据《要求》服务提供者需对第5章至第8章的规定进行逐条审查,针对每一条款给出“符合”、“不符合”或“不适用”的评价,并据此形成最终的评估报告。此外,为确保评估工作的可操作性,《要求》特别针对语料安全、生成内容安全、问题拒答等方面提出了量化的评估标准。
三、合规建议
(一)严格把控语料来源安全
由于语料来源的广泛性及应用的多样性,生成式人工智能服务过程中,可能造成的权利侵害结果不仅复杂多样,其形成原因亦是如此。仅从事后控制角度关注侵害结果,忽略了人工智能技术的设计意图、训练数据、科技伦理等源头性因素对人工智能造成侵害结果的直接影响。因此,相关企业应根据相关法律规范及技术规范,增强人工智能的源头治理力度,将人工智能侵害治理追溯至人工智能的设计、开发等源头阶段,优化人工智能侵害的责任主体链。如在算法设计方面,应采取有效措施防止产生民族、信仰、国别等歧视,并将伦理道德纳入技术体系,推动“科技向善”。在人工智能训练、优化、测试数据等语料治理方面,应关注语料的来源、质量、安全乃至语料搭配等方面,制定恰当的治理规则以实现语料的源头治理。
(二)重视对知识产权、个人信息的安全保护
生成式人工智能服务对于内容创作模式的更新本质上即是技术革新对于知识产权既有利益平衡制度的挑战。从现有行业实践来看:
一是可创设AIGC训练作品的前置管理工具。具体而言。可参考著作权集体管理制度,由监管机构设立统一的登记机构或成立管理组织,允许作者自行决定是否将其作品用于AIGC训练,保证作者对于其版权的控制,但一定程度上会增加AIGC获取训练数据的难度;或者参考开源共享模式,
二是标注+退出机制。这一机制考虑到前置授权许可的成本问题,转向在生成式人工智能服务生成内容中对作品的使用情况作出标注和说明,同时允许作者可以选择退出,以增加作者对于其作品使用的感知和控制。但问题在于,生成式人工智能服务训练数据较为庞杂,且生成内容并非“直接引用”而具有一定的创造性,实现标注面临现实障碍。实践中,这一机制虽面临上述质疑,但对于作者已经提出明确拒绝的作品退出AIGC训练已得到一般性认可。
(三)遵循相关法律规范,加强内部合规体系建构
完备的人工智能合规体系应以网络安全、数据安全和个人信息保护为底层架构,即应首先按照《网络安全法》《数据安全法》《个人信息保护法》及配套规则构建健全的网络安全与数据合规治理体系,例如制定并落实数据分级分类保护规则、安全事件应急响应规则。在此基础上,结合《暂行办法》等人工智能相关规定,补充完善训练数据治理、内容治理、生成内容标识、科技伦理审查等由人工智能引发的特殊合规要求。
具体而言,我国虽并未针对生成式人工智能服务进行专门立法,但随着人工智能领域的高速发展和新兴争议的出现,网信办等部门已发布了以下规定以规范人工智能服务:
2018年11月30日——《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》
2022年03月01日——《互联网信息服务算法推荐管理规定》
2023年01月10日——《互联网信息服务深度合成管理规定》
2023年08月15日——《生成式人工智能服务管理暂行办法》
2023年08月25日——《生成式人工智能服务内容标识方法》
2023年10月08日——《科技伦理审查办法(试行)》
2024年01月18日——《国家人工智能产业综合标准化体系建设指南》(征求意见稿)
以上均为企业内部建构相关合规体系时需重点关注的规范内容。