GEN AI 合规 FAQs(五)| 企业应用Gen AI需关注的数据安全和个人信息保护问题

文摘   2024-11-08 16:29   北京  

欢迎点击上方 TMT法律论坛 关注我们



专栏

GEN AI

导读

自Open AI掀起生成式人工智能的狂潮以来,大模型在各行各业的应用日益广泛,成为推动企业创新与新质生产力发展的重要力量。与此同时,合规挑战亦如影随形。在此背景下,我们推出系列“GEN AI 合规 FAQs”。


每期,我们都将聚焦企业应用Gen AI相关的核心话题,从产品备案到训练数据集构建,从电信业务许可到内容安全管理,从数据安全保护到知识产权风险应对……全方位覆盖不同合规领域及应用场景,以期帮助Gen AI应用企业妥善应对潜在的法律风险。


本期为“GEN AI 合规 FAQs”第五期“企业应用Gen AI需关注的数据安全和个人信息保护问题”。


注:专栏配图均由AI生成






企业应用大模型乃至开展模型优化均依赖于大量数据,此等数据可能具备商业秘密、个人信息、重要数据等多重属性,进而可能面临数据安全、个人信息保护合规、数据泄露等方面的问题。本期FAQ将对企业应用Gen AI在数据安全和个人信息方面的核心问题进行讨论,并提供合规路径


Q:企业应用Gen AI在数据安全和个人信息保护方面的法定义务主要有哪些?


针对企业以互联网或调用API方式使用Gen AI的场景,通常应由模型方而非企业构成数据处理者和个人信息处理者。而针对企业本地化部署并应用Gen AI的场景,则企业可能构成数据处理者和个人信息处理者,进而主要需遵循如下法定义务:


数据安全方面:

  • 开展数据分类分级,识别重要数据;

  • 针对Gen AI相关系统/产品,落实网络安全等级保护;

  • 建立网络漏洞管理机制,制定数据安全事件应急预案;

  • 落实主体责任(组织架构、制度建设、教育培训、安全措施等);

  • 其他可能适用的义务,例如开展重要数据风险评估等。


个人信息保护方面:

  • 披露个人信息处理规则(隐私政策等告知文本);

  • 取得合法性基础(同意、履行合同所必需等);

  • 开展第三方合规管理(数据处理协议、数据处理活动监督机制等);

  • 开展个人信息保护影响评估(如涉及敏感个人信息处理、委托处理等法定情形);

  • 开展个人信息跨境合规(单独同意、跨境传输合法机制、数据传输合同等,在本地化部署方案下,通常不涉及);

  • 响应个人信息主体行权(行权渠道、行权响应机制);

  • 落实主体责任(组织架构、制度建设、安全措施、教育培训、应急预案等)。


Q: 如何应对Gen AI应用中可能发生的数据泄露风险?

 

据此前报道,韩国某头部科技企业内部发生三起涉及ChatGPT误用和滥用的案例,包括两起“设备信息泄露”和一起“会议内容泄露”。报道称,半导体设备测量资料、产品良率等内容或已被录入ChatGPT大模型中,随时面临泄露的风险。而出现这些事故的根源,均是因为员工将涉密内容输入到了ChatGPT[注1]


企业应用Gen AI所涉及的数据泄露风险主要包括两类:一类是基于Gen AI自身产品/系统发生数据安全事件等“原生风险”而导致的数据泄露;另一类则是由于Gen AI用户输入数据中含有公司商业秘密或其他敏感数据(个人信息、重要数据等),导致该等数据进入Gen AI大模型的“记忆”,进而面临向他人输出内容时泄露此等数据的“次生风险”

  • 针对前者,首先应由Gen AI模型方确保相关网络产品/系统符合安全标准,企业作为应用方,可与此等模型方约定产品/系统安全层面的义务以及责任;同时,企业如涉及本地化部署模型并应用Gen AI(构成数据处理者),应建立网络漏洞管理机制,制定数据安全应急预案,在发现网络漏洞或发生数据安全事件时及时根据相关规定履行上报及通知义务,以履行数据安全主体责任。

  • 针对后者,企业如在内部引入Gen AI技术应用能力,可通过使用手册、操作规程、用户协议等对员工的Gen AI使用行为作出限制,例如要求员工不得输入公司商业秘密以及重要数据、个人信息等敏感数据;此外,企业还可与Gen AI模型方合作,从技术层面对输出内容采取过滤措施、要求交互数据不得进入训练数据集等,以防止此等因输出内容而导致的数据泄露发生。


Q: Gen AI是否涉及个人信息处理?谁是个人信息处理者?


讨论此问题前需首先明确一个基本技术原理,即大模型在处理数据时,会首先将数据分割成一个个的最小单位,这些最小单位就是token,而此等分割的过程即为“token化”(tokenization)。以GPT为例[注2],其系基于子词(subword)来进行“token化”,子词是指比单词更小的语言单位,它们可以根据语料库中的词频和共现频率来自动划分。


比如,一个单词“transformer”可以被划分成两个子词“trans”和“former”,或者三个子词“t”,“rans”和“former”,或者四个子词“t”,“r”,“ans”和“former”,等等。


GPT系列采用了一种叫做Byte Pair Encoding(BPE)的子词划分方法。BPE是一种基于数据压缩原理的算法,它可以根据语料库中出现频率最高的字节对(byte pair)来合并字节,从而生成新的字节。


例如,“obsessiveness”这个单词可以被BPE转换成以下子词序列:

原始字节序列:obsessiveness

第一次合并:obseZiveneZ(假设Z代表ss)

第二次合并:obsEivenE(假设E代表e Z)

最终子词序列:obsEivenE(如果没达到预设的字节要求,可合并只出现一次的子词)


据此,仅就大模型本身而言,其不涉及“存储”原始数据,原始数据进入大模型后的“token化”过程,将导致原始数据被按照大语言模型能理解的方式拆分、替换、合并等,并形成一个个token,且此等“token化”过程通常不可逆。


前述过程可本质上视为脱敏过程,回到个人信息判断的问题(根据《个人信息保护法》,判断标准包括“识别标准”和“关联标准”[注3]),“token化”过程的拆分、替换、合并程度越精细,其去标识化的程度就越高,不排除可以达到匿名化的效果,进而可论证大模型不直接存储原始个人信息。


然而,尽管可论证大模型不存储原始个人信息,结合德国巴登-符腾堡州数据保护和信息自由专员办公室近期发布的讨论文件,其认为评估大模型是否涉及处理个人信息应考虑能够接触到或潜在接触到足够的补充信息来识别出具体个人的可能性,而这些信息不一定要全部集中在单一实体的控制之下,亦即评估过程中不能仅仅关注模型本身,而应该将整个大模型系统或应用作为整体来考量。具体而言,应验证第三方或用户是否能够通过特定的输入提示,从大模型中获取到个人信息作为输出结果。如果可以,即使大模型没有直接存储原始个人信息,也可能存在间接的可识别性,进而整体涉及处理个人信息[注4]


综上,经过“去标识化”程度测试分析,可以论证大模型不存储输入至大模型的原始个人信息,但如果经评估认定大模型应用过程中可能通过输入提示而输出个人信息,则整体上仍涉及处理个人信息。据此,以企业内部应用Gen AI并向员工开放使用场景为例,关于可能涉及的个人信息处理活动,可作如下理解:

  • 如果企业以互联网或调用API方式使用Gen AI,则企业作为应用方不涉及收集、存储、分析输出等任何个人信息处理活动,即不构成个人信息处理者;模型服务方则整体就收集、分析输出等活动构成个人信息处理者。

  • 如果企业以本地化部署形式应用Gen AI,企业作为应用方整体就收集、分析输出等活动构成个人信息处理者,进而仍需履行告知、具备合法性基础等义务。


Q: 利用用户输入数据开展模型优化应履行哪些合规义务?


近期,Twitter/X更新了服务条款,并将于 11 月 15 日生效,主要包括要求用户同意公司将用户输入的文本和其他信息用于训练大模型,并表示公司不会就此等行为向用户支付任何补偿,原因是用户对Twitter/X服务的使用本身即被视为此等充分补偿。值得注意,Twitter/X此前的服务条款已经声明它会使用用户内容训练其模型,但允许用户选择退出,而在新的服务条款项下用户无法退出。


理论上,用户输入的数据具有多重权益属性,一方面,针对特定用户输入的数据,根据“关联标准”,其可能属于个人信息;另一方面,此等数据系用户使用Gen AI过程中自行输入而形成,在不考虑著作权等可能涉及第三方权利情形的前提下,此等数据系由用户产生,原则上亦应由用户享有其“数据权益”。


据此,如果要将此等用户输入数据用于模型优化,在中国监管语境下:

  • 对于非个人信息层面的“数据权益”,鉴于目前法律规定尚不清晰,在不涉及国家秘密、重要数据/核心数据等触发国家安全/公共利益、受著作权保护的作品等触发第三方权利时,通过服务条款等方式(参照前述Twitter/X)与用户约定由公司享有,系可行的路径。

  • 对于个人信息层面的合规问题,将用户个人信息用于基础服务外的模型优化,原则上应以同意作为合法性基础,且在《个人信息保护法》的框架下应采取opt - in(默认拒绝用于模型优化、除非主动提供)的同意机制。不过,如前述分析,如果公司收集了用户输入数据后未另行传输至单独数据库以对原始数据进行存储(以供后续用于模型优化),而是直接传输至大模型以完成模型优化,由于“token化”过程已无限趋近于“匿名化处理”过程,进而可考虑仅在隐私政策等文本中披露公司将对用户输入数据进行去标识化/匿名化处理后用于算法分析、模型优化等,以避免过重的“同意”负担。目前,国内大部分大型亦采取此等披露路径[注4]


[注] 

[1] 参见:https://www.thepaper.cn/newsDetail_forward_22643886,最后访问日期:2024年11月6日。

[2] 此部分技术原理资料援引自创智合力AI+:《解读大模型,从了解token开始》,ttps://mp.weixin.qq.com/s/KTpFFy3-EcrJ1h3_00IIcw,最后访问日期:2024年11月7日。

[3] 《个人信息保护法》第4条,个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。

[4] 援引自公众号那一片数据星辰:《LLM不存储个人数据?贴脸开大!德国巴登-符腾堡州发布AI处理数据合法性基础,直接点评汉堡州报告结论!》,https://mp.weixin.qq.com/s/v5exVZ6S_ZvmCH3G0Nbz3Q,最后访问日期:2024年11月8日。

[5] 文心一言:“我们将根据相关法律法规的要求通过技术手段对个人信息进行必要的去标识化或匿名化处理,处理后的信息将无法精确识别到特定个人信息主体。请您了解并同意,在不透露您个人信息且不违背相关法律法规的前提下,我们有权对用户数据进行分析并予以利用,包括但不限于使用技术处理后的对话信息提高文心一言对您输入内容的理解能力,以便不断改进文心一言的识别和响应的速度和质量,提高文心一言的智能性”。

讯飞星火:“根据适用的法律法规,我们可能会对您的个人信息进行技术处理,使得根据该信息无法精确识别到用户个人,并对技术处理后的信息进行匿名化或去标识化的学术研究或统计分析,以便不断改进算法模型的识别和响应的速度和质量、提高服务的智能性和对您输入内容的理解能力,但我们不会根据您输入的对话内容对您个人进行特定身份的识别。”

百川智能:“根据适用的法律法规,我们可能会对您的个人信息进行技术处理,使得根据该信息无法精确识别到用户个人,并对技术处理后的信息进行匿名化的学术研究或统计分析(包括使用您在使用会写功能时输入的对话信息),以便不断改进算法模型的识别和响应的速度和质量、提高会服务的智能性和对您输入内容的理解能力,但我们不会根据您输入的对话内容对您个人进行特定身份的识别。”



相关规范

《中华人民共和国网络安全法》

《中华人民共和国个人信息保护法》

《中华人民共和国数据安全法》


"GEN AI 合规 FAQs" 专栏系列往期回顾


第一期 | 生成式人工智能产品的备案要求是什么?

第二期 | 如何合规地建立大模型预训练数据集?

第三期 | GEN AI生成内容有哪些知识产权风险?

第四期 | GEN AI 研发中的知识产权及技术进出口合规问题


重要提示:

本专栏所有内容仅作为信息性参考,不构成法律意见,不能作为任何行动的依赖。本文中的回复意见可能是不全面的,考虑到监管的不断实践,不排除后续的进一步变化。任何的行动,请以律师的正式意见和监管的意见为准。




作者往期文章推荐

中伦解读


域外关注


本期文字:陈煜烺

本期编辑:陈瑊 陈煜烺 林婉琪


TMT法律论坛
聚焦数据合规、网络安全、GDPR、大数据、Fintech、人工智能、自动驾驶与电子商务等TMT领域的前沿法律实务,由中伦TMT团队运营,合作与沟通:DataLaw.pg@zhonglun.com。
 最新文章