导语:
01
模型上云的数据利用机制
和安全挑战
(1)
模型上云的数据利用机制和安全挑战
首先,模型应用的发展依赖于端云协同。
随着个人用户的终端芯片算力提升和模型的压缩优化,端侧模型已经能够满足基础需求,但对于复杂场景下的高难度任务,仍需要与更强大的云侧模型进行配合。一方面,与端侧算力有天然上限不同,云侧算力具有弹性伸缩、高性价比的特点,能处理图像和音视频理解等多模态任务,也能应对应用快速增长带来的流量洪峰;另一方面,云侧模型还在快速发展演进,同时可以提供多类型、多厂商的模型供开发者选择。“端+云”算力的协同模式,是模型应用发展的优选解。
企业用户也遇到相似的算力挑战。尽管企业可以建设更为强大的自有系统,跟进算力建设把数据和模型都留在本地,但在支持大模型训练和调优的算力集群已经发展到万卡甚至百万卡级别时,大型企业也难以承担集群建设成本和运维高级人才的短缺。而算力的尽头是电力,企业分散建设带来的能耗压力并未完全显现。
在传统数据保护中将个人终端和企业系统视为用户私域,尽管没有任何上位法或安全标准规定,公众和企业习惯于以“重要数据不出域”来解决数据安全问题。数据物理隔离和模型私有化部署与端/云协同的新技术架构不再适配,用户数据在云端模型的处理利用需要全新的安全防护机制。
其次,模型应用的数据利用呈现“多方汇聚”的特征。
大模型以数量巨大、多方来源的数据形成了适配于丰富场景、解决未见任务的能力,而模型应用需要将用户数据与模型能力进行进一步整合。如下图所示,用户要求结合自有文档和外部新闻来做专项分析,Agent就需要根据用户请求和上传数据,调用相应插件和插件引入的三方数据,再结合模型能力作出回应。在产业实践中,Agent的数据链路可能来自于多个插件,完成任务还要调度若干模型和其他应用,链路复杂度还将伴随着用户需求的复杂化和人机交互的持续性而不断累加,形成了一个高度整合、多方参与的数据生态体系:模型应用的数据利用“多方汇聚”的特征更为显著。
在大模型之前,“一事一模”是数据利用的主要模式,即根据同类型的数据规律形成专用模型,应用于特定的场景。可以根据场景确认数据处理范围和目的,并从数据的类型、规模、特征和场景角度对数据的收集和利用进行限制,因此针对个人信息、重要数据等敏感数据,可以采取“目的限定”(即收集个人数据的目的应具体、明确、合法,且数据处理不能与该目的相违背)和“最小够用”(即为了实现数据处理目的而适当的、相关的和必要的)的方式进行事前管控。大模型应用改变了传统的数据利用模式,其场景通用性决定了其需要汇聚多方的数据,以适配复杂的后续任务,并响应用户不确定、多样化的调用需求。不仅模型在训练过程中需要广泛学习各类数据,模型应用需要在使用中将用户数据和插件、应用的三方数据进行混合利用,使得模型应用数据利用的广度和规模难以在事前进行预判,数据保护的事前“最小够用”和“目的限定”的既定规则,已受到新技术和新业态的严重冲击。
(2)
模型上云带来的三大数据安全挑战,建立云侧模型用数安全的信任是关键
模型应用的端云协同和多方汇聚的数据利用机制,给模型上云后的数据利用带来了较大的不确定性。用户即使了解到模型能力可能带来的改进和优化,也因顾虑隐私泄露或商业秘密流失而不愿将数据传输到云侧。如何在云侧构建等效的数据安全保护最佳实践,在技术上最大化地控制用户数据安全风险,同时在监管侧建立标准和实践指引,推动信息共享、认知共建,让各类用户全面了解云侧数据安全保障水平,信任云端模型的数据处理,成为推动模型应用的关键。
首先,用户数据随模型上云,需要云侧数据的安全保障级别和用户私域等同。云侧部署的模型应用需要访问原来保存在个人终端或企业系统中的用户数据,云侧的数据安全保障能力也需要不低于原有私域的数据安全保障,用户才能放心地把数据转移到云侧。继续细分个人用户和企业用户的数据安全问题,个人用户数据涉及用户在交互中的隐私,保护重点在于个人用户对其隐私数据的控制权和对数据处理的知情理解,而企业用户更为关注商业秘密,高度关注企业数据在传输、存储过程中的加密和防攻击,应用处理过程中的权限限制。
其次,用户数据被模型应用处理,需要多方权责事先需约定、事后可追溯。在多方数据汇聚和混同使用的情况下,数据安全权责的认定及各方责任的判断将变得困难。一方面,需要对数据泄露或滥用,对各方应承担的责任应在事先进行原则性约束。另一方面,在调用模型、插件,进行应用编排时,需要对过程和多方权利信息进行记录管理,以备事后找到对应的问题源头和安全薄弱环节,和相关方进行权益主张。
最后,用户数据并不会被产业链滥用,需要三方透明度验证。上一代决策式人工智能对用户行为数据的依赖,使得“数据会被用于模型”的观念深植人心,甚至演化为用户对模型应用的戒备,企业开发模型应用的顾虑。从技术上看,应用数据并不能作为模型训练语料的直接和主要来源(推荐阅读《大模型时代:消失的飞轮》),但仅靠产业链条上的各方难以自证,需要更好的透明度管理和三方验证机制。
02
值得借鉴的Apple PCC方案:
数据上云不出域
Apple Intelligence是苹果公司在2024年6月11日的全球开发者大会上发布的一款个人智能化系统,旨在为iPhone、iPad和Mac等设备提供生成式人工智能功能。它可以根据用户的个人场景进行动态调整,让AI Agent在各种用户数据、既有习惯和使用功能之间自由“穿梭”,获取并关联组合各种信息。该系统拥有端侧的Apple自有模型和公共云的三方大模型(OpenAI GPT-4o,预期会进一步拓展其他合作伙伴)。对于端和云模型之间的数据流转、访问、存储,提供等同于用户私域安全保护的计算环境Apple PCC(Private Cloud Compute)。
(1)
Apple PCC是结合技术工具、商业策略和安全机制的综合方案
为实现更好的用户数据安全保护,苹果在以下六个方面进行了技术提升和机制完善。
一是引入PCC计算节点(Introducing PCC Nodes),由定制Apple Silicon服务器和专为保护隐私而设计的加固iOS和macOS操作系统构建而成。一方面在硬件层加强数据的安全性,提供更好的输出端防攻击能力,另一方面在操作系统层专为支持大模型推理工作负载而定制,同时提供极窄的攻击面;
二是进行访问权限控制(No privileged Runtime Access),不允许任何人绕过用户数据的无状态计算,包括苹果公司的管理员。同时,在构建系统的管理工具时采取了隐私保护措施,以防止用户数据被泄露;
三是用户数据的无状态计算(Stateless Computation),即个人数据仅用于满足用户请求的目的,用加密技术确保iPhone、iPad和Mac仅在服务器软件被公开记录并可供审查时,才会与其通信;
四是端到端加密和数据卷加密,仅限验证过的PCC节点访问,防止数据在传输中被截取,在安全区域处理器动态生成并随即销毁数据加密密钥,确保重启后数据不残留;
五是非目标性(Non-targetability),采用“目标扩散”的方法,以确保请求不会根据用户或其内容被路由到特定节点,从而检测和防范针对PCC规模更小、更复杂的攻击;
六是可验证的透明度(Verifiable Transparency),公开生产环境软件映像,建立透明日志,建立赏金计划,允许并激励安全研究者验证系统安全与隐私保证。由三方专家验证其隐私保护承诺的方式,让用户相信自己与模型的数据和交互记录并没有被模型或其应用滥用。
从以上分析看出,Apple PCC的核心目标是保障用户数据随模型上云时,云侧数据安全能力不低于用户私域,用更为直观的比喻,就像用户私域从自有手机或自建系统延伸到了云端,并通过增强透明度让三方为其验证。前述的三项困难覆盖两项。且在Apple和OpenAI合作的大背景下,可以进一步期待双方合作解决AI Agent带来的多方数据可追溯难题,厘清数据的安全责任和权益分配。更应关注的是,苹果主动分析指出端云协同可能引入的数据安全弱点,并且突出了自身硬件和操作系统可定制的技术优势,延续了之前率先推出IDFA从严保护用户隐私的负责任企业形象。所以不应把Apple PCC视为单纯的技术手段,而是集合了技术工具、商业策略和安全机制设计的综合方案。
(2)
Apple PCC的安全方案有广泛适用性
Apple定义的安全问题聚焦在自有手机和PC,但细究当前的模型发展重点:在我国可以看到联想推出AI PC,OPPO、VIVO等推出AI Phone,而新能源车厂更是基于车侧模型积极推出智能座舱,钉钉、WPS等各类工具软件也推出了人机交互的智能助手,而政府和企业用户也在积极采用模型改造自身的公共服务和企业信息化系统。所以,端云配合的模式不限于苹果,工具软硬件的升级改造也不限于智能手机。这些场景都需要在公共云上提供等同于用户私域的数据安全服务,都需要在AI Agent快速铺开时对多方进行数据的权责区分,还需要解决用户对模型“占用”其数据的犹疑和隐忧。
Apple PCC框架提出的“内部管控+外部监督”的综合治理模式,在我国“有效市场+有为政府”的政策环境下可以更为强化:企业出于自律,利用技术能力和商业理解来设计安全方案,而政府组织三方专业机构为模型应用的安全水平进行评估,主动为公众和企业的数据安全迷思释疑,使得重视安全的模型企业可以享受市场的“信任红利”,从而建设一个政企合作、激励相容的产业发展环境。
03
对模型应用治理和
数据安全保护的几点思考
第一,模型通用化对传统的数据保护思路带来极大冲击,需要技术工具、商业模式和政策制度的共同创新。新一代生成式人工智能带来通用人工智能的曙光,重点在于“通用”,即一个模型可以解决多个问题、适配多个场景,使得数据要素有了价值释放的全新路径。但传统思路在于“限定”,通过数据本地存储和物理隔离限定访问权限,通过“目的限定”和“最小够用”限定采集范围和应用场景。“通用”和“限定”在逻辑上存在底层冲突,模型应用数据安全的解决方案不能单纯依赖技术护栏,而是以商业模式调谐多方的权责分配,以政策制度弥合歧见、促进共识。
第二,数据安全的核心是让数据在可控、受保护状态下得到合法利用,数据不动、不用并不等同于安全。数据安全本身并不区分数据存储的介质和环境,数据无论在端侧还是在云侧存储都需要防范被攻击、被盗取的技术安全风险,而随着云安全技术的完善,云侧存储数据安全性得到进一步提高,安全状态和稳定性和持续性也更强。将数据安全等同于限制数据上云、将数据完全限制在本地并不更安全,反而限制了数据的有效利用,这种思路和做法错误理解数据安全的核心理念,并不符合数据安全技术的发展方向,很大程度上限制了数据在安全状态下的合法利用,牺牲了数据价值也没有换来更好的数据安全保障。将数据安全等同于数据不动、不用,这种对数据安全的误解带来数据安全实践的偏差,对数据的有效利用形成了很大阻碍,亟待权威、专业的纠偏、澄清和释明。
第三,模型数据安全对模型应用有重要影响,科技企业的方案需要获得政策的认可,应用治理与数安保护需要多方共识和共同努力。模型安全是模型的核心竞争力,用户信任是模型应用和推广的前提条件。在模型云侧协同部署的大趋势下,科技企业为了建立用户信任,会自主、自发地通过优化技术手段实现更安全合规的模型上云数据方案。在人工智能发展前路充满了不确定性,但公众和企业用户在安全层面都需要确定的答案。在穿越不确定性的丛林中,产业侧需要积极地提出解决方案,并在实践中进行效果验证;社会侧可以结合业务实践提炼最佳案例,建立指引规范。
总体来看,在模型从研发走向应用的过程中,顺应技术特征、为发展留空间的思路要保持一致性、连贯性。大模型研发推动模型能力提升,大模型应用让模型赋能千行百业。在模型训练阶段,数据政策要重视数据的可及性,用事后救济和补偿的方式代替过多前置对数据获取的限制与管控。在模型应用阶段,数据政策同样要避免过早“下结论”、“一刀切”,坚持“找办法”、“留空间”。大模型的产业和治理政策不仅要支持模型更强大,也要保障模型更好用、更安全,帮助模型应用走好“最后一公里”,将模型能力转化为生产力。
版块介绍 — 治理之智
在全球化背景下,科技的快速发展也带来了前所未有的治理挑战。本板块内容依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态,聚焦于AI风险、AI大模型安全、AI大模型开闭源生态、AI大模型出海等AI治理政策研究,基于技术理性的风险观,为大模型发展与安全平衡与取舍提供独到见解。同时,我们致力于收集和分享海内外AI治理先进理论与经验,为构建合理的科技治理体系提供智慧与灵感。
推荐阅读
Reading
1、治理之智 | 《大模型训练数据白皮书》在第七届数字中国峰会发布:大模型是数据要素价值释放的最短路径
14、大模型训练数据之一|大模型训练的“阿喀琉斯之踵”:数据这么近那么远?
17、治理之智 | 《国际论坛》贾开、俞晗之、薛澜:人工智能全球治理新阶段的特征、赤字与改革方向
18、大模型时代:消失的飞轮
19、如何应对“模型抄袭”?对“斯坦福抄袭中国大模型”事件的三重思考
- END -