郑志明:隐私计算的新理论方法与关键应用 | CCCF精选

学术   2024-12-26 17:00   北京  



隐私计算是信息时代构建社会信任体系的重要手段。本文概述了隐私计算的发展背景,探讨了隐私计算的内涵与外延,从隐私加密、隐私脱敏和后纳什时代隐私计算三个维度梳理了隐私计算的研究历程。围绕隐私计算在高可信、高隐私与高可用之间的权衡问题,本文提出了隐私计算未来发展的新型基础理论与关键技术体系,并针对隐私计算的三个关键应用场景进行了展望。







隐私计算研究概述



隐私计算发展背景

通观人类的发展历史,信任是人类社会构建与维持运转的基石。在信息技术尚未诞生之前,社会信任体系的构建主要依赖于文史哲领域所塑造的涵盖文化、历史、意识形态等多个层面的社会共识,以及政治、经济与法治等方面建立的社会规则,二者共同保障社会的稳定运行(如图1所示)。随着时代的发展,我们步入数字化新时代,社会的共识与规则深度融入数字化进程,此时运用信息手段构建社会信任体系的重要性愈发凸显。


图1 隐私计算是信息时代构建社会信任体系的关键技术


在数字化和经济社会深度融合的背景下,数据成为各行各业的核心驱动力。然而网络空间中的数据包含大量隐私敏感信息,比如个人信息里的标识信息、准标识信息和敏感属性都属于隐私信息。近年来隐私泄露事件频繁发生,普通民众、企业乃至国家安全都受到了威胁,在一定程度上引发了社会公众对隐私安全的担忧,给社会治理带来了严峻挑战。为此,各国针对数据隐私安全相继出台了一系列政策法规(如图2所示),要求探索保护数据隐私安全的隐私计算技术。


图2 各国相继出台数据隐私安全相关法律法规


隐私计算作为构建数字化社会信任底座、保障数据要素安全流通的关键技术,已成为当前研究的聚焦点。隐私计算的技术起源由来已久,其内涵与外延随着数据使用需求的变化不断丰富。



隐私计算的内涵与外延

隐私计算是在不泄露敏感信息的前提下进行数据处理和分析的技术,是保障网络空间中隐私安全的重要工具。根据应用场景和隐私保护需求,隐私计算一般分为隐私加密隐私脱敏两种方法。隐私加密主要通过多方安全计算、同态加密等技术,确保数据的机密性、完整性和不可否认性,使数据内容不变。然而,这种方法往往需要很多计算资源,且扩展性较弱。隐私脱敏则侧重于隐藏数据的具体内容,使接收方无法获得完整信息,多通过匿名化、差分隐私等手段达到隐私保护效果,但这种方式会影响数据的完整性和计算精度。


随着数据使用需求的迭代,隐私计算的外延不断拓展。中国信息通信研究院在2021年发布的《隐私保护计算与合规应用研究报告》和《隐私计算白皮书》中指出,隐私计算涵盖了数据采集、传输、存储、处理、共享、销毁等数据生命周期的各个环节,提供一种保护隐私的计算框架,使数据提供方在不泄露原始数据的前提下完成分析计算。这一方法能够支持数据所有权、管理权和使用权分离的模式,为隐私度量、隐私泄露代价的评估、隐私保护和分析复杂性的统一提供了一种系统化的模型。隐私计算不仅整合了隐私和数据安全技术,还与区块链、联邦学习和可信硬件等前沿技术相结合,更进一步地针对群体非理性行为下的复杂博弈场景,探索突破原有隐私计算假设的基础理论创新,尝试与经济学、社会学及心理学等多个学科进行交叉研究。



隐私计算研究历程


隐私计算研究由来已久,回溯其发展历程可分为三个维度(见图3)。第一个维度为隐私加密,结合密码学工具实现个人隐私敏感信息保护,是一种高安全、高成本的隐私保护技术。第二个维度为隐私脱敏,通过更改数据保护数据隐私,是一种平衡数据隐私性、计算可用性与结果准确性的折中方案。然而以上两个维度的技术难以满足数字化时代下的数据要素流通需求,因此第三个维度探索在非规则博弈场景下的新型隐私计算技术。


图3 隐私计算发展脉络图



维度一:隐私加密

隐私加密是基于数据保密的传统惯性,使用密码学工具对个人信息等敏感隐私加密,参与方遵守密码学协议规则完成计算任务,代表性技术有安全多方计算与同态加密等。安全多方计算是指多个数据拥有方在不泄露原始输入数据的前提下共同完成目标函数计算。其最早起源于20世纪80年代姚期智院士提出的百万富翁问题,即两位百万富翁希望在不暴露自己财富值的前提下比较谁更富有,针对这一问题发展出混淆电路、秘密共享与不经意传输等多种技术。同态加密是一种特殊的加密协议,其同态性须满足在密文上进行特定运算的结果在解密后与明文直接进行运算的结果相同。


隐私加密类技术尽管具有较高的安全性,然而其计算与通信开销高昂,难以适用于大数据时代的计算场景。20世纪90年代,数据挖掘与隐私加密两个领域展开交叉研究,聚焦于保护多方联合数据挖掘过程中的隐私安全,涌现了基于安全多方计算的频繁模式挖掘、决策树分类与K-均值聚类等方法。这一时期的研究主要受限于当时的安全多方计算技术,而且算法效率评估以理论分析为主,缺乏实践验证。数据挖掘的全局性随机知识发现与隐私加密的局部性隐私安全保证之间的根本矛盾日益凸显,二者难以折中。因此,针对该类技术的后续研究逐渐聚焦于以落地应用为目标的通用工具库的构建与高效专用协议的设计。



维度二:隐私脱敏

隐私脱敏是一种平衡数据隐私性与计算可用性的折中方案。为缓解隐私加密的高计算成本,数据脱敏方式旨在通过更改数据从而增强信息不确定性、保护数据隐私,其代表性技术有匿名化与差分隐私等。21世纪初陆续出现k-匿名化、l-多样性与t-保密性等一系列隐私脱敏技术,其核心思想旨在缩小数据尺度、增强数据间的不可区分性。例如k-匿名方法通过抑制或泛化等方式更改数据,使数据集中的任意一条数据都难以和其余k-1条数据区分,并根据数据的发布次数与类型衍生出不同变种。然而此类技术抵御的攻击类型有限,且均缺乏较为完善的理论保证。2006年针对差分攻击的差分隐私技术出现,其核心思想是通过添加随机噪声保护统计计算结果,可以保证隐私预算内的相邻数据集的不可区分性。差分隐私具有更严谨的数学模型、支持更通用的计算函数,并能抵御更复杂的攻击,因而得到了应用与发展。


尽管隐私脱敏类技术计算开销低,但在一定程度上破坏了数据信息,损失了计算精度与效果。因此隐私脱敏类技术在功能上有一定局限,须在数据隐私性与计算精度间寻求平衡,难以适用于数据全生命周期的隐私保护。近年来此类技术也在持续发展,针对不同数据场景衍生出本地化差分隐私等多个变种。



维度三:后纳什时代隐私计算

21世纪10年代后,随着信息化的快速发展,大数据的使用场景衍生出更加多样化的隐私保护技术,例如面向云计算与外包数据库场景的密态数据管理、面向云边端一体化的协同计算与基于可信硬件的机密计算等。为开展数据要素市场化建设、充分发挥数据要素市场潜能,国务院在2021年发布的《要素市场化配置综合改革试点总体方案》中提出探索“原始数据不出域,数据可用不可见”的数据要素流通交易范式。联邦计算以其“数据不动计算动”的核心思想,兼顾了“自治与跨域”的大数据隐私计算新方法,成为隐私计算的新型范式之一,在金融、医疗与交通等领域具有广泛的应用价值。北京航空航天大学率先发布的大数据联邦计算开源系统“虎符”,是首个由高校自主研发并通过工信部中国信息通信研究院测试的联邦计算系统,在航空航天、智慧交通与智慧城市等战略性行业得到示范应用,展现了联邦计算技术广阔的发展前景。


随着数据要素化的深入推进,数据的价值愈发凸显,导致在数据要素流通场景中出现由价值驱动的多方复杂博弈,为数据隐私安全带来新的挑战。在数据交易与社会治理等真实场景中,参与成员在数据价值等利益驱动下,难以建立多方间的信任体系,可能采取不理性行为,从而违反纳什均衡引导下的规则博弈假设,破坏现有隐私计算工具的安全模型。针对这一问题,郑志明院士率先提出了后纳什时代下的新型隐私计算理念,主要聚焦于建立非规则博弈场景下的隐私度量、价值激励与行为引导体系。当下亟须融合非规则与规则博弈下的隐私计算方法,进一步结合心理信息学与社会信息学等交叉学科,研究新型隐私计算的基础理论,为构建数字化社会的信任体系提供技术底座。



隐私计算未来趋势



技术发展趋势

当前隐私计算的核心问题在于高可信、高隐私与高可用间的权衡。在高可信方面存在群体非规则博弈复杂动态的挑战;在高隐私方面存在全流程隐私需求异质多样的挑战;在高可用方面存在自治大数据跨域流通低效的挑战。为应对上述挑战,需要实现面向复杂博弈场景下的数据全生命周期隐私保护,构建隐私计算的新型基础理论与关键技术体系,以及全面提升隐私计算的安全性、可用性和可信性。


1.融合规则与非规则博弈的隐私计算

在当今数据驱动的社会,不同主体在使用数据时面临复杂的利益关系,使现实博弈场景充满不确定性,受经济利益驱动和利益冲突影响的参与者可能有不合作甚至恶意的行为。传统隐私保护方法假设参与者皆理性合作的情况并不总是成立,单纯依赖传统方法已难以满足现实场景需求。非规则博弈场景不再假定人们会遵循最优策略或理性共享数据,而当前多数隐私计算方法基于规则博弈,因此需要探索融合规则和非规则博弈的隐私计算新途径来处理现实博弈中的隐私保护问题。一方面,要确保复杂环境下非理性或恶意行为无法破坏隐私保护机制;另一方面须建立激励体系引导各方积极合作,这需要计算科学与心理学、行为经济学等多学科交叉融合来形成动态适应非规则博弈行为的计算模型。


2.面向数据全生命周期的隐私保护

数据具有非排他性,同一数据可以被多个主体使用、共享和加工,这种特性促进了数据要素正在向资产化和市场化方向发展。而这使数据的所有权、管理权、使用权分离,且涉及数据的采集、存储、处理、传输、销毁等全生命周期各阶段。在这个过程中,每个环节都存在隐私泄露风险,一旦保护不当,个人信息、商业机密甚至国家安全都可能受到威胁。现有隐私计算技术主要关注数据市场化中数据价值可流通、数据交易可确权等问题,难以覆盖数据全生命周期的隐私安全。因此,需要建立适应数据全生命周期的密态管理框架,研究保障隐私的同时充分利用数据价值的全生命周期隐私安全计算技术。一方面,能够实现各环节隐私风险的早期识别和管理,提高数据在存储、处理、流通全过程中的安全保障水平;另一方面,将加密和脱敏技术融合发展,寻求隐私和效用兼顾的数据隐私计算方法,为更加安全可信的数据生态打下基础。


3.数据跨域流通的安全高效协同计算

海量数据往往由各主体孤立存储和管理,不同主体之间的数据跨域共享与协同计算能够充分释放数据的价值,尤其在医疗、金融和工业互联网等领域。然而数据的跨域流动存在较高的隐私风险,联邦学习、区块链等隐私计算技术已经为跨域数据安全协同提供了可行解,但仍存在着多种挑战。当前技术大多忽略了个体的非理性、随机性行为,难以适用于开放、动态场景下的不可信环境;云边端协同等多方数据跨域协同场景存在硬件平台、算法模型、数据传输等多方面的隐私威胁。因此,需要研究数据跨域流通的安全高效协同计算方法。一方面,构建大数据安全跨域流通的联邦计算范式,实现非规则博弈场景下的高效鲁棒跨域协同计算;另一方面,从软硬件协同角度构建可靠的云边端计算数据安全跨域流通机制,攻克硬件漏洞、算法模型泄露以及流通合规性等问题。



关键应用场景

隐私计算为隐私保护下的数据要素价值发挥提供了解决方案,在数字化建设中具有丰富的应用场景和应用优势。协同各政府主体共享分析隐私数据,实现跨部门政务管理和应急处置;面向数据要素市场构建合规数据交易平台,保障数据交易过程安全公平、透明合规;基于隐私计算关键技术,融合人工智能打造可信人工智能应用,解决大模型等人工智能产业的隐私风险。隐私计算未来可能的三个典型应用场景如下。


1.数字社会治理

“十四五”规划明确提出要构筑共治共享的数字社会治理体系,提高数字政府建设水平。数字社会治理的核心在于运用数字技术实现数据泛在融通共享和协同智能分析,然而政务信息等数据涉及大量敏感的隐私信息,限制了各部门数据的共享协同。针对上述挑战,以隐私计算技术为突破点,建立数字社会治理信任底座,打通跨域数据应用价值链,探索多部门联动、资源共享、安全高效的社会治理新模式。以数字政府服务建设为例,通过多方安全计算等隐私计算技术,搭建起政府各职能部门、社会主体间的数据可信流通通道,实现多部门协同治理和应急处置。基于隐私计算的数字社会治理体系将有效提高社会运转和经济运行的泛在感知和智能决策能力,实现跨边界、跨领域的整体化社会治理,提升国家治理效能和社会治理现代化水平。


2.合规数据交易

数据要素是数字经济的基础资源和核心引擎。近年,我国高度重视数据要素市场建设,北京等地相继成立了数据交易所,积极探索“原始数据不出域,数据可用不可见”的数据交易范式。合规数据交易以数据隐私保护技术为基础,建立数据采集、存储、处理、流通、应用等全生命周期的安全管理机制,有望构建公信开放、隐私安全的高质量数据要素市场。针对数据交易市场中数据安全难保障、场内交易难持续的挑战,结合隐私计算完善数据确权、跨域流通、公平定价、安全管理基础设施建设,构建可计量可追溯的合规数据交易体系。一方面,应用确权管理、访问控制、共识算法等区块链技术,搭建安全透明的数据交易服务平台,实现交易流程的合规;另一方面,以数据隐私保护法律法规为准绳,搭建隐私计算技术与数据交易法规之间的桥梁,实现技术合规性的智能化监管。合规数据交易的建设将进一步促进数据要素的安全流通和价值共享,培育安全可信的数据要素市场生态体系,降低各类主体的数据获取门槛,加速推进数字经济战略的建设进程。


3.可信人工智能

新一代人工智能技术迅猛发展,在给人们生活带来深刻变化的同时,也逐渐展现出其应用风险,如大模型中的提示词泄露、训练数据泄露、使用隐私泄露等问题,引发了社会公众对人工智能的信任危机。可信人工智能以稳定性技术、可解释性技术、隐私计算技术、公平性技术等为基础,构建具备可控可靠、透明可解释、隐私保护、责任明确、多元包容等特性的可信人工智能体系,实现信息、物理与人类的安全融合交互,应对人工智能应用面临的信任危机。针对人工智能数据安全风险高、隐私保护程度低的挑战,可信人工智能将重建原有训练、推理架构,设计面向物理层、算法层、应用层的全层级数据隐私安全防护的人工智能产业体系,如结合联邦学习等隐私计算技术设计新一代人工智能算法、基于可信硬件构造新型人工智能应用框架、防御恶意攻击的可信智能软件验证方法。结合隐私计算新技术手段,打造多方可信的人工智能产业体系,提升社会对人工智能的信任程度,加快构建健康可信的人工智能产业生态,促进人工智能技术和数字产业的长远发展。



结语


在全球数字经济快速发展的背景下,大数据和新型人工智能等技术在智慧金融、智慧城市、智慧医疗等领域的应用创新层出不穷,与此同时也为隐私计算带来了新的机遇和挑战。因此,未来亟须立足数字中国的重大战略需求,聚焦隐私计算新理论方法与关键应用中蕴含的科学问题,全面深入地开展信息、数学、管理学等相关学科的交叉合作研究,提升我国隐私计算基础理论方法和技术研究水平,推动隐私计算相关科技成果的应用,为促进数据要素流通提供隐私安全的有力保障。


(本文根据CNCC2024特邀报告整理而成)



郑志明

CCF会士。中国科学院院士,北京航空航天大学教授,国家教学名师,中国通信学会副理事长。主要研究方向为空天信息安全与复杂信息系统等。

zzheng@pku.edu.cn


董进

国家区块链技术创新中心主任,北京微芯区块链与边缘计算研究院院长,未来区块链与隐私计算高精尖创新中心联合主任,中央网信办专家咨询委员会委员,全国人大代表。

dongjin@baec.org.cn


童咏昕

CCF杰出会员、会员与分部工委副主任、走进高校工作组组长。北京航空航天大学教授,国家杰出青年科学基金获得者。主要研究方向为联邦学习、时空大数据分析、众包计算、隐私保护等。

yxtong@buaa.edu.cn


CCF推荐

【精品文章】





点击“阅读原文”,加入CCF。

中国计算机学会
中国计算机学会官方订阅号,为CCF会员及计算领域的专业人士服务。
 最新文章