在数字中国的大背景下,数据安全与隐私保护的需求与日俱增,以联邦学习为代表的人工智能与隐私保护融合技术在实践中得到了广泛的应用和推广,可信联邦学习将成为隐私计算领域下一阶段的发展重点。在企业应用的过程中,联邦学习技术的安全性、合规性、性能、稳定性、互通性等方面仍存在困难和挑战,在一定程度上限制了联邦学习的推广和应用。作为联邦学习2.0阶段,可信联邦学习具备的安全可证明、流程可控、高效稳定、互联互通等特性,可在确保原始数据不泄露的前提下,为跨机构的数据共享和流通提供可行的解决方案,推动联邦学习的规模化应用。
亚信科技(中国)有限公司
数据要素作为新型生产要素,深刻改变着人们的生产生活和社会治理方式,成为推动经济发展的核心引擎。我国具有海量的数据资源和丰富的应用场景优势,数据要素市场化已成为我国新一轮数字科技革命和产业变革的焦点,同时也面临数据确权、数据分类分级、数据流通交易过程的安全保障等挑战。2023年3月10日,党的二十届二中全会通过了《党和国家机构改革方案》,方案提出组建国家数据局,组建国家数据局具备监管及经济双重意义,将会更加有利于统筹数字经济的“发展与安全”问题,推动数据要素流通。
数据流通面临产权制度未建立、安全共享存在风险、监管要求待完善等问题。一是数据的各种产权,如数据资源持有权、数据加工使用权、数据产品经营权等产权运行机制有待建立,为数据要素权益提供保护制度。二是数据流通存在安全风险。近年来,由于流通过程中的数据安全事件时有发生,降低了企业参与数据流通的积极性。三是流通过程中的安全合规尺度难把握。现对数据可流通的对象、范围、方式等一系列落地问题,数据合规流通的细化规定尚未建立和完善。在此背景下,因缺乏统一、明确的合规监管体系和可行的技术实现路径,监管部门及数据使用者对数据流通中的安全合规评价尺度难以把控,导致很多数据流通需求仍处于理论探索阶段,难以实现。
隐私计算[1]是一套融合了密码学、安全硬件、数据科学、人工智能、计算机工程等众多领域的跨学科技术体系,包含了以多方安全计算、联邦学习和可信执行环境为代表的多技术方案。从应用目的来看,一方面,隐私计算通过对原始数据加密、去标识化或假名化处理,计算过程及结果只传递经处理后的数据,实现了原始数据不出域,保证了原始数据持有权不变且不受损,实现了数据的持有权和使用权相互分离,保障了数据主体的合法权益。另一方面,隐私计算通过限定数据用法、用量,解决了原始数据转移、泄露、盗用、冒用的问题。
近年来, 联邦学习作为隐私计算的重要技术路径和区块链技术逐渐成熟并快速普及,促进数据要素安全流通,为激活数 据要素市场流动性提供了安全可靠的解决方案。
联邦学习[6]是一种多个参与方在不交互数据的情况下,通过安全机制交互模型参数,从而达到协同训练效果的分布式机器学习方法。近年来,联邦学习的产业化进程明显加快,但在实际应用中,联邦学习仍面临着如何平衡安全和效率、安全标准有待健全、方案的可解释性与灵活性有待提升、技术公平性有待改善等诸多挑战。
“可信联邦学习”[11](Trustworthy Federated Learning)应运而生。作为一种增强型的联邦学习,可信联邦学习除了保证原始数据的隐私安全和模型的可证安全,还保证学习过程的高效率和模型的可用性,模型的可溯源和审计监管,以满足数据需求方、数据提供方和监管方等各方的需求。可信联邦学习一般包含安全可证、开放普适、流程可控、高效稳定等基本特征。下图给出了可信联邦学习的基本框架。
联邦学习可在多个数据拥有方不输出原始数据的情况下完成机器学习联合建模和联合预测,在实际应用过程中,联邦学习过程中数据采集、数据传输、数据存储、数据使用仍然存在安全风险。通过引入同态加密、秘密分享等安全技术,制定节点之间的模型参数交互协议,保证联邦学习过程的安全性,包括数据加密、隐私保护以及在参与者之间建立信任。
任何产品均不能做到“无限制”的绝对安全,在设计联邦学习产品时,并非一味追求安全最大化,而是结合具体业务需求,平衡性能、安全性、通用性等多维因素,给出最优的安全设计和有效的安全证明两个方面最合适的产品技术方案[2]。
(1)最优安全设计:联邦学习产品安全设计应结合性能、成本、以及信息泄露的影响等因素综合考虑满足场景需求,可设置不同的安全等级,根据实际应用选择合适的安全等级。联邦学习的安全目标和具体的安全属性要求为算法安全、通信安全、计算结果安全、业务安全等。
图2:联邦学习全链路安全设计
(2)有效安全证明:联邦学习的安全性应该是可度量、可验证的。因为安全性验证需要对各类算法原理及实现进行审核验证,验证联邦学习安全性的技术门槛相对较高。厂商是否能提供其联邦学习产品的安全性,是目前行业用户所关心的问题。在验证形式上,厂商可以通过权威机构验证、用户审核、公开代码等方式在产品使用过程中进行安全自证。此外,在有效安全证明的基础上,还需要在产品使用中融合安全防御能力,并可以在发现安全问题后,即时中止计算执行,做到风险隔离。
图3:安全可证的联邦学习[2]
数据要素的流通过程中,需要对数据资产的采集、管理、分析、流转、使用、审计等全过程,进行数据的可控可计量、计算流程的可监控、全流程的可审计,这些也是用户信赖联邦学习产品的基础。
在联邦学习可在数据不出本地的情况进行模型训练,但是大量实际应用中,联邦学习过程也会存在一定风险,如联邦学习参与者是否身份可信、数据内容是否完整、是否利用模型参数和训练数据实时攻击等。
区块链是一种去中心化、数据加密、不可篡改的分布式共享数据库,使用区块链技术对所有参与者进行可信身份验证,对数据传输以及存储过程的所有环节、记录,实现数据共享流程中的权责分明,以确保整体流程的稳定性和可预测性。区块链的价值驱动激励机制也能够增加各参与方之间提供数据、更新网络模型参数的积极性。作为参与者积极,诚实地参加协作培训任务的动力,激励机制的目标是产生和分配价值,以便参与者根据自己的贡献获得奖励或惩罚。
不难发现,区块链和联邦学习可以优势互补,强强联合。联邦学习层通过分布式本地模型训练、自适应模型聚合等实现隐私保护的数据价值融合;区块链服务层通过链式区块结构共享模型参数,保证数据的不可篡改和可追溯特性,并通过激励机制和智能合约实现参与各节点的公平性与可信的自动化模型聚合。用户通过参数配置和API接口即可访问基于区块链的可信联邦学习,可实现数据驱动的个性化模型调用与交易服务。
图4:基于区块链的可信联邦学习[4]
效率是联邦学习落地过程中非常重要的考量因素,联邦学习技术通过引入加密算法对交互的模型参数进行加密,以保证原始数据的安全,从而比传统的明文交互和集中化建模的方式付出更多的计算、存储、通信和校验的开销;如同态计算密文扩张可达1到4个数量级,根据测试可以看出,40万行样本*900列特征的纵向联邦学习建模平均耗时比明文慢数十倍甚至百倍,随着数据规模增加,差距将会继续被拉大[5]。
随着安全性和隐私性的提升,联邦学习的产品性能测评中,选择不同的查询不可区分度对查询耗时影响非常大,所以,提升性能与强化安全往往难以兼顾。
1)性能设计原则
联邦学习的性能开销,主要来自计算和通信两大方面,其中通信效率的优化相对较为复杂,因为联邦学习的各参与方分布很可能是跨地域的,而且联邦学习的通信数据因加密算法扩张后,通常数据量级会比较庞大。所以,联邦学习效率优化可进行增加本地训练的计算,增加通信间隔,尽量减少参与者之间的数据传输;牺牲可接受范围内的模型精度来减少丢包重传率;通过知识蒸馏的方式将全局的联邦模型压缩为较小的模型。随着安全性和隐私性提升,联邦学习的性能通常会出现较大幅度下降,联邦学习的产品设计中应根据实际需求实现安全、性能、准确性的多维平衡。
2)性能加速设计方式
联邦学习在密态环境的计算的特点为,不同数据加解密及密态计算互不影响,计算公式重复执行次数十分巨大,数据计算量以批量形式产生。因此,联邦学习可从软件与硬件并行计算层面的优化能够从一定程度上提高隐私计算的效率。
(1)软件并行:借助高效的调度算法实现数据并行、模型并行并行、流水线并行等来增加数据吞吐量,如基于强化学习的调度方法等;
(2)硬件加速:借助高效的调度算法增加吞吐量,将复杂运算转移至各硬件设备执行,使用硬件加速卡上丰富的计算资源,支持高并发的运算,能够大幅提升并行处理效率,支持高并发、低延迟;
图5:联邦学习的硬件加速
联邦学习一体机作为软硬结合的一体化专用设备,因其开箱即用,降低综合成本的优势,成为当下隐私计算产品应用的新形态。
联邦学习是打破“数据孤岛”的分布式机器学习框架,然而随着越来越多的组织投入到联邦学习领域,不同架构的联邦学习系统之间逐渐形成了新的“孤岛”,互联互通显得越发重要。联邦学习产品需要开放的扩展兼容能力、及互联互通能力,来解决因联邦学习产品的加速落地而面对多样化的市场情况。联邦学习的互联互通的方案按照对接原理,可以分为白盒互通、灰盒互通和黑盒互通。
图6:互联互通的联邦学习
黑盒互通:参与联邦学习的双方或多方,通过装载共同的、验证过的功能模块,来完成对应的横向联邦、纵向联邦等整个任务,包括联合建模及推理。在联邦学习的整个过程中各自使用共同的私有处理逻辑和方式,通过标准化接口来确保模块可访问本地数据和资源,实现统一管理;
灰盒互通:实现方式与黑盒类似,主要差别是共同使用的、验证过的功能模块粒度更细。隐私求交、联合建模、联合推理等大的步骤可以切割分离,通过标准化模型格式和管理部分,可以让这些大的步骤分别使用不同厂家的实现,实现更灵活的组装;
白盒互通:白盒模式的实现与黑盒、灰盒模式有本质不同,体现在“联邦计算”的核心模块使用公认、公开的成熟算法,例如纵向的逻辑回归、线性回归等,又例如同态加密算法paillier、某种RSA和Hash算法等。由参与各方自行实现,按约定协议互通;
在联邦学习实现算法协议互联过程中,算法流程与代码均源于不同厂商的实现,其实现方式的差异性也源于对流程和代码的开放程度。
随着各个领域对大数据分析和挖掘的需求愈发强烈,可信联邦学习将逐步在众多场景中展现其广阔的应用价值。杨强院士认为,可信联邦学习是综合了各种隐私计算技术模块的整体解决方案,标准化的大规模联邦学习将成为数字经济“新基建”。可信联邦学习在保证安全、高效的要求下,进一步满足了可解释性和普惠性等人工智能的核心思路,为人工智能生态的良性、可持续发展提供助力。
在Web2.0时代,数据生态是以互联网巨头为核心,形成多个生态圈,核心互联网公司对数据和价值具有垄断性,生态之间存在着隔阂界限。Web3.0 是下一代互联网技术,在分布式技术(区块链、联邦学习等)的助力下,Web3.0 将从开放、隐私和共建三个角度去颠覆 Web2.0 互联网,打造一个由用户社区主导的去中心化世界,用户可以用更彻底的方式保护个人数据隐私,促进数据所有权的管理和价值的转移,重构流量和数据的价值范式。Web3.0 的出现,提供了一个更新、更大、更聚焦的概念和商业模式,以此拉通全产业链的深度融合并进一步促进商业化落地。
未来 Web3.0 世界面临两个重要问题:一、数据要素市场的建立,如何解决数据确权和隐私保护?二、随着 chatGPT 的推出,AIGC 正在成为全球科技领域的焦点,基于海量数据训练的大模型面临众多安全与伦理风险,AIGC生产工具,需要一套经济和治理系统作为支撑[9];
可信联邦学习和Web3.0技术相结合,为 AIGC(生产力工具)、数据要素治理提供了一套开放的“操作系统”,将从数据隐私、AI分布式训练和经济价值三个维度中发挥更高价值。
1)在数据资源的巨大需求和快速“消耗”背景下,基于Web3.0的可信联邦可在AI 训练和使用的整个流程周期中实现对数据完全确权、隐私保护和费用结算。
2)在大模型时代,充分利用分散在各个组织的算力和数据,融合联邦学习和AIGC相关技术,实现异构数据分布式安全训练,基于Web3.0的可信联邦使得AI、数据要素这些重要资源实现更有效的“配置”,同时解决付费和经济生态的问题。
3)DeFi 和 DAO 作为经济系统和治理系统,是 Web3.0 时代最具特色的存在。AI 生产力和数据资源需要经济系统提高配置效率,亦需要治理系统的监管。为AI生产力工具,需要一套经济/金融系统来解放其价值潜力:
可信联邦技术在 Web3.0 应用中的关键技术,可以将功能分为两大类:基础功能和扩展功能。
● 去中心化身份认证:Web3.0 中的去中心化身份认证可以借助可信联邦技术实现更安全、可靠的身份验证,同时保护用户隐私。
● 去中心化数据安全共享:在 Web3.0 中,可以建立一个去中心化的数据市场,允许用户在保护隐私的前提下,共享和交换数据。联邦学习+区块链技术能确保在这些场景中进行安全、可控的数据共享和模型训练。
● 去中心化联合建模:通过可信联邦技术,可以构建一个去中心化的机器学习平台,使得各个实体在保护数据隐私的前提下,共同训练和优化机器学习模型,从而促进创新和协同。
● 跨链协作:随着区块链技术在 Web3.0 中的广泛应用,跨链协作成为一项关键技术。可信联邦技术可以用于实现跨链数据共享和模型训练,以支持跨链应用的发展。
● 去中心化应用(DApp):在没有收到任何付款的情况下贡献客户计算能力,导致很难激励客户诚实地遵守协议并提供可靠的数据,需要对数据和模型分配优化等问题进行评估和激励。在 Web3.0 中,去中心化应用(DApp)将更加普及。可信联邦技术可以为 DApp 提供安全、高效的数据共享和处理能力,促进 DApp 生态系统的繁荣发展。
为联邦学习业务应用规模化落地,可通过软硬件相结合的方式,提供开箱即用的场景化联邦学习一体机,使可信联邦学习技术能快速的结合业务场景,便捷进行安全的数据价值挖掘,降低技术使用门槛,提升联邦学习落地应用效率。
通过联邦学习一体机进行边缘侧数据源的联邦建模,以云边协同的形式,在已有中心化平台部署的基础上挖掘边端数据价值,在保证本地数据安全的基础上补全中心数据特征维度。并在过程中将参与联邦学习数据的颁发、使用、变更、废除全过程的在区块链上记录,通过智能合约整合串联各个办理环节,实现了数据“一次生成、多方复用,一库管理、互认共享”。
图中的1+N场景不仅仅适用于联合建模,同样也适用于联合求交、匿踪查询等场景,如智慧应急管理、智慧城市协同、社会综合治理、智慧警务、智慧水利、智慧交通、政务审批等。
软硬结合的可信计算底座,硬件设备内置可信硬件来进行可信身份秘钥管理、合约密态执行,保障业务运行安全,构建了全流程可信的政务共享服务平台。软硬结合的可信联邦学习的价值如下:
● 安全可信自主可控:融合了可信硬件、可信验证机制、自主研发的隐私计算算法等,构建了数据全链路处理的安全可信环境。
● 高效能的协同计算:软硬协同具备高效的可信联邦计算性能,模型训练速度、秘态计算速度具有显著提升,实现高效隐含知识的关联挖掘。
● 可信硬件基础设施:根据业务场景需求,选装所需的模板化场景服务、隐私计算算法、适配硬件等,形成多场景可运行产品组合,快速适配需求。
在本文中,我们深入探讨了可信联邦学习的概念,原理以及其在各个领域的应用。随着大数据时代的到来,数据安全和隐私保护已经成为亟待解决的问题。可信联邦学习应运而生,为实现数据隐私保护和模型训练提供了一个有效的解决方案。
通过构建一个分布式的、保护隐私的学习环境,可信联邦学习允许不同组织在不泄露原始数据的前提下共享模型和知识。这大大降低了数据攻击和泄露的风险,同时也促进了跨行业、跨组织的合作与创新。可信联邦学习的出现为各行业带来了巨大的发展潜力,包括金融、医疗、零售等行业。
然而,可信联邦学习仍然面临着一些挑战,例如算法效率、通信开销、以及系统安全等方面。研究人员和工程师们正在不断努力克服这些挑战,以便让可信联邦学习更加完善和实用。
总之,可信联邦学习是一项极具前景的技术,它将数据隐私保护与模型训练相结合,提供了一种全新的数据处理和利用方式。随着科技的不断发展,我们有理由相信,可信联邦学习将在未来的人工智能领域发挥越来越重要的作用,为各行业的进步和社会的繁荣贡献力量。
参考文献