CMES本期精选文章“A Survey on Blockchain-Based Federated Learning: Categorization, Application and Analysis”(基于区块链的联邦学习研究:分类、应用与分析)。
文章详情
1. 背景
1.1 联邦学习简介:智能设备的普及,如笔记本电脑、智能手机和平板电脑,导致数据生成激增,为机器学习模型解决实际任务提供了广阔的机会。然而,处理分散的数据对于集中式训练设施来说存在挑战,特别是涉及数据隐私和安全性。为了克服这些挑战,谷歌引入了联邦学习(FL),一种分布式的机器学习技术。联邦学习允许客户端在本地训练数据并贡献模型更新,而无需共享原始的私有数据。在联邦学习中,有多个客户端,每个客户端拥有自己的数据集,并有一个中央服务器或聚合器协调训练过程。
客户端选择 | 从现有的客户端中选择一个子集,每个客户端从中央服务器下载当前模型。 |
客户端在本地训练模型 | 选定的客户端根据自己的私有数据以预先选择的算法在本地进行模型训练。 |
上传本地训练更新 | 客户端将本地模型更新上传到中央服务器进行聚合。 |
全局模型聚合 | 中央服务器将这些上传的模型进行聚合(通常是通过平均化),以更新全局模型。 |
图1:传统的联邦学习架构
联邦学习框架因其特征和样本账号空间中的数据分布方式的不同有所差异。这些框架可以分为三种类型,每种类型都有不同的工作流程。图2展示了这些类型之间的区别。
图2: 联邦学习的分类
1.2. 区块链简介:自从区块链出现以来,已经开发出许多变式来解决不同的场景。起初比特币利用区块哈希值将数据组织成一个单一的“链”,而随后的区块链架构则扩展到并行链和图形,保留了去中心化作为核心特征。基于用户加入网络所需的权限,区块链通常可以分为三种类型:
1)公共区块链:对所有人开放,无需权限,去中心化,不受第三方权威机构控制。每个用户都可以访问账本并参与共识过程。比特币和以太坊就是著名的例子。
2)私有区块链:参与者受监管,只有经过授权的客户端才可以加入网络并访问账本。虽然内部类似于公共区块链,但私有区块链网络通常参与者较少,因此交易处理速度更快。
3)联盟区块链:一种具有部分集中化的私有区块链,由达成共识并生成新区块的选定参与者控制。其他用户可以通过提供的服务接口访问账本。Hyperledger和Libra就是联盟区块链平台的例子。
图3:联盟区块链的网络结构
2 动机
1)单点故障:原始的联邦学习版本依赖于一个中央聚合器进行模型更新,存在服务器过载或被攻击的风险。需要集成机制来防止单点故障,并对聚合器的行为进行审计。
2)隐私泄露:尽管旨在保护参与者的隐私,但梯度传输可能会泄露敏感信息。加密技术可以减轻隐私担忧,但会给联邦学习系统增加复杂性。
3)恶意客户和数据:被攻击的客户端可以通过构造数据来操纵全局模型。检测恶意行为对系统来说是负担,但对于安全性至关重要。
4)缺乏激励机制:传统的联邦学习缺乏设备参与的激励机制,阻碍了实际部署。研究探索了深度强化学习和Stackelberg博弈等激励机制。
为了解决这些挑战,定制化联邦学习系统变得必要却又复杂。区块链技术通过实现去中心化、匿名性、可审计性和持久性,提供了可能的解决方案。在区块链平台上部署联邦学习可以消除单点故障,增强安全性。
3 基于区块链的联邦学习(BCFL)的挑战
1)训练效率:通信延迟、数据验证和密码工具的效率等因素可能会妨碍区块链网络中的训练速度,大大降低BCFL框架的实用性。
2)系统安全和隐私:尽管区块链具有固有的安全特性,但基于公共平台的BCFL框架可能难以追踪恶意客户并防止隐私泄露,因为所有参与者都可以在未经许可的情况下访问共享的训练数据。
3)合理的激励机制:虽然区块链在数字支付系统中已被证明是有效的,但为联邦学习设计激励机制需要仔细考虑数据贡献、训练轮次和数据质量等因素。由于这些因素的敏感性,算法的设计便尤为关键。
4 最新的BCFL
区块链的去中心化性质可以降低单点故障率,提供韧性。以太坊引入了智能合约,代码的去中心化执行成为可能,这能够取代联邦学习中的中央聚合器。
4.1 BCFL中的加密工具
同态加密:同态加密允许对密文进行不解密的操作,确保结果和操作明文相同。部分同态加密支持单一门电路组合,而完全同态加密允许在电路中使用多种门类型和无限深度电路。
图4:带有密钥共享的同态加密
零知识证明:密码学中的零知识证明让证明者在不泄露额外信息的情况下使验证者相信陈述的正确性。它确保完整性,即诚实的证明者以很高的概率说服诚实的验证者;确保正确性,即错误的陈述不能欺骗诚实的验证者;并确保零知识性,确保验证者除了陈述的真实性之外不获得任何其他信息。
图5:联邦学习中的零知识知识证明
差分隐私:差分隐私通过向客户端提交给中央节点的梯度添加随机噪声,有效地保护联邦学习中的隐私,从而保护客户端的隐私。
4.2 区块链联邦学习中的激励机制:在区块链中,激励机制对于确保参与者的诚实至关重要。在公共链上的联邦学习中,激励机制是鼓励诚实贡献和惩罚不诚实行为的关键。确定参与者的诚实性并比较贡献是具有挑战性的。
5. BCFL的应用
1)物联网:在物联网中,BCFL方案优先考虑隐私、资源分配、通信效率和故障检测。
2)物联网车辆领域:物联网车辆(IoV)是物联网的重要组成部分,包括车载传感器和道路基础设施,BCFL方案广泛应用于利用数据提高安全性和可靠性。
3)医疗领域:由于潜在的歧视问题,患者数据的隐私至关重要。BCFL在医疗领域得到广泛采用的原因是它能够在使用数据的同时保护患者隐私。
4)金融领域:在金融投资场景中,数据保密性至关重要,BCFL使模型在不泄露原始数据的情况下进行训练,简化了公司之间的合作。
6. 结论
在本文中,我们探讨了联邦学习(FL)和区块链技术的融合,强调了它如何应对联邦学习的挑战,同时承认基于区块链的联邦学习 (BCFL)中未解决的问题。我们回顾了BCFL的实现情况,重点是加密工具和激励机制。简要讨论了现实世界中BCFL的应用,最后对当前BCFL的工作进行了评估。
联邦学习和区块链作为新兴技术,为协作式机器学习训练提供了美好的前景。它们的整合解决了隐私和安全方面的问题,使其成为一个热门的研究领域。我们希望这篇论文对这个领域的研究人员具有宝贵的参考价值。
扫码阅读全文
CMES 期刊介绍
—————
CMES期刊专注于刊发具有合理永久价值的原创研究论文和综述,涉及固体、流体、气体、生物材料和其他连续体的计算力学、计算物理、计算化学和计算生物学等领域。欢迎新颖的计算方法和最先进的计算算法,例如软计算、基于人工智能的机器学习方法和计算统计方法。
主编:
Prof. Shaofan Li
University of California-Berkeley
Prof. Loc Vu-Quoc
University of Illinois at Urbana-Champaign
Prof. Kun Zhou
Nanyang Technological University
2022 Impact Factor | 2022 Citescore |
2.4 | 3.5 |
扫码进入期刊主页
版权声明
本文由泰克赛思南京办公室负责编译。中文内容仅供参考,一切内容以英文原版为准。
如需转载,请联系 cmes@techscience.com