PeFAD：边缘设备中高效的联邦异常检测框架

学术 2024-11-09 17:02 北京

来源：时序人‍‍
本文约2300字，建议阅读9分钟
eFAD 是一个有效的时间序列异常检测框架，能够在保护隐私的同时提供准确的异常检测性能。

随着移动感知技术的普及，各个领域产生和积累了大量的时间序列数据，在这种背景下，时间序列异常检测变得非常重要。然而，由于各种边缘设备的部署，时间序列数据都是分散收集的。

为了弥合分散的时间序列数据和集中的异常检测算法之间的差距，来自中南大学等机构的研究者们提出了一个参数高效的联邦异常检测框架 PeFAD，以应对日益增长的隐私问题。

目前，该论文已被数据挖掘顶级学术会议 KDD 2024 收录。

【论文标题】

PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection

【论文地址】

https://arxiv.org/abs/2406.02318

【论文源码】

https://github.com/xu737/PeFAD

论文背景

随着传感器和移动设备的增多，大量时间序列数据被分散收集，推动了时间序列应用的发展，如故障诊断和欺诈检测。时间序列异常检测旨在发现异常趋势或观察结果，这对于上述应用至关重要。

随着对数据隐私的关注增加，数据提供者可能不愿意公开他们的数据，这就需要一种能够在数据分散和保护隐私的前提下进行有效异常检测的方法。现有的时间序列异常检测方法大多基于集中式数据训练，但在现实中，数据往往是分散收集的，在资源受限的边缘设备上进行训练存在一定的挑战。

联邦学习能够提供一种在多个客户端上分布式训练模型的解决方案，并保持数据的分散性，这种方法有助于保护隐私并确保数据访问限制。但同时，开发联邦学习框架也面临以下3种挑战：

数据稀缺：在联邦学习中，客户端的数据可能非常稀疏，尤其是异常数据。
忽视异常：现有的无监督方法在训练期间可能会忽视异常的存在，影响模型的异常检测能力。
数据异质性：不同客户端收集的时间序列数据通常是异构的，这使得难以获得一个全局模型来泛化到所有客户端。

图1：去中心化时间序列异常检测示意图

为了应对上述挑战，该文的研究者提出了一个参数高效的联合学习框架，用于时间序列异常检测，解决了分散数据和集中式异常检测算法之间的差距。研究者首次将预训练语言模型（PLM）用于客户端本地模型，利用其跨模态知识转移能力来提高异常检测的性能。

研究者在四个真实数据集上进行了广泛的评估，证明了 PeFAD 在集中和联合设置中都显著优于现有的最先进基线。

模型方法

PeFAD 框架由两大核心模块构成：基于 PLM 的本地训练和参数高效的联邦训练。以下是这两个模块的关键点总结：

图2：PeFAD框架概览

01 基于PLM的本地训练‍

PeFAD 利用预训练语言模型（如GPT2）作为客户端本地模型的基础。客户端将本地时间序列分割成非重叠的补丁，并通过 ADMS 策略进行预处理，以增强模型对时间序列复杂模式的理解。预处理后的数据输入到基于 PLM 的本地模型中，经过嵌入层、堆叠的 PLM 块和输出投影层，输出重构的时间序列。通过计算重构误差来识别异常点，并采用 PPDS 机制来缓解客户端间的数据异质性。

（1）异常驱动的掩蔽选择策略（ADMS）

为了提高模型对异常的敏感性，PeFAD 提出了一种基于异常的掩码选择策略。该策略首先在训练数据中识别异常，然后为这些异常分配更大的权重，使得模型在训练时更加关注这些异常点。并且结合了补丁内分解和补丁间相似性评估，以计算补丁的异常分数，从而捕捉时间序列的内在特征和模式演变。

（2）隐私保护共享数据集生成机制（PPDS）

为了解决客户端间数据异质性问题，PeFAD 提出了一种隐私保护共享数据集生成机制。使用变分自编码器（VAE）合成隐私保护的时间序列数据，通过互信息约束和 Wasserstein 距离来保护数据隐私并确保合成数据的有效性。客户端将合成的数据汇总，形成所有客户端共享的数据集，然后通过知识蒸馏在共享数据集上进行本地和全局模型的训练，以实现更一致的模型更新。

02 参数高效的联邦训练‍

为了减少通信开销和本地模型适应成本，PeFAD 设计了一个参数高效的联合训练模块。PeFAD 采用水平联邦学习架构，由中央服务器和多个客户端组成。

客户端的本地模型包括输入嵌入层、堆叠的 PLM 块和输出投影层。模型参数被分为可训练参数和冻结参数，其中大部分 PLM 参数被冻结，只有一小部分参数（如输入输出层和最后几层的特定部分）被微调。通过服务器和客户端之间的协作，实现了参数的高效聚合和更新，减少了计算和通信成本。

图3：参数高效联邦训练过程

实验效果

在这篇论文中，研究者进行了一系列实验来评估 PeFAD 框架的性能，并与现有的时间序列异常检测方法进行了比较。实验使用了四个真实世界的时间序列数据集，分别来自大型互联网公司，eBay，SwaT，MSL。

PeFAD 与多个基线方法进行了比较，包括传统的机器学习方法（如 OCSVM、Isolation Forest 等）和基于深度学习的方法（如Autoformer、Informer等）。此外，还将 PeFAD 与这些方法的联合学习版本进行了比较。

PeFAD 在联邦和集中设置下都表现出最佳的整体性能，并且在某些情况下，其性能超过了其集中式版本，这可能归因于联邦学习能够更好地捕捉本地数据的多样性。结果如下表所示：

在 F1 分数和 AUC 两个指标上，PeFAD 在所有数据集上都显示出比基线方法更好的性能。在 SMD 和 PSM 数据集上，即使与集中式学习方法相比，PeFAD 也显示出最优的性能。实验结果表明，PeFAD 在联合学习设置中的表现比传统的集中式训练方法更具优势，尤其是在数据分散和隐私保护方面。

研究者还进行了消融研究来评估 PeFAD 各个组件的有效性，例如不使用 PPDS 机制、不使用 ADMS 策略、不使用 PLM 等。结果如下所示：

研究者还对 PeFAD 中的关键参数（如掩码比例、补丁长度、合成数据长度等）进行了敏感性分析，以确定最优的参数设置。

总体而言，实验结果表明 PeFAD 是一个有效的时间序列异常检测框架，能够在保护隐私的同时提供准确的异常检测性能。

编辑：黄继彦

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247647997&idx=2&sn=18a6ee3e111e341b71d85b8792182a3c

数据派THU

清华大数据研究中心官方平台，发布团队科研、教学等最新动态及大数据领域的相关信息~

最新文章

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

活动预告 | 首届北京数字人才发展大会

【伯克利博士论文】从自然场景视频中解耦人体运动和相机运动

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

【NUS博士论文】视频语义理解中的因果模型

清华软件论坛|C. Mohan:Data Management Implications of Intelligent Comp

征文延期至11月22日通知 | 首届开源技术学术大会征稿启事

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

随机性、熵与随机数生成器:解析伪随机数生成器（PRNG）和真随机数生成器（TRNG）

【CIKM2024教程】高效的时间图学习：算法、框架与工具

报名 | 大数据产业论坛第1期——汽车行业专场

通知 | 首届开源技术学术大会征稿启事

NeurIPS 2024｜解锁大模型知识记忆编辑的新路径，浙大用「WISE」对抗幻觉

深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究

【CIKM2024教程】大语言模型在表格任务中的应用

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

【ETHZ博士论文】用于视觉场景理解的领域鲁棒网络架构与训练策略

成都八零大赛圆满收官，清华大学参赛团队获“领先者”奖

原创｜制造新篇：重塑大语言模型在制造领域的力量

基于图论的时间序列数据平稳性与连通性分析：利用图形、数学和 Python 揭示时间序列数据中的隐藏模式

【NeurIPS2024】轨迹流匹配及其在临床时间序列建模中的应用

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

PeFAD：边缘设备中高效的联邦异常检测框架

【NeurIPS2024】Frozen-DETR：利用冻结基础模型的图像理解能力提升DETR

数据派志愿者招募 | 寻找最志同道合的你！

链接数据：如何使用知识图谱改进RAG

过采样与欠采样技术原理图解：基于二维数据的常见方法效果对比

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

NeurIPS 2024 | 如何防御对抗性提示攻击？AdvUnlearn让图片生成风险骤降

TimeDART：基于扩散自回归Transformer 的自监督时间序列预测方法

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

AGENTiGraph：一个交互式知识图谱平台驱动的基于私有数据多智能体系统 - 东京&耶鲁大学等最新研究

干货 | 清华Python编程入门分享会第三期

【牛津大学博士论文】使用图神经网络进行知识图谱的深度学习

直播预告 | Al+研发数字峰会(AiDD) 2024深圳站开幕式

11种经典时间序列预测方法：理论、Python实现与应用

干货 | 清华Python编程入门分享会第二期

【NeurIPS2024】用于时间序列预测的检索增强扩散模型

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

入选ECCV 2024！浙江大学联合微软亚洲研究院提出统一医学图像预训练框架UniMedI，打破医学数据异构化藩篱

【ETHZ博士论文】机器学习代码: 安全性与可靠性

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

梯度累积的隐藏陷阱：Transformer库中梯度累积机制的缺陷与修正

【牛津大学博士论文】用于本体工程的语言模型

KDD 2024 | 数据驱动的分布偏移检测与自适应

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉