NIPS 2024 | 缺失值存在下的无监督异常检测

科技   2025-01-23 10:35   中国香港  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群
完整版论文中文解读PDF请加入知识星球获取

论文信息

题目:Unsupervised Anomaly Detection in The Presence of Missing Values

缺失值存在下的无监督异常检测

Feng Xiao, Jicong Fan

源码:https://github.com/jicongfan/TmAD-Anomaly-Detection-With-Missing-Data

论文创新点

  1. 端到端的无监督异常检测方法:作者提出了ImAD,这是第一个在存在缺失值的情况下端到端的无监督异常检测方法。ImAD将数据填补与异常检测集成到一个统一的优化目标中,通过自动生成伪异常样本来缓解填补偏差,从而提高了检测准确性。
  2. 伪异常样本生成:ImAD通过学习生成伪异常样本,这些样本在训练过程中自动生成,且不需要额外的数据。这些伪异常样本帮助填补模型更好地泛化到不完整的异常数据,从而提高了填补和检测的判别能力。
  3. 理论保证:作者为ImAD提供了理论保证,证明了该方法能够以高概率正确检测异常。

摘要

异常检测方法通常需要完全观测的数据进行模型训练和推理,无法处理不完整的数据。然而,缺失数据问题在科学和工程中普遍存在,导致许多重要应用面临挑战,例如推荐系统中的异常用户检测和生物信息学中的新颖或异常细胞检测,这些应用中的缺失率可能超过30%甚至80%。在这项工作中,作者首先构建并评估了一种简单的策略,即“填补-然后检测”,通过结合最先进的填补方法和无监督异常检测方法,其中训练数据仅由正常样本组成。作者观察到,这种两阶段方法经常产生来自正常数据的填补偏差,即填补方法倾向于将不完整样本“正常化”,根本原因是填补模型仅在正常数据上学习,无法在推理阶段很好地泛化到异常数据。为了解决这一挑战,作者提出了一种端到端的方法,将数据填补与异常检测集成到一个统一的优化问题中。所提出的模型学习生成设计良好的伪异常样本,以缓解填补偏差,并确保填补和检测过程的判别能力。此外,作者为所提出方法的有效性提供了理论保证,证明所提出的方法能够以高概率正确检测异常。在具有手动构造缺失值和固有缺失值的数据集上的实验结果表明,作者提出的方法有效地缓解了填补偏差,并显著超越了基线方法。

关键字

异常检测,缺失数据,无监督学习,数据填补

III. 提出的方法

ImAD的学习框架

作者提出在维潜在空间中找到一个空间,其中正常数据位于该空间中,然后在中的正常样本周围生成伪异常样本。通过一个神经网络将中的样本映射回原始数据空间,生成可靠的伪异常数据。
作者定义中正常数据的潜在分布,定义中伪异常数据的潜在分布。由于正常模式的种类有限,而异常模式的种类无限,作者让中的截断高斯分布(一个半径为的超球,记为),并假设的剩余区域为异常区域,记为。需要注意的是,不需要在整个空间中定义,这将在定理3.2(b)的讨论中解释,并进一步由定理3.4在第3.4节中支持。相反,作者只需要在的一个小区域内定义,该区域包围,这将减少随机采样的不确定性(或等效地减少样本大小),并使将样本映射回原始数据空间更容易。因此,作者将定义为包围的超壳,并让为截断高斯分布。形成超壳的两个超球的半径分别为,其中。图3展示了在2维空间中的可视化,其中分别从截断高斯分布。附录A中提供了从采样的理论分析。作者学习一个重构器,将中的样本转换为原始数据分布,即
实际上是一个从潜在空间恢复原始数据的重构模型。通过,作者可以得到原始数据空间中伪异常数据的分布,即
中抽取的样本(记为)是合理的伪异常样本,这将在第3.4节中定理3.2(a)的讨论中解释。
作者使用一个投影器分别转换为,即
然而,训练集是不完整的,作者需要学习一个填补模型来恢复缺失值,即。更一般地,作者表示
作者希望填补模型也能够恢复生成的伪异常样本的缺失值(如果它们有缺失值),尽管它们是完整的。因此,作者使用缺失机制移除生成的伪异常样本的一些值,并让。然后通过
恢复缺失值。这一步缓解了“填补-然后检测”方法遇到的填补偏差问题。设表示分布之间的距离或差异度量。作者在这里展示如何在统一的优化问题中实现目标(2)、(3)、(4)、(5)和(6)。首先,对于正常数据,作者解决
对于生成的伪异常数据,作者解决
的有限样本估计。结合(7)和(8),作者得到ImAD的目标:
其中表示两个矩阵的行拼接。在(9)中,中的样本来自中的样本来自。目标函数(9)的三个部分的作用分析如下:
  • 表示数据填补损失。通过该损失,填补模型将能够恢复正常数据和异常数据的缺失值。
  • 表示异常检测损失。通过该损失,异常检测模型将具有判别能力,能够将正常数据和异常数据投影到中的不同区域。
  • 表示重构损失。该损失确保是有意义的。
作者看到,方法ImAD将数据填补与异常检测耦合到一个统一的优化目标中。图4展示了ImAD的整体框架,其中绿色和红色箭头分别表示正常数据(从开始)和伪异常数据(从开始)的流程路径。图4中的重构共享参数。

实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


小白学视觉
哈工大在读博士的公众号,《OpenCV 4快速入门》的作者,面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术,深度学习等内容。
 最新文章