今天的论文分享了异常检测模型RLR和上下文压缩方法TTT。
快来阅读分享!
Learning Unified Reference Representation for
Unsupervised Multi-class Anomaly Detection
ECCV2024
这篇论文提出了一种基于可学习参考表征的多类异常检测模型。在异常检测领域,基于重构的异常检测方法面临着“捷径”问题,即模型无法正常学习正常样本的模式,而是选择恒等映射或噪声消除等捷径。RLR通过引入可学习的参考表示引导重建,同时结合Neighbor Mask Attention和Local Mask Attention以促进学习更有效的正常样本模式,以防止模型出现“捷径”问题。在实验部分,RLR在MVtec和Visa数据集上取得了卓越的性能。
论文链接
https://arxiv.org/pdf/2403.11561v1
Framework
RLR 包括通过预训练模型进行多尺度特征提取、结合掩码可学习关键注意力和局部交叉注意力进行特征重构、以及恢复特征和原始特征之间的损失和分数图计算。
Experiments
实验结果表明,论文方法在异常检测和定位指标方面均优于现有方法,在一些数据集上取得了新的 SOTA 结果。
Learning to (Learn at Test Time):RNNs with Expressive Hidden States
arXiv2024
这篇文章提出将上下文压缩到模型的权重中,从而使得「隐藏状态模型」既能在时间上保持固定大小,又能大大增强表达能力。文中使用了自监督学习来更新隐藏状态的权重,对每个token进行一次梯度下降。因此在处理一个序列时,该状态已经在其上下文窗口中的token上更新了相应的「隐藏状态模型」参数。实验结果显示,与Transformer、Mamba相比,TTT-Linear具有更好的困惑度和更少的FLOP,并且更好地利用了长上下文。
论文链接
https://arxiv.org/pdf/2407.04620v1
Framework
顶部:通用序列建模层,表示为根据更新规则转换的隐藏状态。所有序列建模层都可以看作是该图中三个组件的不同实例:初始状态、更新规则和输出规则。
底部:序列建模层的示例及其三个组件的实例。图 1 显示了朴素 TTT 层。自注意力具有随上下文增长的隐藏状态,因此每个标记的成本也会增长。朴素 RNN 和 TTT 层都将不断增长的上下文压缩为固定大小的隐藏状态,因此它们的每个标记成本保持不变。
Experiment
实验结果显示,TTT-Linear具有更低的FLOPs,并且更好地利用了长上下文。
Framework
写作总结
RLR这篇论文的motivation很明显,网络framework清晰明了,文章结构是总分总形式的,容易理解。
TTT这篇文章从Test-time Traing的新颖视角引入,设计了TTT-Linear和TTT-MLP两种模型,并且希望向Linear Attention的架构靠拢。整体来看下游任务实验并不完善,但TTT这样的思路值得在Domain Adaptation任务上借鉴。
The End
VLRLab
分享者:童奥 陈铭锐
编辑:罗琪頔
审核:伏凌
免责声明:
(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。
(2)本文观点不代表本公众号立场