KDD 2024 | ShapeFormer：多维时序分类中基于形状的Transformer

科技 2024-08-13 20:00 北京

点击名片

关注并星标

#TSer#

扫下方二维码，加入时序人学术星球

参与算法讨论，获取前沿资料

（220+篇专栏笔记，已有210+同学加入学习）

多变量时间序列分类（MTSC）由于其多样的现实世界应用而引起了广泛的研究关注。最近，利用 Transformer 进行MTSC已经取得了最先进的性能。然而，现有方法主要关注通用特征，提供了对数据的全面理解，但它们忽略了对于学习每个类别代表性特征至关重要的类别特定特征。这导致在数据集不平衡或整体模式相似但在类别特定细节上存在差异的数据集上表现不佳。

针对上述问题，本文介绍一篇来自墨尔本大学和莫纳什大学的最新相关研究工作，目前已被KDD 2024接收。研究者提出了一种新颖的Shapelet Transformer（ShapeFormer）用于多变量时间序列分类。它包含两个 Transformer 模块，旨在识别时间序列数据中的类别特定特征和通用特征。特别是，第一个模块通过利用从整个数据集中提取的判别性子序列（shapelets）来发现类别特定特征。同时，第二个 Transformer 模块采用卷积滤波器来提取跨所有类别的通用特征。实验结果表明，通过结合这两个模块，ShapeFormer 在分类准确性方面与最先进的方法相比达到了最高排名。

【论文标题】

ShapeFormer: Shapelet Transformer for Multivariate Time Series Classification

【论文地址】

https://arxiv.org/abs/2405.14608

【论文源码】

https://github.com/xuanmay2701/shapeformer

论文背景

时间序列分类在时间序列分析领域是一个基础和至关重要的方面。然而，在多元时间序列分类（MTSC）的研究中仍然存在许多挑战，尤其是在捕获变量之间的相关性方面。

在过去的几十年里，不少研究者已经引入了各种方法来提高 MTSC 的性能。其中，shapelet（类别特定的时间序列子序列）展示了其有效性。这种成功源于每个 shapelet 包含代表其类别的特定类信息，且 shapelet 与其类别时间序列之间的距离远小于与其他类别时间序列的距离（见图1）。因此，人们越来越关注在 MTSC 领域利用 shapelet 的能力。

图1：心房颤动数据集中的shapelet

显然，在多元时间序列分类（MTSC）中使用的 Transformer 已经展示了最先进的（SOTA）性能。现有方法仅从时间戳或时间序列中的公共子序列中提取通用特征作为 Transformer 模型的输入，以捕获它们之间的相关性。这些特征仅包含时间序列的通用特性，提供了对数据的广泛理解。然而，它们忽略了模型捕获每个类别代表性特征所必需的关键类别特定特征。

因此，模型在以下两种情况下表现不佳：

数据集中的实例在总体模式上非常相似，仅在次要类别特定模式上存在差异，仅使用通用特征无法实现有效分类；
不平衡数据集，其中通用特征仅关注于对大多数类别的分类，而忽略了少数类别。

图2：使用（a）通用特征的分离超平面具有更高的总体准确率，而使用（b）类别特定特征的分离超平面在分类单个类别时表现更好。

模型方法

ShapeFormer 是一种基于 Transformer 的方法，它结合了时间序列中类别特定特征和通用特征的优点。与现有的基于Transformer 的MTSC方法相比，ShapeFormer 首先从训练数据集中提取 shapelet，随后对于给定的输入时间序列，它将被处理通过两个Transformer模块，包括类别特定的shapelet Transformer 和通用的卷积 Transformer。这两个模块的输出随后被连接起来，并送入最终的分类头。

图3：ShapeFormer的总体架构

Shapelet的发现

研究者引入了一种 Offline Shapelet Discovery (OSD) 方法，用于从多变量时间序列的训练数据集中提取 Shapelets。与其他方法相比，OSD 采用感知重要点（PIPs），通过选择紧密模拟原始数据的点来压缩时间序列数据，从而高效地选择高质量的 shapelet。选择过程基于重构距离，并且连续选择最高索引。文中将重构距离定义为目标点与由两个最近选择的重要点重构的直线之间的垂直距离。

该方法包含两个主要阶段：shapelet 提取和 shapelet 选择。

在第一阶段，OSD 首先通过识别 PIPs 来提取 shapelet 候选者；在第二阶段，为每个类别选择相同数量的 shapelet。

图4：Offline Shapelet Discovery（离线Shapelet发现）的过程

特定类别的Transformer

Shapelet Filter。为了利用 shapelet 的特定类别特性，研究者提出了 Shapelet Filter，该过滤器用于有效地为 Transformer 模型发现输入标记，并在输入时间序列中发现与 Shapelets 最匹配的子序列（如图5a所示）。为了减少计算时间并有效利用 shapelet 的位置信息，研究者提出将最佳匹配子序列的搜索限制在 shapelet 实际位置左右两侧的超参数窗口大小𝑤内的邻近区域。

图5：(a)最佳匹配子序列查找方法；(b)差异特征计算方法

位置嵌入。为了更好地指示 shapelets 的位置信息，此处考虑了三种类型的位置嵌入：起始索引、结束索引和变量。具体来说，研究者建议使用这些索引的独热向量表示，然后使用线性投影器来学习它们的嵌入。仅仅使用 shapelets 的位置而不是最佳匹配子序列的位置时，性能会得到提升。这种改进可以归因于固定位置比最佳匹配子序列的不稳定位置更容易学习。

Transformer编码器。将特定类别的差异特征及其对应的位置嵌入输入到 Transformer 编码器中，以学习它们之间的相关性。由于这些特征具有类别代表性特征，与不同类别的特征相比，同一类别内的特征的注意力得分会得到提升。这种增强有助于模型更好地区分不同的类别。此外，由于 shapelets 的性质，差异特征具有跨时间序列中不同时间位置和变量的显著子序列的识别能力。这种能力使该模块能够有效地捕获时间序列数据中的时间和变量依赖性。

类别标记。使用信息增益最高的 shapelet 的第一个差异特征作为用于最终分类的类别标记。这样做的原因是，当对所有标记进行平均时，会丢失关于不同特征𝑈𝑖的信息。此外，携带最高信息增益的第一个标记包含了对于有效分类时间序列最重要的特征。

通用Transformer

通用 Transformer 利用卷积滤波器从时间序列中提取通用特征。具体来说，研究者采用了两个 CNN 组件，每个组件都包含 Conv1D、BatchNorm 和 GELU，以有效地发现通用特征。第一个块旨在通过使用 Conv1D 滤波器∈R^(1×𝑑𝑐)来捕获时间序列中的时间模式。另一方面，第二个块使用 Conv1D 滤波器∈R^(𝑉×1)来捕获时间序列中变量之间的相关性。

之后，这些特征将被送入多头注意力头中以学习相关性。每个注意力头都有能力捕获时间序列数据中的不同模式。

实验分析

数据集方面，研究者使用了 UEA 存档中的 30 个不同的多变量时间序列分类数据集，这些数据集涵盖了多个领域，如人体活动识别、运动分类、心电图分类等。

表1展示了 ShapeFormer 与其他方法在 UEA 数据集上的准确率对比结果，ShapeFormer 在多个数据集上取得了最佳性能，并在平均排名和 top-1 数量上均表现优异。ShapeFormer 可以被认为是 MTSC 领域的最新技术水平（SOTA）。

表1：在UEA档案的所有数据集上，ShapeFormer方法与12种对比方法的准确率

对于使用 Shapelets 的有效性方面，研究者比较了使用随机子序列、如通用子序列和本文方法中的 shapelets 时的性能。结果表明，在所有五个数据集上，shapelets 在准确性方面都优于其他两种方法。这突出了高区分度的 shapelet 特征在提高基于Transformer 的模型性能方面的优势。

图6：使用shapelets和其他两种类型子序列的准确率

图7：ShapeFormer的三种变体与基线（SVP-T[50]——当前基于Transformer的SOTA方法）的平均排名

图8：使用最佳拟合子序列位置和shapelets位置的准确率

图9：不同差异特征计算方法的平均准确率排名

图10：不同类别标记设计的平均准确率排名

为了说明结合类别特定和通用特征 Transformer 模块对不平衡数据进行分类的有效性，研究者在 LSST 数据集上进行了实验。LSST 数据集包含16个类别，实验随机选择了 4 个类别，分别用蓝色、橙色、绿色和红色表示。显然，蓝色和红色类别的样本数量与绿色和橙色类别相比显著较少。图11(a)显示，通用 Transformer 优先考虑了多数类（绿色和橙色），但忽略了少数类（蓝色和红色）。然而，在图11(b)中，类别特定 Transformer 和通用 Transformer 的结合有效地区分了所有四个类别。

图11：LSST数据集4个类别在使用（a）通用Transformer和（b）类别特定与通用Transformer结合时的t-SNE可视化

为了解释 ShapeFormer 的结果，研究者使用了来自 UEA 存档的 BasicMotions 数据集，重点关注具有4个类别（打羽毛球、站立、行走和跑步）的人类活动识别。图12(a)突出了 ShapeFormer 在时间序列的不同位置和变量中识别关键子序列的能力。此外，属于同一“行走”类别的 shapelets 往往与最佳拟合子序列的相似性更高，而不是来自其他类别的 shapelets。在图12(b)揭示了同一类别内的 shapelets 通常获得更高的注意力分数。这种增强的注意力使模型能够更多地关注同一类别内 shapelets 之间的相关性，从而提高整体性能。

图12：(a) 绿色框描绘了排名前三的shapelets，橙色框展示了从BasicMotions数据集中“行走”类别的一个随机输入时间序列中提取的来自其他类别的三个随机shapelets。(b) 所有shapelets的注意力热图。

在未来的工作中，研究者计划利用 shapelets 在许多不同的时间序列分析任务（如预测或异常检测）中的强大功能。

扫下方二维码，加入时序人学术星球

星球专注于时间序列领域的知识整理，前沿追踪

提供论文合集、视频课程、问答服务等资源

220+篇专栏笔记，已有210+小伙伴加入

价格随着内容丰富而上涨，早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论"，加入讨论组一起交流学习 🏃

往期推荐阅读

综述 | 可解释性人工智能（XAI）在金融时间序列预测中的应用

ICML 2024 | CaRiNG：在非可逆生成过程中学习时间因果表示

WWW 2024 | FCVAE：从频率角度重新审视 VAE 在无监督异常检测中的效果

ICLR 2024 | FTS-Diffusion：针对金融时序中不规则特征的生成学习

ICML 2024 | BayOTIDE：针对多变量不规则时间序列的高效插补算法

ICML 2024 | 时序异常检测应该如何设计有效的模型？

ICML 2024 | 探索“河流网络拓扑+GNN”在洪水预测任务中的有效性

ICML 2024 | 时间序列相关论文盘点（附原文源码）

KDD 2024 | UniST：清华推出首个通用城市时空预测模型，代码数据均已公开

综述 | 一文看懂生成式时序表示与时序大模型

CALF：用于长期时间序列预测的高效跨模态LLM微调框架

SOFTS：新SOTA，纯MLP模型架构实现高效多元时序预测

综述 | 解析生成技术在时空数据挖掘中的应用

觉得不错，那就点个在看和赞吧

http://mp.weixin.qq.com/s?__biz=Mzg3NDUwNTM3MA==&mid=2247500562&idx=1&sn=5b4a99d35b6adb2a7b7ac69b37c15160

时序人

专注于时间序列领域下的科研、工业干货分享，紧跟AI+等领域的科技前沿

最新文章

无惧漂移！D3R方法可用于不稳定多元时间序列异常检测，SOTA提升11%

无需安装，一个文件本地运行大模型！

EffiCANet：基于卷积注意力的高效时间序列预测，显著降低计算成本

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

快速学会登上nature的热门算法，LSTM！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

填补空白！Salesforce 提出首个通用时序预测模型评测基准 GIFT-Eval

LSTM依然能打！原作者带队最新开源成果吊打Transformer和Mamba

涨点神器！100个即插即用缝合模块【合集下载】

清华与深大提出TimeBridge，有效处理长期时间序列预测中的非平稳性问题

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

一文解读：时序基础模型的缩放定律

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

最强总结，99个时间序列+时空数据的顶会创新！

正常时序转化为图像，进行高效且可解释的多元时序异常检测

NeurIPS 2024 | 时间序列相关论文盘点（附原文源码）

Time-MMD：首个涵盖9大主要数据领域的多域多模态时间序列数据集

华东师大团队首创！时间序列异常预测开启全新时序任务

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

快速学会登上nature的热门算法，LSTM！

如何处理多频段时序特征？这个Transformer变体显著提升预测效果

20场Kaggle机器学习比赛Top方案GrandMaster整理

PeFAD：边缘设备中高效的联邦异常检测框架

KDD 2024 | 数据驱动的分布偏移检测与自适应

NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架

KDD 2024 | 首个基于 Diffusion 的自监督时序表示方法

必看的11种主流注意力机制创新研究！(附代码）

港大智慧城市大模型 OpenCity 来袭! 时空预测是否将在 GPT 时代重塑？

KDD 2024 | RHiOTS：评估层级化时序预测算法的可靠性

博后招募 | 清华大学裴丹老师课题组招收时间序列博士后

这届审稿人是不是有毛病！？？？

时间序列预测中如何构建层级化的 Transformer 架构？

文末送书 | 豆瓣9.6，多语言版本全球发行，这本书为何这么受欢迎？

KDD 2024 | FNSPID：整合新闻与股价的大规模金融数据集

KDD 2024 | 检测并优化时序预测中的分布偏移问题

多模态融合，顶会超神了！

KDD 2024 | 时间序列相关论文盘点（附原文源码）

LSTM+Transformer=金融时序预测超高精准度！

LSTM又火了！最新52个创新思路+全部开源代码！

LSTM再升级！原作者携xLSTM回归，扩展LSTM到数十亿参数

发paper必备82个即插即用缝合模块！附下载

KDD 2024 | ShapeFormer：多维时序分类中基于形状的Transformer

综述 | 可解释性人工智能（XAI）在金融时间序列预测中的应用

文末送书 | AI for Science：一本书，洞察未来的科技生态！

AI顶会今年这情况，很严重，大家做好准备吧！

ICML 2024 | CaRiNG：在非可逆生成过程中学习时间因果表示

WWW 2024 | FCVAE：从频率角度重新审视 VAE 在无监督异常检测中的效果

清华第二届城市科学大会报名启动！文末赠送2个免费与会名额！

各位，请入局AI大模型，现在！立刻！马上！！

ICML 2024 | FlashST：一个简洁有效新范式，助力智慧城市时空预测

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉