TimeDART：基于扩散自回归Transformer 的自监督时间序列预测方法

学术 2024-11-07 17:03 北京

来源：DeepHub IMBA‍
本文约4000字，建议阅读5分钟
本文介绍了基于扩散自回归Transformer 的自监督时间序列预测方法。

近年来，随着机器学习技术的进步，深度神经网络已经成为解决时间序列预测问题的主流方法。这反映了学术界和工业界在利用先进技术处理序列数据复杂性方面的持续努力。

自监督学习概述

基本定义

自监督学习是一种创新的学习范式，其特点是模型能够从未标记数据中通过内部生成的监督信号进行学习，通常这种学习通过预文任务来实现。与传统的监督学习不同，自监督学习不需要外部标签，而是利用数据本身的内在结构来创建必要的学习信号。

在时间序列领域的应用

在时间序列分析领域，自监督学习展现出独特的优势。它使得模型能够：

从未标记数据中学习通用表示
‍
同时捕获数据中的长期依赖关系和局部细节特征

然而，这种学习方式仍面临着显著的挑战，这也是为什么需要像TimeDART这样的创新方法。通过集成扩散和自回归建模，TimeDART旨在解决这些根本性的挑战。

现有方法的问题

时间序列预测面临两个主要挑战：

全局依赖关系捕获：

需要有效理解和建模长期时间依赖；传统方法难以准确捕获序列中的全局模式

局部特征提取：

需要精确捕获时间序列中的局部细节特征；现有方法在同时处理这两个任务时表现不佳

这些挑战严重影响了模型学习全面和富有表现力的时间序列数据表示的能力。

TimeDarT方法详解

TimeDART是一种专为时间序列预测设计的自监督学习方法。它的核心思想是通过从时间序列历史数据中学习模式来改进未来数据点的预测。研究者采用了一种创新的方法，将时间序列数据分解成更小的片段（patches），并将这些patches作为建模的基本单位。

核心技术组件

Transformer编码器设计：

使用了具有自注意力机制的Transformer编码器
专注于理解patches之间的依赖关系
有效捕获数据的整体序列结构

扩散和去噪过程：

实现了两个关键过程：扩散和去噪
通过向数据添加和移除噪声来捕获局部特征
这是所有扩散模型中的典型过程
提升了模型在详细模式上的表现
‍

TimeDART架构详解

TimeDART架构图展示了模型如何：

使用自回归生成捕获全局依赖关系
通过去噪扩散模型处理局部结构
在前向扩散过程中向输入patches引入噪声
生成自监督信号
通过自回归方式在反向过程中恢复原始序列

实例归一化和Patch嵌入

这一阶段包含几个关键步骤：

实例归一化：

对输入的多变量时间序列数据进行标准化
确保每个实例具有零均值和单位标准差
目的是保持最终预测的一致性

数据分割策略：

将时间序列数据划分为patches而非单个点
这种方法能够捕获更全面的局部信息

避免信息泄漏：

patch长度设置为等于stride（步长）
确保每个patch包含原始序列的非重叠段
防止训练过程中的信息泄漏

Transformer编码器中的Patch间依赖关系

在架构中，研究者实现了以下关键特性：

基于自注意力的处理：

使用自注意力的Transformer编码器
专门用于建模patches之间的依赖关系

全局依赖性捕获：

通过考虑时间序列数据中不同patches之间的关系
有效捕获全局序列依赖关系

表示学习：

Transformer编码器能够学习有意义的patch间表示
这对于理解时间序列的高层结构至关重要


 class TransformerEncoderBlock(nn.Module):     def __init__(         self, d_model: int, num_heads: int, feedforward_dim: int, dropout: float    ):         super(TransformerEncoderBlock, self).__init__()
         self.attention = nn.MultiheadAttention(             embed_dim=d_model, num_heads=num_heads, dropout=dropout, batch_first=True        )         self.norm1 = nn.LayerNorm(d_model)         self.ff = nn.Sequential(             nn.Linear(d_model, feedforward_dim),             nn.GELU(),             nn.Dropout(dropout),             nn.Linear(feedforward_dim, d_model),        )         self.conv1 = nn.Conv1d(in_channels=d_model, out_channels=feedforward_dim, kernel_size=1)         self.activation = nn.GELU()         self.conv2 = nn.Conv1d(in_channels=feedforward_dim, out_channels=d_model, kernel_size=1)         self.norm2 = nn.LayerNorm(d_model)         self.dropout = nn.Dropout(dropout)
     def forward(self, x, mask):         """        :param x: [batch_size * num_features, seq_len, d_model]        :param mask: [1, 1, seq_len, seq_len]        :return: [batch_size * num_features, seq_len, d_model]        """         # Self-attention         attn_output, _ = self.attention(x, x, x, attn_mask=mask)         x = self.norm1(x + self.dropout(attn_output))
         # Feed-forward network         # y = self.dropout(self.activation(self.conv1(y.permute(0, 2, 1))))         # ff_output = self.conv2(y).permute(0, 2, 1)         ff_output = self.ff(x)         output = self.norm2(x + self.dropout(ff_output))
         return output

前向扩散过程

前向扩散过程的主要特点：

噪声应用：

在输入patches上应用噪声
生成自监督信号
通过从带噪声版本中重构原始数据来学习稳健的表示

模式识别：

噪声帮助模型识别和关注
专注于时间序列数据中的内在模式




 class Diffusion(nn.Module):     def __init__(         self,         time_steps: int,         device: torch.device,         scheduler: str = "cosine",    ):         super(Diffusion, self).__init__()         self.device = device         self.time_steps = time_steps
         if scheduler == "cosine":             self.betas = self._cosine_beta_schedule().to(self.device)         elif scheduler == "linear":             self.betas = self._linear_beta_schedule().to(self.device)         else:             raise ValueError(f"Invalid scheduler: {scheduler=}")
         self.alpha = 1 - self.betas         self.gamma = torch.cumprod(self.alpha, dim=0).to(self.device)
     def _cosine_beta_schedule(self, s=0.008):         steps = self.time_steps + 1         x = torch.linspace(0, self.time_steps, steps)         alphas_cumprod = (             torch.cos(((x / self.time_steps) + s) / (1 + s) * torch.pi * 0.5) ** 2        )         alphas_cumprod = alphas_cumprod / alphas_cumprod[0]         betas = 1 - (alphas_cumprod[1:] / alphas_cumprod[:-1])         return torch.clip(betas, 0, 0.999)
     def _linear_beta_schedule(self, beta_start=1e-4, beta_end=0.02):         betas = torch.linspace(beta_start, beta_end, self.time_steps)         return betas
     def sample_time_steps(self, shape):         return torch.randint(0, self.time_steps, shape, device=self.device)
     def noise(self, x, t):         noise = torch.randn_like(x)         gamma_t = self.gamma[t].unsqueeze(-1)  # [batch_size * num_features, seq_len, 1]         # x_t = sqrt(gamma_t) * x + sqrt(1 - gamma_t) * noise         noisy_x = torch.sqrt(gamma_t) * x + torch.sqrt(1 - gamma_t) * noise         return noisy_x, noise
     def forward(self, x):         # x: [batch_size * num_features, seq_len, patch_len]         t = self.sample_time_steps(x.shape[:2])  # [batch_size * num_features, seq_len]         noisy_x, noise = self.noise(x, t)         return noisy_x, noise, t

基于交叉注意力的去噪解码器

该解码器具有以下特点：

核心功能：

使用交叉注意力机制
目的是重构原始的、无噪声的patches

优化设计：

允许可调整的优化难度
使自监督任务更有效
使模型能够专注于捕获详细的patch内特征

解码器的工作机制：

接收噪声（作为查询）和编码器的输出（键和值）
使用掩码确保第j个噪声输入对应于Transformer编码器的第j个输出


 class TransformerDecoderBlock(nn.Module):     def __init__(         self, d_model: int, num_heads: int, feedforward_dim: int, dropout: float    ):         super(TransformerDecoderBlock, self).__init__()
         self.self_attention = nn.MultiheadAttention(             embed_dim=d_model, num_heads=num_heads, dropout=dropout, batch_first=True        )         self.norm1 = nn.LayerNorm(d_model)         self.encoder_attention = nn.MultiheadAttention(             embed_dim=d_model, num_heads=num_heads, dropout=dropout, batch_first=True        )         self.norm2 = nn.LayerNorm(d_model)         self.ff = nn.Sequential(             nn.Linear(d_model, feedforward_dim),             nn.ReLU(),             nn.Dropout(dropout),             nn.Linear(feedforward_dim, d_model),        )         self.norm3 = nn.LayerNorm(d_model)         self.dropout = nn.Dropout(dropout)
     def forward(self, query, key, value, tgt_mask, src_mask):         """        :param query: [batch_size * num_features, seq_len, d_model]        :param key: [batch_size * num_features, seq_len, d_model]        :param value: [batch_size * num_features, seq_len, d_model]        :param mask: [1, 1, seq_len, seq_len]        :return: [batch_size * num_features, seq_len, d_model]        """         # Self-attention         attn_output, _ = self.self_attention(query, query, query, attn_mask=tgt_mask)         query = self.norm1(query + self.dropout(attn_output))
         # Encoder attention         attn_output, _ = self.encoder_attention(query, key, value, attn_mask=src_mask)         query = self.norm2(query + self.dropout(attn_output))
         # Feed-forward network         ff_output = self.ff(query)         x = self.norm3(query + self.dropout(ff_output))
         return x

用于全局依赖关系的自回归生成

自回归生成的主要职责：

高层依赖捕获：

捕获时间序列中的高层全局依赖关系
通过自回归方式恢复原始序列
使模型能够理解整体时间模式和依赖关系
显著提升预测能力


 class DenoisingPatchDecoder(nn.Module):     def __init__(         self,         d_model: int,         num_heads: int,         num_layers: int,         feedforward_dim: int,         dropout: float,    ):         super(DenoisingPatchDecoder, self).__init__()
         self.layers = nn.ModuleList(            [                 TransformerDecoderBlock(d_model, num_heads, feedforward_dim, dropout)                 for _ in range(num_layers)            ]        )         self.norm = nn.LayerNorm(d_model)
     def forward(self, query, key, value, is_tgt_mask=True, is_src_mask=True):         seq_len = query.size(1)         tgt_mask = (             generate_self_only_mask(seq_len).to(query.device) if is_tgt_mask else None        )         src_mask = (             generate_self_only_mask(seq_len).to(query.device) if is_src_mask else None        )         for layer in self.layers:             query = layer(query, key, value, tgt_mask, src_mask)         x = self.norm(query)         return x

 class ForecastingHead(nn.Module):     def __init__(         self,         seq_len: int,         d_model: int,         pred_len: int,         dropout: float,    ):         super(ForecastingHead, self).__init__()         self.pred_len = pred_len         self.flatten = nn.Flatten(start_dim=-2)         self.forecast_head = nn.Linear(seq_len * d_model, pred_len)         self.dropout = nn.Dropout(dropout)
     def forward(self, x: torch.Tensor) -> torch.Tensor:         """        :param x: [batch_size, num_features, seq_len, d_model]        :return: [batch_size, pred_len, num_features]        """         x = self.flatten(x)  # (batch_size, num_features, seq_len * d_model)         x = self.forecast_head(x)  # (batch_size, num_features, pred_len)         x = self.dropout(x)  # (batch_size, num_features, pred_len)         x = x.permute(0, 2, 1)  # (batch_size, pred_len, num_features)         return x

优化和微调

优化过程的关键特点：

自回归优化：

整个模型以自回归方式进行优化
获得可以针对特定预测任务进行微调的可迁移表示

表示特性：

确保模型学习的表示既全面又适应性强
能够适应各种下游应用
在时间序列预测中实现卓越性能

实验评估

数据集介绍

实验使用了八个广泛使用的数据集：

ETT数据集系列：

ETTh1、ETTh2、ETTm1、ETTm2四个子集
代表能源领域的时间序列数据

其他领域数据集：

Weather数据集
Exchange数据集
Electricity数据集
Traffic数据集

这些数据集涵盖了多个应用场景，包括电力系统、交通网络和天气预测等领域。

实验结果分析

表1展示了TimeDART与现有方法的对比结果：

与最先进的自监督方法和监督方法进行比较
最佳结果用粗体标示
第二好的结果带有下划线
"#1 Counts"表示该方法达到最佳结果的次数

表2显示了TimeDART在不同设置下的性能：

展示了在五个数据集上预训练并在特定数据集上微调的结果
所有结果都是从4个不同预测窗口{96, 192, 336, 720}中平均得出
最好的结果用粗体标示

消融研究结果：

所有结果都是从4个不同预测窗口{96, 192, 336, 720}中平均得出
最好的结果用粗体标示

超参数敏感性分析

前向过程参数

噪声步数T的影响：

测试了{750, 1000, 1250}三个设置
发现噪声步数对预训练难度影响不大
所有设置都优于随机初始化
噪声调度器的选择：
余弦调度器显著优于线性调度器
某些情况下，线性调度器甚至导致性能低于随机初始化
证实了平滑噪声添加的重要性

去噪patch解码器层数

测试了{0, 1, 2, 3}层配置
单层解码器通常提供最佳的模型复杂度和准确性平衡
过多的层数可能导致表示网络的训练不足

patch长度的影响

测试了{1, 2, 4, 8, 16}不同长度
最佳patch长度取决于数据集特征
较大的patch长度可能更适合具有高冗余性的数据集

总结

TimeDART通过创新性地结合扩散模型和自回归建模，成功解决了时间序列预测中的关键挑战：

技术创新：

首次将扩散和自回归建模统一到单一框架
设计了灵活的交叉注意力去噪网络

性能提升：

在多个数据集上实现了最优性能
展示了强大的域内和跨域泛化能力

实际意义：

为时间序列预测提供了新的研究方向
为实际应用提供了更可靠的预测工具

TimeDART的成功表明，结合不同的生成方法可以有效提升时间序列预测的性能，为该领域的进一步研究提供了新的思路。

论文地址：

https://arxiv.org/abs/2410.05711

编辑：王菁

编辑：龚力

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247647939&idx=2&sn=659a9f6acd97e4f4aa738cc355ab3cf8

数据派THU

清华大数据研究中心官方平台，发布团队科研、教学等最新动态及大数据领域的相关信息~

最新文章

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

活动预告 | 首届北京数字人才发展大会

【伯克利博士论文】从自然场景视频中解耦人体运动和相机运动

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

【NUS博士论文】视频语义理解中的因果模型

清华软件论坛|C. Mohan:Data Management Implications of Intelligent Comp

征文延期至11月22日通知 | 首届开源技术学术大会征稿启事

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

随机性、熵与随机数生成器:解析伪随机数生成器（PRNG）和真随机数生成器（TRNG）

【CIKM2024教程】高效的时间图学习：算法、框架与工具

报名 | 大数据产业论坛第1期——汽车行业专场

通知 | 首届开源技术学术大会征稿启事

NeurIPS 2024｜解锁大模型知识记忆编辑的新路径，浙大用「WISE」对抗幻觉

深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究

【CIKM2024教程】大语言模型在表格任务中的应用

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

【ETHZ博士论文】用于视觉场景理解的领域鲁棒网络架构与训练策略

成都八零大赛圆满收官，清华大学参赛团队获“领先者”奖

原创｜制造新篇：重塑大语言模型在制造领域的力量

基于图论的时间序列数据平稳性与连通性分析：利用图形、数学和 Python 揭示时间序列数据中的隐藏模式

【NeurIPS2024】轨迹流匹配及其在临床时间序列建模中的应用

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

PeFAD：边缘设备中高效的联邦异常检测框架

【NeurIPS2024】Frozen-DETR：利用冻结基础模型的图像理解能力提升DETR

数据派志愿者招募 | 寻找最志同道合的你！

链接数据：如何使用知识图谱改进RAG

过采样与欠采样技术原理图解：基于二维数据的常见方法效果对比

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

NeurIPS 2024 | 如何防御对抗性提示攻击？AdvUnlearn让图片生成风险骤降

TimeDART：基于扩散自回归Transformer 的自监督时间序列预测方法

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

AGENTiGraph：一个交互式知识图谱平台驱动的基于私有数据多智能体系统 - 东京&耶鲁大学等最新研究

干货 | 清华Python编程入门分享会第三期

【牛津大学博士论文】使用图神经网络进行知识图谱的深度学习

直播预告 | Al+研发数字峰会(AiDD) 2024深圳站开幕式

11种经典时间序列预测方法：理论、Python实现与应用

干货 | 清华Python编程入门分享会第二期

【NeurIPS2024】用于时间序列预测的检索增强扩散模型

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

入选ECCV 2024！浙江大学联合微软亚洲研究院提出统一医学图像预训练框架UniMedI，打破医学数据异构化藩篱

【ETHZ博士论文】机器学习代码: 安全性与可靠性

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

梯度累积的隐藏陷阱：Transformer库中梯度累积机制的缺陷与修正

【牛津大学博士论文】用于本体工程的语言模型

KDD 2024 | 数据驱动的分布偏移检测与自适应

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉