Time-MMD:首个涵盖9大主要数据领域的多域多模态时间序列数据集

科技   2024-10-23 08:30   中国  

点击名片

关注并星标

#TSer#


扫下方二维码,加入时序人学术星球
参与算法讨论,获取前沿资料
270+篇专栏笔记,已有250+同学加入学习)

本文介绍一篇关于时序数据集的创新性工作。研究者提出了一个涵盖9个主要数据领域的首个多域多模态时间序列数据集 Time-MMD。该数据集通过精细的模态对齐、消除数据污染,并提供高可用性,解决了以往数据集的局限性。此外,研究者还开发了 MM-TSFlib,这是一个多模态时间序列预测库,它通过 Time-MMD 进行多模态时间序列预测(TSF) 评估,以进行深入分析。

在 Time-MMD 上使用 MM-TSFlib 进行的广泛实验表明,与单一模态TSF相比,多模态 TSF 平均降低了超过 15% 的均方误差,某些文本数据丰富的领域甚至高达 40%,证明了多模态扩展在时间序列分析中的有效性和优越性。



【论文标题

Time-MMD: A New Multi-Domain Multimodal Dataset for Time Series Analysis

【论文地址】

https://arxiv.org/abs/2406.08627

【数据集&库】

https://github.com/AdityaLab/Time-MMD
https://github.com/AdityaLab/MM-TSFlib


论文背景


时间序列数据在广泛的现实领域中无处不在。然而,现实世界的时间序列分析(TSA)需要人类专家将数值序列数据与多模态领域特定知识相结合,而大多数现有的 TSA 模型仅依赖于数值数据,忽视了数值序列之外信息的重要性。这种忽视源于文本序列数据的潜力尚未被发掘,以及缺乏全面、高质量的多模态数据集。


随着大型语言模型(LLMs)的发展,TSA 领域正在经历转型,开始整合自然语言。然而,外源性文本信号(如事件和政策信息)尚未得到充分利用,这引发了一个关键问题:多模态 TSA 模型能否有效利用这些信号以增强 TSA 任务并实现新应用?


当前的挑战在于缺乏一个全面、高质量的多模态时间序列数据集,主要存在以下三个缺口:


  • 狭隘的数据领域不同领域之间的数据特征和模式各不相同,例如数值数据的周期性和文本数据的稀疏性。然而,当前的多模态时间序列数据集仅关注金融领域的股票预测任务,无法代表多样化的数据领域。


  • 粗糙的模态对齐现有的多模态时间序列数据集只确保文本和数值数据来自同一领域,例如一般的股票新闻和某一特定股票的价格。显然,大量无关的文本会降低多模态 TSA 的有效性。


  • 固有的数据污染现有的多模态时间序列数据集忽视了数据污染的两个主要原因:(1)文本数据通常包含预测。例如,流感展望是流感报告中的一个常规部分。(2)过时的测试集,特别是文本数据,可能已经暴露于 LLMs,这些模型是在大量语料库上预训练的。


为了应对这些挑战,论文引入了 Time-MMD,这是首个覆盖9个主要数据领域的多域多模态时间序列数据集。Time-MMD 确保了细粒度的模态对齐,消除了数据污染,并提供了高可用性。此外,研究者还开发了 MM-TSFlib,这是首个多模态 TSF 库,它基于 Time-MMD 无缝地构建多模态 TSF 评估流程,以进行深入分析。



Time-MMD

多域多模态数据集


研究者提出了一个全面的通道过程,用于构建一个利用现代 LLMs 的文本-数值序列数据集。如图1所示,构建过程分为三个关键步骤:

  1. 数值序列数据构建从可靠的来源收集数值数据,以确保其可靠性和准确性


  2. 文本序列数据构建为与数值数据进行精细匹配,收集了文本数据通过人工选择数据源和大型语言模型对原始文本进行过滤,确保了这种匹配的质量。此外,还利用大型语言模型来区分事实和预测,并生成摘要。


  3. 数值-文本对齐使用二进制时间戳来标记开始和结束日期,作为数值序列和文本序列之间通用的时间对齐方法,以满足各种下游 TSA 任务的需求


图1:Time-MMD数据集构建


01

数值序列数据构建 


数据源选择。选择的数据源需满足以下标准:(1)可靠,包含已验证的知识;(2)积极发布,能够随着新数据的出现而更新;(3)跨领域,涵盖各种时间序列分析(TSA)模式。基于这些原则,研究者从不同领域选择了 9 个数据源。其中大多数来源于政府机构,最低更新频率为每六个月一次。


目标变量选择。对于每个领域,研究者选择具有显著现实意义的目标变量,这些变量更容易与文本进行匹配,如表1所示。这些变量跨越三个不同的频率:日、周和月。


表1:Time-MMD中数值数据概览


收集与预处理。收集所有可用时间的原始数据,这些数据来自批量发布的文件或通过单独抓取获得。在预处理数据时,研究者丢弃了早期年份中缺失值比例较高的数据。对于大多数领域,研究者保持了原始频率,但由于安全领域和气候领域的发布不规律以及文本匹配困难,分别对这些领域的频率进行了调整。图2展示了每个领域中存在的多种模式,如周期性和趋势。


图2:Time-MMD的可视化


数据质量与属性。如表1和图2所示,构建的数值数据在时间覆盖上非常全面,从最早的1950年至今,并呈现出不同的模式,如周期性和趋势。


02

文本序列数据构建 


数据源选:精选报告和网络搜索结果报告数据确保了与目标变量的高相关性,而搜索结果则提供了更全面的覆盖。

数据收集:搜索和抓取使用 Google API 进行关键词搜索,收集了每周前10个搜索结果的数据。对于报告数据,解析每个数据源的所有可用报告并仅保留纯文本段落。

数据预处理:过滤、区分和摘要为了净化收集的原始文本数据,引入了三个关键的预处理步骤:
(1)过滤以提高相关性;
(2)区分事实与预测以减轻数据污染;
(3)摘要以提高可用性。
鉴于手动执行这些步骤不切实际,研究者利用最先进的大型语言模型 Llama3-70B 来完成这些任务。

研究者采用了三种具体策略来缓解 LLMs 中的幻觉问题,并提高预处理质量:
(1)对文本进行简洁的介绍;
(2)要求 LLM 引用数据源,以辅助约束和验证;
(3)当相关性不确定时,允许 LLM 指示“不可用”,以避免捏造信息。

研究者还进一步验证了文本数据构建中关键步骤的有效性:

(1)数据源选择。使用相关性和覆盖率来描述相关文本的比例和至少有一个事实覆盖的数值序列数据的比例。如表2所示,报告数据的相关性更高但覆盖率更低;搜索数据则相反。因此,文中的组合使用构成了一个全面的解决方案。

表2:文本数据统计

(2)数据预处理。图3分别展示了健康领域中构建的文本数据(提取的事实、提取的预测和丢弃的文本)的词云可视化,这些验证了LLM过滤和区分的有效性。此外,表2比较了预处理前后的标记数量。数量的显著减少验证了LLM摘要提高了可用性。


图3:健康领域流感患者比例的词云可视化



MM-TSFlib

多模态时序预测库


01

多模态融合框架 


研究者提出了一个创新的多模态融合框架,旨在将现有的单模态时间序列预测模型扩展到其多模态版本。如图4所示,该框架采用端到端流程,将开源语言模型与各种时间序列预测模型相结合。数值序列和文本序列分别使用单模态时间序列预测模型和带有投影层的大型语言模型(LLMs)进行建模。然后,使用可学习的线性加权机制将这些输出组合起来,以产生最终预测。为降低计算成本,研究者冻结了LLM的参数,仅训练额外的投影层。研究者使用池化层来处理文本变量维度不一致的问题。此框架采用端到端的训练方式,且可训练参数的开销很小。


图4:MM-TSFlib 框架总览


02

多模态时间序列预测库 


基于多模态数据集 Time-MMD 和融合框架,研究者推出了第一个多模态时间序列预测库,名为 MM-TSFlib。MM-TSFlib 通过7个开源(大型)语言模型,包括 BERT、GPT-2(小型、中型、大型、超大型)、Llama-2-7B 和 Llama-3-8B,支持超过 20 种单模态时间序列预测算法的多模态扩展。


MM-TSFlib 旨在方便在多模态时间序列分析中与 Time-MMD 一起使用。此外,MM-TSFlib 还作为评估现有时间序列预测模型多模态可扩展性的试点工具包。



实验效果


实验涉及9个不同领域的 Time-MMD 数据集,覆盖了从短期到长期的不同时间范围的时间序列预测任务。使用均方误差(MSE)作为评估指标,选择了12种先进的单模态 TSF 方法,包括基于 Transformer 的方法、基于 MLP 的方法、不可知方法和基于 LLM 的方法。文中实验旨在研究以下5个方面:


  • 多模态 TSF 的有效性多模态版本在所有 TSF 骨干网络上都优于相应的单模态版本,平均降低了超过 15% 的均方误差,某些文本数据丰富的领域高达 40%。


图5:每个时间序列预测(TSF)主干模型的平均归一化均方误差(MSE)结果


  • Time-MMD 数据集的质量图5显示,像 iTransformer 和 PatchTST 这样的最新单模态 TSF 模型保持了领先的单模态性能,验证了 Time-MMD 数值数据的质量。此外,通过整合文本数据,多模态扩展显著且一致地提高了性能,证实了 Time-MMD 文本数据的质量。


  • 数据领域的影响图6a显示了每个领域通过多模态扩展减少的 MSE 与相关事实计数之间的关系。散点图通常显示正线性相关,这与整合文本信息的创新相一致。此外,即使事实计数相似,领域特性也会影响多模态性能。例如,关注灾害和紧急补助的安全领域,对未来的不确定性更高,因此从历史文本信息中获益较少。这一观察强调了 Time-MMD 覆盖9个领域的重要性。

图6:探索性实验结果


  • LLM骨干网络的影响:如图6b所示,LLM 骨干网络的选择与多模态 TSF 性能之间没有显著的相关性。对于 GPT2 系列,多模态 TSF 的扩展法则不明确,表明参数规模与 TSF 性能之间没有明确的正相关。不同的 LLMs 之间的多模态 TSF 性能相对相似,甚至在先进的 Llama-3-8B 和早期的 BERT 之间也是如此。


  • 预测窗口大小的影响:图6c显示了预测窗口大小与每个领域平均 MSE 降低之间的关系。总体而言,MSE 降低在不同的预测窗口大小上是稳定且有希望的,从短期到长期。这表明多模态 TSF 的有效性对不同的预测范围要求是稳健的。


扫下方二维码,加入时序人学术星球

星球专注于时间序列领域的知识整理,前沿追踪

提供论文合集、视频课程、问答服务等资源

270+篇专栏笔记,已有250+小伙伴加入

价格随着内容丰富而上涨,早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论",加入讨论组一起交流学习 🏃

往期推荐阅读


华东师大团队首创!时间序列异常预测开启全新时序任务
时序异常检测新进展!华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型
如何处理多频段时序特征?这个Transformer变体显著提升预测效果
PeFAD:边缘设备中高效的联邦异常检测框架
KDD 2024 | 数据驱动的分布偏移检测与自适应
NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架
KDD 2024 | 首个基于 Diffusion 的自监督时序表示方法
港大智慧城市大模型 OpenCity 来袭! 时空预测是否将在 GPT 时代重塑?
KDD 2024 | RHiOTS:评估层级化时序预测算法的可靠性
时间序列预测中如何构建层级化的 Transformer 架构?
KDD 2024 | FNSPID:整合新闻与股价的大规模金融数据集
KDD 2024 | 检测并优化时序预测中的分布偏移问题
LSTM再升级!原作者携xLSTM回归,扩展LSTM到数十亿参数
KDD 2024 | ShapeFormer:多维时序分类中基于形状的Transformer


觉得不错,那就点个在看和赞吧

时序人
专注于时间序列领域下的科研、工业干货分享,紧跟AI+等领域的科技前沿
 最新文章