点击名片
关注并星标
#TSer#
【论文标题】
Time-MMD: A New Multi-Domain Multimodal Dataset for Time Series Analysis【论文地址】
https://arxiv.org/abs/2406.08627
【数据集&库】
https://github.com/AdityaLab/Time-MMD
https://github.com/AdityaLab/MM-TSFlib
论文背景
时间序列数据在广泛的现实领域中无处不在。然而,现实世界的时间序列分析(TSA)需要人类专家将数值序列数据与多模态领域特定知识相结合,而大多数现有的 TSA 模型仅依赖于数值数据,忽视了数值序列之外信息的重要性。这种忽视源于文本序列数据的潜力尚未被发掘,以及缺乏全面、高质量的多模态数据集。
随着大型语言模型(LLMs)的发展,TSA 领域正在经历转型,开始整合自然语言。然而,外源性文本信号(如事件和政策信息)尚未得到充分利用,这引发了一个关键问题:多模态 TSA 模型能否有效利用这些信号以增强 TSA 任务并实现新应用?
当前的挑战在于缺乏一个全面、高质量的多模态时间序列数据集,主要存在以下三个缺口:
狭隘的数据领域,不同领域之间的数据特征和模式各不相同,例如数值数据的周期性和文本数据的稀疏性。然而,当前的多模态时间序列数据集仅关注金融领域的股票预测任务,无法代表多样化的数据领域。
粗糙的模态对齐,现有的多模态时间序列数据集只确保文本和数值数据来自同一领域,例如一般的股票新闻和某一特定股票的价格。显然,大量无关的文本会降低多模态 TSA 的有效性。
固有的数据污染,现有的多模态时间序列数据集忽视了数据污染的两个主要原因:(1)文本数据通常包含预测。例如,流感展望是流感报告中的一个常规部分。(2)过时的测试集,特别是文本数据,可能已经暴露于 LLMs,这些模型是在大量语料库上预训练的。
为了应对这些挑战,论文引入了 Time-MMD,这是首个覆盖9个主要数据领域的多域多模态时间序列数据集。Time-MMD 确保了细粒度的模态对齐,消除了数据污染,并提供了高可用性。此外,研究者还开发了 MM-TSFlib,这是首个多模态 TSF 库,它基于 Time-MMD 无缝地构建多模态 TSF 评估流程,以进行深入分析。
Time-MMD
多域多模态数据集
数值序列数据构建。从可靠的来源收集数值数据,以确保其可靠性和准确性。 文本序列数据构建。为与数值数据进行精细匹配,收集了文本数据。通过人工选择数据源和大型语言模型对原始文本进行过滤,确保了这种匹配的质量。此外,还利用大型语言模型来区分事实和预测,并生成摘要。 数值-文本对齐。使用二进制时间戳来标记开始和结束日期,作为数值序列和文本序列之间通用的时间对齐方法,以满足各种下游 TSA 任务的需求。
图1:Time-MMD数据集构建
01
数值序列数据构建
数据源选择。选择的数据源需满足以下标准:(1)可靠,包含已验证的知识;(2)积极发布,能够随着新数据的出现而更新;(3)跨领域,涵盖各种时间序列分析(TSA)模式。基于这些原则,研究者从不同领域选择了 9 个数据源。其中大多数来源于政府机构,最低更新频率为每六个月一次。
目标变量选择。对于每个领域,研究者选择具有显著现实意义的目标变量,这些变量更容易与文本进行匹配,如表1所示。这些变量跨越三个不同的频率:日、周和月。
表1:Time-MMD中数值数据概览
收集与预处理。收集所有可用时间的原始数据,这些数据来自批量发布的文件或通过单独抓取获得。在预处理数据时,研究者丢弃了早期年份中缺失值比例较高的数据。对于大多数领域,研究者保持了原始频率,但由于安全领域和气候领域的发布不规律以及文本匹配困难,分别对这些领域的频率进行了调整。图2展示了每个领域中存在的多种模式,如周期性和趋势。
图2:Time-MMD的可视化
数据质量与属性。如表1和图2所示,构建的数值数据在时间覆盖上非常全面,从最早的1950年至今,并呈现出不同的模式,如周期性和趋势。
02
文本序列数据构建
图3:健康领域流感患者比例的词云可视化
MM-TSFlib
多模态时序预测库
01
多模态融合框架
图4:MM-TSFlib 框架总览
02
多模态时间序列预测库
基于多模态数据集 Time-MMD 和融合框架,研究者推出了第一个多模态时间序列预测库,名为 MM-TSFlib。MM-TSFlib 通过7个开源(大型)语言模型,包括 BERT、GPT-2(小型、中型、大型、超大型)、Llama-2-7B 和 Llama-3-8B,支持超过 20 种单模态时间序列预测算法的多模态扩展。
MM-TSFlib 旨在方便在多模态时间序列分析中与 Time-MMD 一起使用。此外,MM-TSFlib 还作为评估现有时间序列预测模型多模态可扩展性的试点工具包。
实验效果
实验涉及9个不同领域的 Time-MMD 数据集,覆盖了从短期到长期的不同时间范围的时间序列预测任务。使用均方误差(MSE)作为评估指标,选择了12种先进的单模态 TSF 方法,包括基于 Transformer 的方法、基于 MLP 的方法、不可知方法和基于 LLM 的方法。文中实验旨在研究以下5个方面:
多模态 TSF 的有效性:多模态版本在所有 TSF 骨干网络上都优于相应的单模态版本,平均降低了超过 15% 的均方误差,某些文本数据丰富的领域高达 40%。
图5:每个时间序列预测(TSF)主干模型的平均归一化均方误差(MSE)结果
Time-MMD 数据集的质量:图5显示,像 iTransformer 和 PatchTST 这样的最新单模态 TSF 模型保持了领先的单模态性能,验证了 Time-MMD 数值数据的质量。此外,通过整合文本数据,多模态扩展显著且一致地提高了性能,证实了 Time-MMD 文本数据的质量。
数据领域的影响:图6a显示了每个领域通过多模态扩展减少的 MSE 与相关事实计数之间的关系。散点图通常显示正线性相关,这与整合文本信息的创新相一致。此外,即使事实计数相似,领域特性也会影响多模态性能。例如,关注灾害和紧急补助的安全领域,对未来的不确定性更高,因此从历史文本信息中获益较少。这一观察强调了 Time-MMD 覆盖9个领域的重要性。
图6:探索性实验结果
LLM骨干网络的影响:如图6b所示,LLM 骨干网络的选择与多模态 TSF 性能之间没有显著的相关性。对于 GPT2 系列,多模态 TSF 的扩展法则不明确,表明参数规模与 TSF 性能之间没有明确的正相关。不同的 LLMs 之间的多模态 TSF 性能相对相似,甚至在先进的 Llama-3-8B 和早期的 BERT 之间也是如此。
预测窗口大小的影响:图6c显示了预测窗口大小与每个领域平均 MSE 降低之间的关系。总体而言,MSE 降低在不同的预测窗口大小上是稳定且有希望的,从短期到长期。这表明多模态 TSF 的有效性对不同的预测范围要求是稳健的。
扫下方二维码,加入时序人学术星球
星球专注于时间序列领域的知识整理,前沿追踪
提供论文合集、视频课程、问答服务等资源
270+篇专栏笔记,已有250+小伙伴加入
价格随着内容丰富而上涨,早入早享优惠哦~
时间序列学术前沿系列持续更新中 ⛳️
后台回复"讨论",加入讨论组一起交流学习 🏃
往期推荐阅读
觉得不错,那就点个在看和赞吧