基于图论的时间序列数据平稳性与连通性分析：利用图形、数学和 Python 揭示时间序列数据中的隐藏模式

文摘 2024-11-10 17:28 山西

时间序列数据表示了一个随时间记录的值的序列。理解这些序列内部的关系，尤其是在多元或复杂的时间序列数据中，不仅仅局限于随时间绘制数据点(这并不是说这种做法不好)。通过将时间序列数据转换为图，我们可以揭示数据片段内部隐藏的连接、模式和关系，帮助我们发现平稳性和时间连通性等性质，这就是图论发挥作用的地方。

在本文中，我们将探讨图论如何洞察时间关系和平稳性，将介绍基于图的变换的基本概念，讨论时间序列数据的平稳性，并展示如何应用这些概念。

什么是时间序列数据的平稳性?

平稳性是时间序列分析中的一个核心概念。如果一个时间序列的统计特性——均值、方差和自相关性——随时间保持不变，则称该时间序列是平稳的。简而言之，平稳时间序列不随时间变化而出现趋势、周期性或变化的方差。

从数学角度来看,如果满足以下条件,则时间序列X(t)是平稳的:

平稳性有助于确保在序列样本中观察到的模式能代表整个数据集。这在预测中至关重要，因为非平稳数据通常会导致不准确或有偏差的模型。

利用图论理解平稳性和连通性

图论作为一个研究网络的数学框架，为表示和分析时间序列数据中的关系提供了强大的工具。图由节点(顶点)组成，节点之间由边连接，边可以表示时间序列数据中状态之间的关系、依赖或转换。

在时间序列分析中，我们可以使用图来模拟时间序列片段内部和之间的依赖关系，揭示周期性和平稳性等关系。

将时间序列转换为图

为了在时间序列分析中应用图论，我们需要将数据转换为图结构。以下是实现这一转换的步骤:

将时间序列划分为片段：将时间序列划分为相等的部分或我们要分析的区间。
计算成对相似性：对于每一对片段，计算一个相似性度量，例如互相关或互信息，以定义节点(片段)之间的边。
构建图：将每个片段视为一个节点,并用它们的相似性加权的边连接节点。

让我们通过一个实例进一步分解这些步骤。

1. 分割时间序列

给定一个时间序列X={x1,x2,…,xN}，将其划分为 M 个片段，每个片段包含 L 个时间步长(其中 L = N/M)。这会产生片段 X1,X2,…,XM。

2. 计算成对相似性

对于每一对片段，计算一个相似性度量 s(i,j)。常见的选择包括：

皮尔逊相关系数：度量片段之间的线性相关性。

动态时间规整(DTW) ：通过对齐可能具有非线性时移的片段来捕捉相似性。

互信息：量化片段之间共享的信息。

较高的相似性值 s(i,j)表示片段之间的连接更强，暗示时间连通性或平稳模式。

3. 构建图

创建一个图 G=(V,E)，其中：

V 表示作为节点的片段。
E 包括节点之间的边,如果它们的相似性超过阈值 α,则边的权重为 w(i,j)=s(i,j)。

简单示例

以下是使用皮尔逊相关系数创建相似图的简单示例：


 import numpy as np import networkx as nx import matplotlib.pyplot as plt from scipy.stats import pearsonr  # 模拟时间序列数据 time_series = np.sin(np.linspace(0, 10 * np.pi, 1000)) + np.random.normal(0, 0.1, 1000)  M = 20 L = len(time_series) // M segments = [time_series[i * L:(i + 1) * L] for i in range(M)]  # 计算片段之间的相似性(皮尔逊相关系数)   G = nx.Graph() for i in range(M):     G.add_node(i)     for j in range(i + 1, M):         corr, _ = pearsonr(segments[i], segments[j])         if abs(corr) > 0.5:  # 显著相似性的阈值             G.add_edge(i, j, weight=corr)

我们将时间序列划分为20个片段。计算每对片段之间的皮尔逊相关系数，并将相关系数高于阈值的片段连接起来。

利用图连通性分析平稳性

相似图中的连通性可以揭示平稳性的洞见。如果片段高度连通(节点之间有许多边)，这表明该序列在时间上具有平稳特性。如果只有很少或孤立的簇，则意味着该序列可能是非平稳的，在不同的片段中具有不同的时间模式。

基于图的平稳性度量

几个图度量可以量化这些属性：

聚类系数：衡量节点形成紧密群组的倾向,这可能表明局部平稳性。

平均路径长度：反映了时间序列片段的整体连通性和相似性。

模块度：确定社区的存在,高模块度表明时间变化。


 clustering_coef = nx.average_clustering(G) avg_path_length = nx.average_shortest_path_length(G)  print("Clustering Coefficient:", clustering_coef) print("Average Path Length:", avg_path_length)

通过图分区可视化平稳性

为了可视化时间结构，我们可以使用图分区来识别高度连通的节点簇，对应于相似或平稳的片段。例如，谱聚类可以突出显示平稳和非平稳簇。

为了演示我们创建了一个只有正边的新图，因为我们在示例中使用的社区检测算法需要正权重，而相关性也可以是负的。在这个例子中使用 R² 而不是相关性作为边权重重新创建了相同的图。


 from networkx.algorithms import community import community as community_louvain  # 应用 Louvain 社区检测 partition = community_louvain.best_partition(G)

从社区图推断平稳性

一旦我们将时间序列转换为图，主要关注的就是片段在时间上的连通性。连通模式可以给我们关于时间序列平稳性的线索。具体如下:

高连通性(密集社区) ：如果图显示节点(片段)之间的高连通性，很少或没有孤立的簇，这表明时间序列是平稳的。密集的社区或"充分混合"的结构意味着时间序列的统计特性(如均值和方差)随时间保持一致，这意味着整个过程中片段之间的相似性很高。

低连通性(稀疏社区)：如果图有几个稀疏或弱连通的簇,具有孤立的组或"分散"结构，这表明非平稳性。在非平稳时间序列中,某些片段可能具有不同的统计特性,例如变化的趋势、季节性变化或不同的方差。这些变化会破坏均匀连通性,导致只有某些片段彼此相似的簇。

模块度和社区结构：图中高模块度(即片段形成不同的、分离良好的社区)表明数据中存在更强的非平稳趋势。例如,如果时间序列包含周期性循环或在不同制度之间转换(如金融数据中的不同市场状态)，这些制度将形成可识别的簇。低模块度，其中节点是大型互连组件的一部分，通常反映了平稳性，因为片段随时间共享相似的统计特性。

聚类系数和最短路径：高聚类系数(簇内有许多连接)和短平均路径长度(片段之间的"距离"低)通常伴随平稳时间序列。如果这些指标较低，某些节点之间的路径较长，则表明存在不同的时间制度或模式，表明非平稳性。

模拟不同平稳性和非平稳性程度的信号

为了更好地捕捉非平稳性，我们分析从三个离散状态扩展到连续的非平稳性尺度。这里将生成几个具有递增非平稳性水平的模拟信号，逐渐改变频率和幅度等统计特性。然后将计算并可视化每个信号的图度量，以观察它们如何在这个连续谱上变化。

按如下方式创建信号：

平稳(0级) ：具有恒定均值和方差的纯白噪声。

低非平稳性(1-3级) ：引入一个微妙的线性趋势来模拟轻微的漂移。

中等非平稳性(4-6级) ：在趋势之上添加季节性成分,如周期性模式。

高非平稳性(7-9级)：引入随机游走成分,导致更多的可变性。

非常高的非平稳性(10级) ：结合强趋势、高季节性和随机冲击,创建具有不同时间制度的信号。

每个级别通过逐步增加可变性和改变统计特性来增加非平稳性。


 N = 1000 time = np.arange(N)  signals = [] np.random.seed(42)  for level in range(11):     if level == 0:         signal = np.random.normal(0, 1, N)     elif level <= 3:         trend = 0.01 * level * time         signal = np.random.normal(0, 1, N) + trend     elif level <= 6:         trend = 0.01 * (level - 3) * time         seasonality = 2 * np.sin(0.05 * time)         signal = np.random.normal(0, 1, N) + trend + seasonality     elif level <= 9:         trend = 0.02 * (level - 6) * time         seasonality = 2 * np.sin(0.05 * time)         random_walk = np.cumsum(np.random.normal(0, 0.2, N))         signal = trend + seasonality + random_walk     else:         trend = 0.05 * time         seasonality = 3 * np.sin(0.1 * time)         random_shocks = np.random.normal(0, 3, N)         signal = trend + seasonality + random_shocks     signals.append(signal)

连通性(边数)：

边数开始时较低，然后在非平稳性水平 5-8 左右迅速增加，表明存在一个过渡阶段，片段开始变得更加连通。

在最高的非平稳性水平(10级)，连通性下降，这可能反映了由于强随机冲击和剧烈变化，片段在其特性上过于分散。

聚类系数：

在初始的非平稳性水平，聚类系数保持较低，这对于平稳或近乎平稳的信号是预期的，因为片段非常相似，只形成很少的强连接。

在 6-9 级左右显著增加，表明随着非平稳性的增加，片段开始聚集成小的、紧密连通的组。这可能反映了季节性或趋势性成分的影响，相似的片段形成簇。

在最高的非平稳性水平(10级)，聚类系数急剧下降，这可能是由于片段变得不那么均匀连通，导致孤立的簇。

平均路径长度：

在较低的非平稳性水平，路径长度一致且相对较低，意味着一个连通良好的图，具有相似的片段。

在 8-9 级有明显的增加，表明随着非平稳性的增长，片段在连通性方面越来越远。

由于一些图是不连通的，路径长度测量似乎很稀疏，这可能表明片段已经失去了足够的相似性而无法保持连通。

模块度：

在 10 级，模块度显著增加，表明图更加分散，片段形成不同的社区。这是高度非平稳信号的特征，可能有几个不同的时间制度。

在中间的非平稳性水平，模块度相对较低，这表明片段足够相似，可以避免形成不同的社区，但由于小趋势或季节性，它们仍然表现出一些小的结构。

关键结果

从这个分析中,我们可以得出以下结论：

中等非平稳性下连通性和聚类的增加：5-8 级左右显示连通性和聚类的增加，反映了中等季节性或趋势成分的存在，其中片段变得更加相互关联。
非常高的非平稳性下的高模块度：10级显示了高模块度,这与显著的非平稳性一致。这是预期的，因为片段已经大大偏离，形成了不同的社区，使图变得支离破碎。
极端水平下聚类和连通性的下降：在非平稳性的极端，随着随机性占主导地位，连通性和聚类下降，导致稀疏连通或孤立的节点。

总结

本文探讨了利用图论分析时间序列数据平稳性与连通性的方法。通过将时间序列转换为图结构，计算片段间相似性，构建连通图，可以揭示数据的隐藏模式。文章介绍了平稳性的概念，提出了基于图的平稳性度量，展示了图分区在可视化平稳性中的应用。此外，本文还模拟了不同平稳性和非平稳性程度的信号，分析了图度量随非平稳性的变化。最后，总结了关键观察结果和启示，为时间序列数据分析提供了新的视角。

想要了解更多资讯，请扫描下方二维码，关注机器学习研究会

转自：数据派THU

http://mp.weixin.qq.com/s?__biz=MzU1NTUxNTM0Mg==&mid=2247575831&idx=3&sn=3d605e3ad9a129ec1c4968e74ffc514f

机器学习研究组订阅

机器学习研究会由百度七剑客雷鸣先生创办，旨在推动AI的技术发展和产业落地。参与组织北大、清华”AI前沿与产业趋势“公开课，广泛的和高校、企业、创业、VC开展合作，自身也参与优秀AI项目的投资和孵化。

最新文章

OpenAI「23个黑手党」出走创业，融资近百亿！华人科学家约占1/3

10种数据预处理中的数据泄露模式解析:识别与避免策略

「谍战」开启！基建狂魔马斯克122天交付10万卡超算，对手大恐慌派间谍飞机侦查

14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

Github上的十大RAG(信息检索增强生成)框架

斯坦福伯克利重磅发现DNA Scaling Law，Evo荣登Science封面！AI设计DNA/RNA/蛋白质再突破

ChatGPT深夜两弹更新！macOS版联动三款IDE无缝编程，Windows版全量上线

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

OpenAI总裁出走3月终于归来！Greg结束「最长假期」专注重大技术挑战，每周狂肝100小时代码

Transformer打破三十年数学猜想！Meta研究者用AI给出反例，算法杀手攻克数学难题

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

扩散模型失宠？端侧非自回归图像生成基础模型Meissonic登场，超越SDXL！

Scaling Law撞墙，AI圈炸锅了！OpenAI旗舰Orion被曝遭遇瓶颈，大改技术路线

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！1人1万块GPU缔造十亿独角兽

哈佛推出全新类ChatGPT癌症诊断AI，登上Nature！准确率高达96%

基于图论的时间序列数据平稳性与连通性分析：利用图形、数学和 Python 揭示时间序列数据中的隐藏模式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

川普赢了，AI圈炸了！英伟达市值突破3.6万亿， OpenAI研究员：他或将见证AGI诞生

失业小哥在父母卧室做AI应用，日入2万刀！晒账单爆火全网，AI初创价值3500万

特朗普回归，美国AI解禁！马斯克变身全球首富，硅谷科技圈颠覆在即

软体机器人领域顶尖学者齐聚清华！第九届软体机器人大会将于11月15—17日在清华举行

从今天起，ChatGPT入口就是chat.com！

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer，火爆国外

英伟达3.4万亿市值稳坐全球第一！苹果12年霸主地位终结

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

AI圈卷疯了！xAI、Anthropic同日上线API：Grok免费公测，Claude 3.5 Haiku价格暴涨

AGENTiGraph：一个交互式知识图谱平台驱动的基于私有数据多智能体系统 - 东京&耶鲁大学等最新研究

UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

【NeurIPS2024】用于时间序列预测的检索增强扩散模型

世界首个1000亿AI智能体文明诞生！北大校友打造真实版「西部世界」，技术细节全公开

o1图像理解神秘现身，网友疯狂测试！Altman自曝：o2研究生级水平破105%

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题

打破RLHF瓶颈，克服奖励欺骗！Meta发布全新后训练方式CGPO，编程水平直升5%

KDD 2024 | 数据驱动的分布偏移检测与自适应

苹果地表最强AI PC诞生，M4 Max猛兽加持性能暴涨！顶配6万，续航飙至24小时

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉