Python用 tslearn 进行时间序列聚类可视化

科技科技 2024-09-03 17:18 浙江

全文链接：https://tecdat.cn/?p=33484

我们最近在完成一些时间序列聚类任务，偶然发现了 tslearn 库。我很想看看启动和运行 tslearn 已内置的聚类有多简单，结果发现非常简单直接（点击文末“阅读原文”获取完整代码数据）。

相关视频

首先，让我们导入我们需要的库：


import pandas as pd
import numpy as np

from tslearn.preprocessing import TimeSeriesScalerMeanVariance

netdata_pandas 用于提取一些时间序列数据到 pandas 数据框中。

plots为我添加了常用的绘图功能，我发现自己一次又一次地回到了这个库中。

我们定义输入，基本上任何我们可以使用和更改的东西都值得作为输入添加到笔记本的顶部：


n_clusters = 50 # number of clusters to fit

smooth_n = 15 # n observations to smooth over

model = 'kmeans' # one of ['kmeans','kshape','kernelkmeans','dtw']

接下来，我们将获取数据并进行一些标准的预处理：


if n_charts:
    charts = np.random.choice(get_chart_list(host), n_charts).tolist()
    print(charts)
else:
    charts = get_chart_list(host)
# get data
df = get_data(host, charts, after=-n, before=0)

if smooth_n > 0:
    if smooth_func == 'mean':
        df = df.rolling(smooth_n).mean().dropna(how='all')
    elif smooth_func == 'max':
        df = df.rolling(smooth_n).max().dropna(how='all')
    elif smooth_func == 'min':
        df = df.rolling(smooth_n).min().dropna(how='all')
    elif smooth_func == 'sum':
        df = df.rolling(smooth_n).sum().dropna(how='all')
    else:
        df = df.rolling(smooth_n).mean().dropna(how='all')

print(df.shape)
df.head()

然后用 tslearn 建立我们的聚类模型了：




if model == 'kshape':
    model = KShape(n_clusters=n_clusters, max_iter=10, n_init=2).fit(X)
elif model == 'kmeans':
    model = TimeSeriesKMeans(n_clusters=n_clusters,

有了聚类集群后，我们就可以制作一些辅助对象供以后使用：



cluster_metrics_dict = df_cluster.groupby(['cluster'])['metric'].apply(lambda x: [x for x in x]).to_dict()
cluster_len_dict = df_cluster['cluster'].value_counts().to_dict()

clusters_final.sort()

df_cluster.head()

最后，让我们分别绘制每个聚类群组，看看有什么结果：


for cluster_number in clusters_final:
 
    x_corr = df[cluster_metrics_dict[cluster_number]].corr().abs().values
   
    plot_lines(df, cols=cluster_metrics_dict[cluster_number], renderer='colab', theme=None, title=plot_title)

这里有一些很好的例子：

点击标题查阅往期内容

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

左右滑动查看更多

聚类的典型特征是你总是会得到一些看起来很糟糕的随机数据，尤其是凭空选取了上面的很多参数，最重要的是 K 聚类的数量，鉴于我们有大量的指标（超过 700 个），我将其设置为 50 个。

总之，我发现 tslearn 库非常有用，因为它节省了我很多时间，让我快速建立并运行了一个工作原型，所以我期待着还能使用它提供的其他一些时间序列相关功能。

本文中分析的数据、代码分享到会员群，扫描下面二维码即可加群！

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《Python用 tslearn 进行时间序列聚类可视化》。

点击标题查阅往期内容

K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

KMEANS均值聚类和层次聚类：亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数

PYTHON实现谱聚类算法和改变聚类簇数结果可视化比较

有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据

R语言多维数据层次聚类散点图矩阵、配对图、平行坐标图、树状图可视化城市宏观经济指标数据

r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化

Python Monte Carlo K-Means聚类实战研究

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

R语言谱聚类、K-MEANS聚类分析非线性环状数据比较

R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口

R语言聚类有效性：确定最优聚类数分析IRIS鸢尾花数据和可视化

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言k-means聚类、层次聚类、主成分（PCA）降维及可视化分析鸢尾花iris数据集

R语言有限混合模型(FMM,finite mixture model)EM算法聚类分析间歇泉喷发时间

R语言用温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图可视化

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析

R语言复杂网络分析：聚类（社区检测）和可视化

R语言中的划分聚类模型

基于模型的聚类和R语言中的高斯混合模型

r语言聚类分析：k-means和层次聚类

SAS用K-Means 聚类最优k值的选取和分析

用R语言进行网站评论文本挖掘聚类

基于LDA主题模型聚类的商品评论文本挖掘

R语言鸢尾花iris数据集的层次聚类分析

R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

R语言聚类算法的应用实例

http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247545983&idx=7&sn=239a8bff521de4673805796e470ec7fe

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

【专题】2024年8月数字化、数智化行业报告合集汇总PDF分享（附原数据表）

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言社区发现算法检测心理学复杂网络：spinglass、探索性图分析walktrap算法与可视化

matlab使用长短期记忆（LSTM）神经网络对序列数据进行分类

数据分享|逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化

【专题】2023年中国仿生机器人产业全景报告PDF合集分享（附原数据表）

R语言对巨灾风险下的再保险合同定价研究案例：广义线性模型和帕累托分布Pareto distributions分析

数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

【专题】2024年中国折叠屏手机市场与消费趋势研究报告合集PDF分享（附原数据表）

PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

分解商业周期时间序列：线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法

隐马尔可夫模型(HMM)识别不断变化的股市状况股票指数预测实战

Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化

Python用 tslearn 进行时间序列聚类可视化

Python用MarkovRNN马尔可夫递归神经网络建模序列数据t-SNE可视化研究

【专题】2024飞行汽车技术全景报告合集PDF分享（附原数据表）

PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像

共享单车数据可视化分析|附代码数据

【专题】2024年8月中国企业跨境、出海、国际化、全球化行业报告汇总PDF合集分享（附原数据表）

【专题】2023中国新母婴人群研究报告PDF合集分享（附原数据表）

【专题】2024年企业数字化人才实践研究报告合集PDF分享（附原数据表）

【专题】全球商用服务机器人市场研究(2023)报告合集PDF分享（附原数据表）

R语言中贝叶斯网络（BN）、动态贝叶斯网络、线性模型分析错颌畸形数据

【专题】2024年8月医药行业报告合集汇总PDF分享（附原数据表）

数据分享|R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

MATLAB中的马尔可夫区制转移(Markov regime switching)模型

R语言广义相加（加性）模型（GAMs）与光滑函数可视化

MATLAB中用BP神经网络预测人体脂肪百分比数据

R语言自然语言处理（NLP）：情感分析新闻文本数据

【专题】医疗AI行业研究报告PDF合集分享（附原数据表）

【视频讲解】Python贝叶斯卷积神经网络分类胸部X光图像数据集实例

【专题】2024年8月人工智能AI行业报告合集汇总PDF分享（附原数据表）

R语言ARMA-GARCH模型金融产品价格实证分析黄金价格时间序列

R语言贝叶斯METROPOLIS-HASTINGS GIBBS 吉布斯采样器估计变点指数分布分析泊松过程车站等待时间

R语言Apriori算法关联规则对中药用药复方配伍规律药方挖掘可视化

餐饮业的数字化突围：价格战下的转型与新生

【专题】2023年中国仿生机器人产业全景报告PDF合集分享（附原数据表）

R语言结构方程SEM中的power analysis 效能检验分析

Matlab马尔可夫链蒙特卡罗法（MCMC）估计随机波动率（SV，Stochastic Volatility）模型

【专题】2024年8月中国企业跨境、出海、国际化、全球化行业报告汇总PDF合集分享（附原数据表）

R语言时间序列：ARIMA / GARCH模型的交易策略在外汇市场预测应用

POT超阈值模型和极值理论EVT分析

R语言有极值（EVT）依赖结构的马尔可夫链(MC)对洪水极值分析

R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析

R语言分位数回归预测筛选有上升潜力的股票

灰色关联分析(Grey Relation Analysis,GRA)中国经济社会发展指标

Python复杂网络社区检测：并行谱聚类算法设计与多种算法应用实战研究

【专题】2024年中国游戏出海洞察报告合集PDF分享（附原数据表）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉