时间序列预测神器Prophet【教程1】：极简入门案例

情感 2024-08-07 11:00 湖北

公众号：尤而小屋
编辑：Peter
作者：Peter

大家好，我是Peter~

今天给大家分享一个时间序列预测神器Prophet的简易入门教程。

什么是Prophet

Prophet是一种基于加法模型的时间序列预测工具，由Facebook的数据科学团队开发。它可以处理时间序列数据中的多种复杂性，包括趋势变化、季节性变化以及节假日效应等。

官网地址：https://facebook.github.io/prophet/docs/quick_start.html#python-api

在Prophet中，时间序列被分解为多个组成部分，包括趋势、季节性、节假日效应和误差项。这些组成部分可以分别进行建模和预测，然后将它们组合起来得到最终的预测结果。

Prophet的主要优点是易于使用和可解释性强。它提供了一种简单的接口，可以通过几行代码来训练和预测时间序列模型。同时，它还提供了丰富的可视化工具，可以帮助用户理解模型的行为和性能。

Prophet安装

Github官方地址：https://github.com/facebook/prophet

先安装prophet包：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple prophet

Windows系统中一次性安装成功。如果有安装失败，需要自行百度下。

导入库

import numpy as np
import pandas as pd
import os
import datetime 
import time
import re
np.random.seed(42)   

import plotly_express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import matplotlib.pyplot as plt
%matplotlib inline
# 设置支持中文字体
plt.rcParams['font.sans-serif'] = ['SimHei'] 
# 设置图像标题字体
plt.rcParams['axes.unicode_minus'] = False
import seaborn as sns
sns.set_theme(style="darkgrid")

import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.tsa.stattools import adfuller
from sklearn.metrics import r2_score,mean_squared_error,mean_squared_log_error

from prophet import Prophet 

import warnings
warnings.filterwarnings('ignore')

读取数据

df = pd.read_csv("https://raw.githubusercontent.com/facebook/prophet/main/examples/example_wp_log_peyton_manning.csv")
# df.to_csv("data.csv",index=False)  # 保存到本地
df.head()

该数据是佩顿.曼宁（美式橄榄球运动员）的维基百科的每日访问量的时间序列数据。

Prophet的输入数据一般都是两列：ds和y。其中，ds表示时间数据，y是我们希望预测的数值变量。

数据基本信息

df["ds"].min(),df["ds"].max()

('2007-12-10', '2016-01-20')

df["y"].min(),df["y"].max()

(5.26269018890489, 12.846746888829)

原数据可视化

fig = px.scatter(df,x="ds",y="y")

fig.show()

从图像中能够观察到，该数据有良好的周期性（季节性），y值在不断地变化。

数据对数转换

对数据进行对数转换：np.log

df["y"] = np.log(df["y"])

Prophet简易预测

Prophet遵循了sklearn的接口方式，在实例化Prophet对象的基础上可以使用fit方法进行训练，predict进行预测。

fit过程

p = Prophet()  
p.fit(df)

<prophet.forecaster.Prophet at 0x78c63111acb0>

构建预测数据

使用辅助的方法 Prophet.make_future_dataframe构建待预测的数据：

future = p.make_future_dataframe(periods=365)  # 指定预测一年的数据
future

predict过程

forecast = p.predict(future)
forecast.head()

forecast.columns  # 生成预测数据的全部字段信息

Index(['ds', 'trend', 'yhat_lower', 'yhat_upper', 'trend_lower', 'trend_upper',
           'additive_terms', 'additive_terms_lower', 'additive_terms_upper',
           'weekly', 'weekly_lower', 'weekly_upper', 'yearly', 'yearly_lower',
           'yearly_upper', 'multiplicative_terms', 'multiplicative_terms_lower',
           'multiplicative_terms_upper', 'yhat'],
          dtype='object')

选取部分我们关注的字段：原始ds、预测值yhat、预测最低值yhat_lower、预测最高值yhat_upper

forecast[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].tail()

预测可视化

调用plot方法进行预测结果的可视化：

p.plot(forecast)
plt.show()

预测成分分析

调用plot_components方法

forecast.columns

Index(['ds', 'trend', 'yhat_lower', 'yhat_upper', 'trend_lower', 'trend_upper',
           'additive_terms', 'additive_terms_lower', 'additive_terms_upper',
           'weekly', 'weekly_lower', 'weekly_upper', 'yearly', 'yearly_lower',
           'yearly_upper', 'multiplicative_terms', 'multiplicative_terms_lower',
           'multiplicative_terms_upper', 'yhat'],
          dtype='object')

p.plot_components(forecast)
plt.show()

可以看到每个成分的变化趋势。图1是根据trend画出来的，图2是根据weekly画出来的，图3是根据yearly画出来的。

在加法模型中，有如下关系式：

forecast['additive_terms'] = forecast['weekly'] + forecast['yearly']
forecast['yhat']  = forecast['trend'] +  forecast['additive_terms'] 
forecast['yhat']  = forecast['trend'] +forecast['weekly'] + forecast['yearly']

如果存在假期因素holidays，则有：

forecast['yhat']  = forecast['trend'] +forecast['weekly'] + forecast['yearly'] + forecast['holidays']

http://mp.weixin.qq.com/s?__biz=Mzg3ODY2MDAyMQ==&mid=2247560369&idx=1&sn=88c687009ddadfd9682344322f0edfda

尤而小屋

尤而小屋，一个温馨且有爱的小屋🏡 小屋主人，一手代码谋求生存，一手掌勺享受生活，欢迎你的光临~

最新文章

时间序列预测神器Prophet【教程3】：突变点预测

酷炫！10张BI可视化大屏模板，拿来即用！

机器学习：欧式距离、曼哈顿距离、切比雪夫距离

Neo4j，图算法最强总结！

畅销19万册！MySQL入门经典书重磅升级

机器学习集成方法总结：Bagging, Boosting, Stacking, Voting, Blending

最强图解微型神经网络：多层感知器MLP

李飞飞：一位备受尊敬的女性AI学者

基于深度学习的工业异常检测

具身智能，下一波AI浪潮！

数据别愁！14个机器学习电影数据集

总结7大数据分析方法

Python实现10种顶流聚类算法（附代码）

由浅入深！100个pandas数据处理技巧

超强图解Transformer

豆瓣9.6，多语言版本全球发行，AWS经典再升级！

刚刚！阿里巴巴公布“姜萍时间”调查结果公布

大模型&推荐系统，强强联手！

从小白到Kaggle Grandmaster的比赛技巧

基于支持向量机和SVM的人脸识别案例

热销17万册，《算法图解》第二版终于来了！

8种高级特征工程技术

jupyter notebook进阶使用：nbextensions

中国高校面积Top10

大模型应用开发：RAG入门与实战（文末赠书）

2024年诺贝尔物理学奖，颁给了搞AI的！

刚刚，诺贝尔化学奖，揭晓！AI是没有边界的！

上海交大ACM班总教头俞勇教授团队第4本重磅新作出版啦！

后悔没早看！985研究生必备论文配图法

突发！高通准备收购英特尔？

《李宏毅：深度学习详解》终于出版了！

pandas处理时间序列数据：基础知识点

IBM中国裁员赔偿N+3！千人被裁，中国研发部彻底关闭！

基于长短期记忆模型LSTM的股价预测实战

机器学习神器Scikit-Learn超强图解

豆瓣评分9.3，畅销29年，深受哈佛、剑桥、清华等名校青睐

时间序列预测神器Prophet【教程2】：饱和预测

吴恩达，YYDS!

吴恩达团队最新成果: ManyICL

销量超10万+，这3本书凭什么能得到Python之父推荐？

数据预处理10大必备技巧

时间序列预测神器Prophet【教程1】：极简入门案例

Python实现10种概率分布（附代码）

文末赠书|AI for science：人工智能驱动科学创新

深度学习10种优化算法原理及实现（附代码）

2024最值得关注的10个深度学习算法

国产大模型之光-Kimi AI

机器学习：基于scikit-learn进行特征工程

彻底弄懂Python单星号、双星号的使用

超强Pandas图解教程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉