目录:
自回归问题和自回归模型
自回归问题和自相关特性
自回归模型的数学表达
AR模型可以看成一种特殊的多元线性回归模型吗?
四种传统自回归模型及机器学习算法
(1)AR模型
(2)MA模型
(3)ARMA模型
(4)ARIMA模型
结合ACF以及PACF进行模型选择的示例
自回归模型在环境科学研究中的可应用的方向
封面图取自http://book.piginzoo.com/knowledge/quantitative/statistics/arma.html
在数据科学和统计学领域,自回归模型是一类非常重要的时间序列分析工具。它们在经济学、金融学、气象学和环境科学等领域都有广泛的应用。本文将深入探讨自回归模型的概念、常见的传统模型、适用于自回归问题的机器学习和深度学习算法,以及在使用这些模型时需要注意的事项,最后讨论如何在环境科学研究中有效地应用自回归模型。
本文与之前的文章:深度学习从入门到放弃:时间序列分析中的自相关函数(ACF)和(PACF)关联较强,建议一起阅读。
自回归问题和自回归模型
自回归问题和自相关特性
自回归问题通常出现在时间序列分析中,即当前的观测值与其过去的观测值存在相关性。换句话说,时间序列的未来值可以被其历史值所解释或预测。这种特性在经济指标、股票价格、气温变化等时间序列数据中十分常见。
自回归特性(Autoregressive Characteristics)是指时间序列中的当前值与过去的观测值存在显著的线性相关关系。也就是说,当前的观测值可以通过过去的一个或多个观测值的线性组合来解释或预测。具有自相关特性的时间序列特征:
自相关性: 时间序列的自相关函数(ACF)在滞后阶数较小的情况下显著不为零,并随着滞后阶数的增加逐渐衰减。 偏自相关性: 偏自相关函数(PACF)在滞后阶数超过模型阶数 ppp 后迅速衰减为零
自回归模型的数学表达
自回归模型(Autoregressive Model,简称AR模型)是一种利用时间序列自身的滞后值来进行建模和预测的统计模型。其基本形式为:
其中:
:时间 的观测值; :常数项; :模型参数,表示滞后项的系数; :自回归模型的阶数; :随机误差项,假设为白噪声。
自回归模型假设当前值 是过去 个滞后值的线性组合加上一个随机误差项。
白噪声定义:
零均值: ; 恒定方差: ,对所有 都相同; 无自相关性: (当 )。
AR模型可以看成一种特殊的多元线性回归模型吗?
自回归模型实质上是多元线性回归的一个特例,其中自变量是序列自身的延迟(历史)值。在多元线性回归模型中,模型通常表示为:
其中:
是因变量 是自变量 是回归系数 是误差项。
四种传统自回归模型及机器学习算法
(1)AR模型
如上所述,AR模型只考虑时间序列自身的滞后项。它适用于时间序列数据平稳的情况。
AR模型假设当前值是过去 个观测值的线性组合加上随机误差。
(2)MA模型
移动平均模型(Moving Average Model,简称MA模型)在时间序列分析中用于描述一个序列中随机误差项的线性组合对当前观测值的影响。它与简单的移动平均(如计算滑动窗口内观测值的平均)不同,MA模型中的“移动平均”是指对随机误差项的移动平均,而不是对观测值的平均。其数学表达式为:
其中:
:时间 的观测值; :常数项,表示时间序列的均值; :移动平均系数,表示第 个滞后误差项对当前值的影响; :时间 时的误差项; :移动平均模型的阶数,即考虑的滞后误差项数量; :当前的随机误差项,同样假设为白噪声。
MA模型假设当前值由过去 个随机误差项的线性组合和当前误差项决定。
关于误差项 :
在MA模型中, 表示过去时刻 的随机误差项。这些误差项是模型中的随机变量,在理论上被视为满足一定统计特性的随机过程。
误差项的特性:
不可观测性: 在实际数据中,误差项 及其滞后项 是理论上的随机变量,并不是直接可观测的量,因为它们代表的是模型无法解释的随机波动。 随机性: 误差项被假设为随机变量,具有零均值和恒定方差。
计算和估计:
模型拟合过程: 在对MA模型进行拟合时,误差项的具体数值需要通过估计得到。这通常使用迭代优化算法,如极大似然估计(Maximum Likelihood Estimation,MLE)或非线性最小二乘法。 残差的利用: 虽然误差项不可直接观测,但在模型拟合后,我们可以通过计算残差 来近似估计误差项,其中 是模型给出的预测值。
(3)ARMA模型
自回归移动平均模型(Autoregressive Moving Average Model,ARMA模型)将AR模型和MA模型结合起来,既考虑过去观测值的影响,也考虑过去误差项的影响。其数学表达式为:
其中:
的含义与AR模型相同; 的含义与MA模型相同。
ARMA模型适用于平稳的时间序列,当数据既表现出自回归特性又有移动平均特性时,ARMA模型能够更好地捕捉数据的动态。
(4)ARIMA模型
对于非平稳的时间序列,ARIMA模型(Autoregressive Integrated Moving Average Model),差分自回归移动平均模型,通过引入差分运算,使非平稳序列转化为平稳序列,再应用ARMA模型。
注意,积分,即Integrated
在这里指的是通过差分(differencing)来使时间序列变得平稳的过程。具体解析如下:
自回归(Autoregressive, AR) :表示当前值与它过去的一些值之间的线性关系。 积分 (Integrated, I) :通过差分操作(即取相邻观测值的差)来去除时间序列中的趋势和季节性成分,从而使序列变得平稳。差分的次数由 I 后面的数字表示,例如 ARIMA(p, d, q) 中的 d 表示需要进行 d 次差分。 移动平均 (Moving Average, MA) :表示当前值与过去的预测误差(或白噪声)之间的线性关系。
为什么是“积分”而不是“差分”:从名称看,选择“积分”而非“差分”可能是因为直接从英文单词“Integrated”翻译过来的结果。在统计学中,“Integration”用于时间序列分析时,通常指的是将差分序列重新整合至原始水平,因此,看上去“差分”是更准确的翻译。所以要注意,这里要进行的是差分而不是积分操作。
ARIMA模型的数学表达式为:
其中:
:经过 次差分后的时间序列值; 其他符号 的含义与ARMA模型相同; :差分次数,表示非平稳序列需要经过几次差分才能变为平稳序列。
差分 运算定义为:
其中:
:差分算子; :滞后算子,定义为: 。B即是 Backshift
ARIMA模型通常记为ARIMA(),其中 是自回归阶数, 是差分次数, 是移动平均阶数。
ARIMA模型示例:
如果时间序列需要一阶差分()才能达到平稳性,那么经过差分后的序列为:
然后对差分后的序列应用ARMA()模型,这就是ARIMA()。
结合ACF以及PACF进行模型选择的示例
假设我们有以下时间序列数据:
步骤:
计算样本均值 :
计算样本自相关函数 :
对于每个滞后阶数 :
计算偏自相关系数 :
使用递归方法,如Yule-Walker方程:
初始值:
递归计算:
对于 :
绘制ACF和PACF图:
将计算得到的 和 对应的滞后阶数 绘制成图。
依据图ACF和PACF图选择模型:
AR模型: PACF截尾,ACF拖尾。 MA模型: ACF截尾,PACF拖尾。 ARMA模型: ACF和PACF均拖尾。 没有合适模型:ACF和PACF均截尾。可能需要使用ARIMA模型
自回归模型在环境科学研究中的可应用的方向
气象预测:利用自回归模型可以对气温、降水量、风速等气象要素进行短期和长期预测,为防灾减灾提供科学依据。
空气质量监测:通过时间序列数据预测污染物浓度的变化趋势,有助于环境管理部门制定相应的控制措施。
水文分析:对河流水位、流量等进行预测,帮助水资源管理和防洪预警。
生态环境评估:预测生态指标的变化,如植被覆盖度、生物多样性指数等,为生态保护提供参考。
气候变化研究:分析长期气候数据,探索气候变化的趋势和周期性,为应对全球气候变化提供科学支持。
声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!
邮箱:environmodel@sina.com
若您认为有用,欢迎
将Environmodel设为星标,或
点击“在看”或“分享”给他人