文献阅读荟-No.261-牛市和熊市的可预测性:预测美国股市区制(和回报)的新视角

财经   2024-07-10 10:01   广东  

论文:牛市和熊市的可预测性:预测美国股市区制(和回报)的新视角

Felix Haase, Matthias Neuenkirch. Predictability of bull and bear markets: A new look at forecasting stock market regimes (and returns) in the US[J]. International Journal of Forecasting, 2023, 39(2): 587-605.

下载地址:

https://doi.org/10.1016/j.ijforecast.2022.01.004


01 摘要
有关股票市场可预测性的实证文献主要受到模型不确定性和参数不稳定性的困扰。为了应对这一挑战,我们提出了一种结合降维、区制转换模型和预测组合的新方法来预测标准普尔 500 指数的超额收益。首先,我们使用不同的主成分分析技术汇总了 146 个常用宏观经济和金融变量的每周信息。其次,我们使用主成分作为预测因子,估计了具有时变过渡概率的马尔可夫转换模型。第三,我们将模型集中在预测群组中,以规避模型风险,并评估不同规格的实用性。我们的每周预测能及时对制度变化做出反应,以参与恢复或防止损失。这也反映在与几个基准相比,风险调整后的性能指标有所提高。然而,在考虑股票市场回报时,我们的预测并没有超越普通基准。不过,在经济衰退或市场下跌时,它们确实增加了统计价值,特别是经济价值。
02 方法
考虑到降维技术、区制转换模型和预测组合在预测股市动态方面的成功经验,我们提出了一种将这些方法结合起来的新程序。面对包含宏观经济和金融市场变量的大型实时数据集,我们首先通过不同的主成分分析(PCA)技术将维度降低为几个潜在因子。我们采用了传统 PCA 和稀疏 PCA,其中一些变量的载荷被设为零。此外,我们对传统 PCA 和稀疏 PCA 都采用了软阈值法,从而得到了两组额外的目标主成分。其次,利用主成分作为预测因子,我们估算了具有时变转换概率(TVTP)的 MS 模型,以便在单一步骤中识别和预测制度。为此,我们考虑了两种规范。一方面,我们使用一般规范,对条件均值转换进行建模(规范 A)。另一方面,我们使用限制性规范,在这种规范中,只有周期是可预测的,而收益则遵循(与周期相关的)随机漫步(规范 B)。由于高度参数化的模型在预测准确性方面往往不如简化模型,因此我们限制了每个模型的大小,使其只包含一个主成分(或可观测的预测因子)。这些不同的 MS 规格和 PCA 技术(或可观测预测因子的使用)组合产生了大量模型,我们将这些模型组合成几个预测集群(根据收缩方法和模型规格)。图 1 概述了我们程序中的各个步骤,下面将对这些步骤进行详细说明。
2.1. 步骤 1:数据汇总
由于数据的可用性越来越高,投资者面临着如何选择相关预测因子的问题。理论上的考虑在这方面可能会有所帮助,但有一定的限制,也存在大量的潜在变量。由于许多协变量与未观察到的状态变量(如商业周期或投资者情绪)之间存在很大的相关性,因此建议对变量进行有效过滤,以涵盖相关性并消除潜在噪音。PCA 是一种以简洁方式捕捉相关信息的极具吸引力的方法。少量的成分通常就足以捕捉数据中的大部分变化,从而显著降低原始数据集的维度。
2.1.1. 传统 PCA 和稀疏 PCA
传统 PCA:主成分捕捉许多(潜在)相关预测因子,这些预测因子的均值为零,方差为一。假设 X 是一个 T × K 的潜在预测因子矩阵,其中行数 T(t = 1, 2, ... , T)表示时间维度,K(k = 1, 2, ... , K)表示横截面维度。通过对 X 进行奇异值分解,我们可以得到主成分:
主成分为 Z = UD,其中 U 代表单元矩阵,D 代表奇异值对角矩阵。V 是一个 K × K 的特征向量矩阵,其中第 k 列代表第 k 个成分的载荷。通常情况下,少量正数 q 分量就足以聚合 X 中的信息,这样我们就能以最小的信息损失(q ≪ min(K, T))换取大幅降维。选择前 q 个归一化主成分作为相关因子 f 来预测股市制度和回报。
稀疏 PCA:传统 PCA 的一个缺点是主成分基于所有变量,这往往导致缺乏可解释性。稀疏 PCA 使用收缩方法将某些变量的载荷减小为零,从而获得更直观的解释,并降低过度拟合的风险,同时又不会损失太多捕捉到的方差。我们将优化视为一个正则化回归问题。假设我们考虑前 q 个主成分,让 xt 成为 X 的第 t 行。我们进一步表示 A 为 q×K 正交矩阵,元素 A = [α1, α2, ... , αK ];B 为 q×K 稀疏权重矩阵,元素 B = [β1, β2, ... , βK ]。然后,我们考虑下面的优化问题,λ > 0:
2.1.2. 软门槛方法
传统 PCA 和稀疏 PCA 的另一个缺点是,它们在构建因子时不考虑目标变量。软阈值法对数据进行预选,以获得目标预测因子。我们对软阈值的实现沿用了 使用了弹性网(EN)方法。
β 相当于 EN 估计值,λ1 和 λ2 为非负超参数,用于平衡 LASSO 和岭罚的影响。在我们的研究中,我们使用非零 β 来选择相关的预测因子。
2.2. 步骤2:马尔可夫区制转换模型
从基本转换模型开始,rt 表示标准普尔 500 指数相对于3个月国库券的超额对数收益率,St 表示股票市场的不可观测状态。那么,非线性收益动态可描述为:
假设均值和方差取决于当前的市场区制St,MS 模型就能复制金融时间序列的典型事实,如肥尾、波动集群和不对称。假设区制变量 St 遵循离散的一阶马尔科夫链。也就是说,当前市场机制 j 仅取决于之前的机制 i。我们将该模型称为具有时间恒定过渡概率(TCTP)且无外部预测因素的 MS 模型,并将其作为下文的基准之一。大多数论文将转移概率视为随时间的常数,忽略了这些概率会受到基本条件变化的影响。在本文中,我们将转换过程建模为依赖于宏观金融条件zt−1。
规范A:在一般规范中,我们假设标准普尔 500 指数的超额收益遵循 MS 模型,具有可预测的均值和制度过程:
zt-1 是文献中提出的可观测预测因子,或者是利用上一小节所述不同技术获得的主成分。为了建立转换概率的动态模型,我们使用 logit 链接函数。在我们的应用中,我们考虑两个区制,区制 0 对应牛市,区制 1 对应熊市。
规范B:鉴于规范A的广泛制度依赖性,过度拟合可能是一个问题。出于这个原因,我们还考虑了一个受限模型,该模型只关注切换过程,而回报遵循(依赖于状态的)随机游走。通过在规范A中设置约束βst=0,我们得到了受限规范B。
预测:MS 模型的一个吸引人的特点是识别和预测可以一步完成。利用滤波方法,对 j 进行一步预测:
Ωt 表示第 t 期的信息集,Pr(St = i|Ωt ) 表示过滤概率,该概率使用贝叶斯规则递归更新。为简化符号,我们将 pt+1定义为预测的熊市概率,将 (1 - pt+1) 定义为相应的牛市概率。
最后,区制预测可用来预测回报率。根据与区制相关的预期 E[rt+1|St+1 = j],收益率预测 rt+1 由以下概率加权平均值给出:
2.3. 步骤3:预测组合
区制预测:假设我们有M个区制概率预测 pt+1,m。这就产生了以下预测组合问题:
回报预测:给定m个回报预测rt+1,m,集合回报预测可以表示如下:
在这种情况下,我们必须决定包含预测的数量 M 及其权重 Wm。在我们的应用中,单个预测被组合到一些预先指定的群组中。我们形成聚类的方式是为了能够评估各种聚合技术和 MS 模型规格选择的实用性。因此,我们在两个维度上进行了区分:(i) 预测因子的选择(可直接观测或使用四种不同的 PCA 技术估算),(ii) MS 规范(规范 A 或规范 B)。接下来,我们必须确定预测Wm的单个权重。为此,我们采用两种不同的方法:
综上所述,我们一共计算了20个预测组合。这个数字来自五个预测因子聚类(可观察预测因子和四种不同的PCA技术)、MS模型的两个规范(平均值和转换与仅转换)以及两种不同的聚合技术(简单平均值与BMA)。表1总结了不同的规范、聚类、模型和预测组合技术。
03 数据
我们的数据集由美国的每周数据组成。股票市场以标准普尔500指数为代表,根据股息和股票分割进行调整。我们考虑了滞后回报R、股息价格比DP、波动率指数VIX、期限利差TS和信用利差CS、采购经理指数PMI和方差风险溢价VP。期限利差定义为10年期和3个月美国国债之间的差额,信用利差定义为穆迪评级的Baa相对于Aaa公司债券收益率的超额收益率,方差风险溢价定义为VIX平方和过去22个交易日5分钟回报平方和之间的差额。
另外,关于潜在预测因子,我们考虑了一大组146个变量来预测制度和回报。这包括几类变量:债券收益率、期限利差和信用利差、滞后回报、技术指标、行业回报、基于市场的风险指标、估值比率、基于调查的关于宏观经济变量/收益及其离差的预期、情绪指标和宏观经济基本面。所有变量要么被证明是经验相关的,要么可以从实践的角度推荐。
债券市场反映了市场参与者对增长前景、未来利率、预计通胀和当前避险情绪的预期。从收益率曲线中提取的信息,特别是期限利差,是实体经济衰退的可靠预测因素。因此,我们考虑了所有可用期限的政府债券收益率以及不同期限的各种利差和伦敦银行同业拆借利率(LIBOR)。我们还考虑了穆迪的公司债券利差和TED利差。作为额外的预测因素,我们考虑了标准普尔500的已实现方差。此外,我们通过使用标普500的隐含波动率指数VIX来使用期权市场的信息。我们通过从最近22个交易日已实现的股市方差中减去VIX的平方来提取所谓的方差风险溢价。最后,我们使用其他指标来捕捉风险认知的变化,如黄金价格和西德克萨斯中质原油(WTI)价格。
我们还利用基于调查的预期作为预测指标。Consensus Economics 每月都会向银行和研究机构的分析师询问他们对宏观经济的预期。作为预测因子,我们采用了个体对宏观经济变量向前1年预期的一阶矩和二阶矩,以及向前3个月和 12 个月的利率预期。宏观经济预期由卖方分析师的盈利预测、盈利预测修正以及机构经纪人估算系统(Institutional Brokers Estimate System)提供的盈利预测离散度作为补充。此外,我们还采用了情绪指标、若干消费者信心指数作为预测指标。为了捕捉更广泛的宏观经济预期,我们采用了谘商会的领先综合指数和采购经理人指数。最后,我们大致考虑了与 Chen(2009)相同的标准宏观经济变量,以便将以前的研究结果纳入我们的分析。
当前估值水平通常与股市动荡有关。因此,我们的数据集中包括股息价格比、盈利价格比、10年盈利价格比和派息率。此外,我们使用的技术指标与 Neely 等人(2014 年)提出的技术指标相同。此外,我们还将收益率的短期和长期移动平均值(1个月和12个月)纳入我们的预测集,并对其进行等权或指数加权。可以说,价格 "过高 "是未来收缩的主要原因,这表明估值比率或历史回报与熊市风险正相关。此外,技术指标发出的信号在实践中具有高度相关性,反映了心理层面。
我们还使用了证券价格研究中心数据库中34个行业投资组合的回报。此外,我们还计算了金融动荡指数以及吸收率。这两种措施都是检测极端情况的流行选择。金融动荡指数表明了历史相关性结构和极端价格变动的趋同和分歧。吸收比可以被视为系统风险的代表。
我们的样本跨越1989年11月17日至2021年5月7日期间。我们的样本外实时训练是使用最近的864周进行的。相应地,估计MS模型的第一个训练集在2004年10月15日结束。从这一天开始,我们采用一个递归方案,窗口不断扩大,以预测美国的制度和回报。在所有情况下,我们都依赖周末数据(如果数据以更高的频率可用)。每个变量都被转移到其发布日期,我们考虑数据修订以确保实时视角。
04 样本内结果
4.1. 牛市和熊市的分类
对于牛市或熊市的确切特征并没有统一的定义。一般来说,股市收缩是与较高波动相关的持续价格下跌。然而,对于这样一个时期应该持续多长时间,或者价格下跌的力度应该有多大,目前还没有达成共识。我们遵循文献的日期规则来评估我们的实时分类预测。其基本思想是在没有任何分布假设的情况下识别标准普尔500股票价格中的局部峰值和低谷。确定的极值点标志着股票市场的转折点,高(低)点和低(高)点之间的时期反映了熊市(牛市)。我们遵循Lunde和Timmermann(2004)的测定规则。
图 2 和表 2 显示了基于 LT 筛选原则识别出的牛市和熊市中标准普尔 500 指数的对数价格。跌幅最大的是 2007-2008 年的全球金融危机(-49%),而互联网泡沫破裂(2000 年 3 月至 2001 年 9 月)标志着持续时间最长的熊市,达 78 周。最近的 Covid-19 崩溃(2020 年 2 月至 3 月)是历史上最短的收缩期,但却是价格下滑幅度第三大的时期。
4.2. 数据聚合
为了利用由潜在预测因子组成的高维数据集的信息,我们采用了四种不同的 PCA 技术,将信息聚合成少数几个成分并过滤掉噪声:(i) 传统 PCA,(ii) 稀疏 PCA (SPCA),(iii) 目标 PCA (TPCA),(iv) 目标稀疏 PCA (TSPCA)。表 3 显示了所选成分的数量和全样本知识下解释方差的比例。
05 样本外结果
我们使用递归预测程序,通过扩大窗口来捕捉 2004 年 10 月 22 日至 2021 年 5 月 7 日的股市动态,共得出 864 项预测。我们的样本外时期始于长期的牛市(见表 2)。从 2007 年 10 月开始,我们共有 14 个转折点,我们的模型旨在实时预测这些转折点。我们的整个方法(PCA 估计、MS 模型和预测组合)始终应用于每周更新的训练样本。第一个训练集使用 1989 年 11 月 17 日至 2004 年 10 月 15 日的可用信息来预测 2004 年 10 月 22 日的区制和回报。最后一次预测使用的是截至 2021 年 4 月 30 日的信息。 
5.1. 区制预测
表 4 显示了我们的预测相对于移动平均线和简单 MS 模型的统计性能。就二次概率得分(QPS)而言,所有建议的模型都优于 MA 模型和带有 TCTP 的 MS 模型。此外,所有预测(A-OBS-BMA、A-PC-BMA、B-OBS-BMA 和 B-PC-BMA 除外)的 AUC 统计量都优于带 TCTP 的 MS 模型。总准确率高达 81.0%(B-OBS-AVE 和 B-SPC-BMA),熊市准确率高达 77.3%(B-PC-AVE)。然而,在分类指标上,我们的预测无法持续超越这两个基准。不过,在预测熊市(牛市)方面,它们的表现优于 MA(带有 TCTP 的 MS 模型)。
表 5 显示了在不同衰退过程中发现转折点的速度有多快。以包含 TCTP 且不包含外部预测因素的 MS 模型为基准。举例来说,最佳模型可以毫不延迟地识别出全球金融危机的开始和结束。从 2020 年 2 月底开始,Covid-19 崩溃也被归类为熊市,4 月中旬重新进入熊市。与表 4 给人的印象相吻合,TCTP 非常适合检测熊市。即使是我们最好的预测也只能与其表现相媲美(见 "牛市 → 熊市 "一栏)。然而,我们的方法的一个关键优势是能够及时识别从熊市到牛市的转折点,因为我们的最佳模型在将市场转换为牛市时的延迟时间从未超过四周(见 "熊市 → 牛市 "一栏)。
5.2. 回报预测
表 7 显示了收益预测的统计性能。在整个样本外期间,R2的值为负值(A-TPC-AVE 和 A-TPC-BMA 除外),无法拒绝R2≤0 的零假设。符号预测率介于 55% 和 58% 之间;76% 至 83% 的正收益预测正确,负收益预测准确率介于 21% 和 30% 之间(排除异常值 B-OBS-BMA 预测,该预测预测了 94% 的正收益和 7% 的负收益)。
06 结论
本文利用宏观金融变量的高维数据集,提供了一种以周为基础预测股市制度的可行方法。由于股市预测尤其受到参数不稳定性和模型不确定性的影响,我们的方法结合了降维技术、制度转换模型和预测组合的优点。我们全面概述了带有主成分和时变转换概率的马尔可夫转换模型的经验用途。我们的最佳周区制预测使用了(有针对性的)稀疏主成分马尔可夫转换模型和时变转换概率。它们适用于及时应对趋势变化,参与回温或防止损失。然而,在考虑股市回报时,我们的预测在统计上并没有超过普通基准。收益预测的表现不如区制预测并不令人惊讶。预测股市的大趋势显然比提供点预测更容易,尤其是在每周的基础上。

讨论时刻:
      这篇论文是第一篇将MS模型与TVTP和几种PCA技术应用于预测牛市和熊市的论文,为几篇股票市场预测文献做出了贡献。为了从“大数据”构建股票预测模型,本文建议使用收缩方法,提供了对提取因子的更直接的解释,并且在预测中特别有吸引力,可以减少噪声而不会丢失大部分捕获的方差。所以,强调了稀疏方法结合主成分分析可能会为预测提供更好的性能。



如果有好的建议,请留言给我们。

"大于研究"是华南理工大学经济与金融学院、金融工程研究中心于老师和学生对外分享研究成果和学习的心得的公众号。

对我们的研究感兴趣的可以联系fofscut@scut.edu.cn



大于研究
大于研究是华南理工大学金融工程研究中心的老师和学生对外分享研究成果和学习的心得的公众号。对我们的研究感兴趣的可以联系fofscut@scut.edu.cn。
 最新文章