论文:利用恐惧/贪婪指标和机器学习来优化全球投资组合:基于Black-Litterman方法
Barua R, Sharma A K. Using fear, greed and machine learning for optimizing global portfolios: A Black-Litterman approach[J]. Finance Research Letters, 2023, 58: 104515.下载地址:
https://doi.org/10.1016/j.frl.2023.104515
本文将恐惧/贪婪技术(FG)指标预测作为投资组合构建过程中投资者情绪的代理,为 Black-Litterman 模型构建相对投资者观点。应用CEEMDAN-GRU深度学习模型来预测该指标,并应用XGBoost集成学习算法来预测 10 个国家 ETF 的回报,并为Black-Litterman模型创建相对观点。这些模型击败了几个基准预测模型,实证结果表明,在六个投资周期中,所提出的方法优于马科维茨、最小方差、等权重和风险平价策略以及其他四种 Black-Litterman 方法。
02 数据
本文专注于构建一个包含五个发达市场ETF和五个新兴市场ETF的多样化国际投资组合,以测试我们方法的普遍适用性。为此,我们收集了2008年1月1日至2022年12月31日期间的十只iShares MSCI国家ETF的日常价格、交易量和FG指标数据,见表1。
我们还收集了同一时期所有ETF的几种移动平均线和动量指标组合的日常数据,用作预测回报的预测变量,如表2所示。
我们使用美国3个月国库券利率作为无风险利率,使用MSCI世界指数作为市场指数。所有数据均从彭博终端获取。彭博提供的FG指标是一个振荡器,基于真实范围的余额计算,广泛应用于背离分析和识别趋势持续性,是买入强度与卖出强度的比率。
03 方法
3.1 Black-Litterman (BL) 模型
BL模型整合了两个来源的输入:资产的主观回报估计(投资者的观点)和市场均衡投资组合的隐含回报。回报的先验分布如下:
其中,𝜫表示隐含回报,τ是一个标量,作为“观点权重”参数,代表均衡回报的不确定性。τ值越小,市场均衡回报的权重越大,τ值越大,投资者的观点就越有分量,从而对预期收益产生更大的影响。𝜮是协方差矩阵。隐含回报𝜫可以通过反向优化得到,如下所示:
其中,λ是风险厌恶系数,wmkt是基准投资组合权重向量。我们得到风险厌恶系数如下:
其中,rmkt是市场预期回报,rf是无风险利率,σ2是市场投资组合的方差。后验回报估计(μBL)如下:
后验协方差矩阵(𝜮BL)如下:
P是一个K×N矩阵,每行指定一个观点,K表示观点数量,N表示资产数量。对于一个对x个资产有y个观点的投资者,观点矩阵如下:
绝对观点a和相对观点r如下所示:
Q是一个K×1矩阵,包含每个观点的主观回报估计。我们最初选择τ为0.1,然后通过将值校准在0.025到1之间进行敏感性分析,以作为稳健性测试。观点的不确定性形成一个正态分布的误差项向量(ε),如下:
误差项的方差ω代表观点的不确定性,并形成Ω,其中Ω代表一个K×K对角协方差矩阵,其所有非对角线位置均为零,因为模型假设观点彼此独立。我们遵循He和Litterman(2002)的计算方法:
在进一步的稳健性测试中,我们使用Idzorek(2007)的过程构建了BL投资组合的替代公式,该过程提出了一种不同的技术来确定观点中隐含的置信水平,并展示了如何将隐含的置信水平结构与投资者对每个观点指定的0%到100%的置信水平结合起来,以确定Ω的值。整个过程τ保持恒定,不影响μBL。Ω的对角元素是基于投资者指定的置信水平进行计算的,导致投资组合倾斜度大约等于基于100%置信度的权重向量与市场均衡权重向量之间的差异(w100%−wmkt)乘以投资者指定的置信度(C):
其中,Tiltk是由第k个观点(N x 1列向量)引起的近似倾斜,Ck是第k个观点的置信度。如果没有其他观点,由观点引起的近似推荐权重向量如下:
其中,wk%是基于第k个观点引起的倾斜的目标权重向量(N x 1列向量)。
3.2 带自适应噪声的完全集成经验模式分解(CEEMDAN)
经验模型分解(EMD)是一种有效的方法,它通过将金融时间序列分解成若干个固有模式函数(IMFs),每个固有模式函数代表原始信号在不同时间尺度上的特定特征,从而将噪声从金融时间序列中分离出来。然而,EMD存在模式混合的问题,当IMFs没有被很好地分离时,会导致过拟合和重建误差。为了克服这些问题,Torres等人 (2011)提出了CEEMDAN算法,通过向输入信号引入自适应噪声的概念,然后多次将带噪声的信号分解为IMFs以创建多个IMFs的实现,从而消除了模态混叠并显示出可忽略的重建误差。本文介绍了CEEMDAN分解FG指标系列的步骤如下:
步骤1:我们将高斯白噪声序列wi(t),标准差为ε(用于设置每个分解阶段的信噪比)加到原始FG指标序列FG(t)上,如下所示:
其中,I表示实现的次数。
步骤2:我们在每次实现后对FGi(t)进行EMD,以获得第一个IMF,IMF1(t):
该第一阶段的残差,r1(t)由下式给出:
步骤3:我们定义Ej(·)为通过EMD获得的第j个IMF的操作符。我们获得第二个IMF如下:
相应的残差如下:
步骤4:对于接下来的阶段,我们计算第k个残差如下:
第(k+1)个IMF可以如下获得:
步骤5:我们重复步骤4,直到残差分量不再能够被分解,从而无法再提取更多的IMFs,最终获得K个IMFs。最后,原始的FG指标序列可以被分解为IMFs和最终残差的总和R(t):
3.3 门控循环单元(GRU)
GRU神经网络是由Cho等人(2014)引入的RNNs的一种变体。与其他RNN架构(如长短期记忆网络LSTM)相比,GRU在保持相同精度的同时,模型参数更少,训练速度更快,具有动态调整信息流的更新门和决定是否考虑先前隐藏状态的重置门。以下方程解释了GRU的工作原理:
其中,σ是sigmoid函数,ct−1表示先前的隐藏状态,xt表示当前输入,ut是更新门,rt是重置门。wu和wr分别是更新门和重置门的权重矩阵。候选隐状态 ̃ct如下:
其中,w表示重置门的权重矩阵,⊙表示逐元素乘法。当前时间步的最终输出由以下方程给出,其中ct表示隐藏状态向量:
3.4 极端梯度提升(XGBoost)
XGBoost 是Chen和Guestrin(2016)提出的基于梯度提升树的集成机器学习算法。XGBoost 通过将多个弱学习器集成为强学习器来遵循加法过程,并使用K个回归树进行预测:
其中,pi是预测值,f表示树空间F中的一棵树,K表示回归树的数量,xi表示第i个实例。XGBoost通过包含正则化模型来有效解决过拟合问题。要优化的目标函数如下:
其中,l是损失函数,Ω是惩罚项,其中γ和λ是控制树复杂度的参数,T是树的叶子数量,w表示内部分裂的树权重。通过参考先前文献,本文将树的数量设置为300,并将其余的超参数保持为默认值。
3.5 预测评估参数
本文使用平均绝对误差(MAE)和均方根误差(RMSE)两个指标来确定FG指标和回报预测模型的准确性。指标值越小,表示模型预测得越准确。
其中,n表示总观测值,pi表示预测值,ai表示实际值。
04 实验结果
本文使用Python3.9以及TensorFlow, scikit-learn, PyEMD, XGBoost和PyPortfolioOpt库进行计算。对于预测任务,我们将数据集分为六个时期,每个时期包含十年的数据,其中90%用作训练集,剩余的10%作为测试集,具体划分如图1所示。
4.1. 恐惧/贪婪(FG)指标预测
在进行神经网络训练之前,我们将FG指标系列标准化到0到1的范围内。为了确定GRU神经网络的最佳超参数,我们应用了网格搜索算法来找到实现最佳模型性能的组合,最终选择的组合如表3所示。
此外,我们选择“Huber”作为损失函数以处理异常值,并选择五天作为回望期。表4报告了在六个测试集中,各个模型对FG指标进行单步预测的预测情况。
我们观察到,与典型的传统计量经济学模型ARIMA和前馈深度学习模型MLP相比,GRU在所有六个时期实现了最低的RMSE、MAE值以及最低的标准偏差。与GRU相比,CEEMDAN-GRU的平均RMSE降低了44.64%(2017年)、45.06%(2018年)、43.31%(2019年)、49.80%(2020年)、46.51%(2021年)和44.47%(2022年),这充分说明了CEEMDAN的好处。这一结果证明了去噪和神经网络相结合对于预测复杂的金融时间序列是一种非常有效的技术。总体而言,我们的CEEMDAN-GRU混合模型为所有六个时期提供了最准确的预测,突出了其稳健性。
4.2 回报预测
表5显示了所有模型对每个测试集的单步预测日回报结果。我们使用表2中的技术指标作为预测每个ETF日回报的预测变量。在训练之前,作为特征缩放的一部分,将指标标准化到-1到1的范围内。XGBoost表现出色,在所有六个时期实现了最低的平均RMSE和MSE值以及最低的标准偏差,表现优于所有其他模型。这一发现为实证文献做出了贡献,即集成机器学习模型优于基于回归的模型,特别是当使用技术指标作为预测变量时。
4.3. 投资组合构建和评估
本文将图1中的六个测试集视为每个一年的投资期,因为大多数投资者具有中长期视角,并遵循买入并持有策略。我们利用 10 只 ETF 的资产组合进行投资组合优化,图2展示了我们的BL模型过程。
我们使用CEEMDAN-GRU模型预测的每个ETF的FG指标作为技术策略来创建相对BL观点,前40%的情绪相对看涨的ETF表现优于后40%的情绪相对看跌的ETF,其幅度由XGBoost模型预测的回报决定。本文忽略卖空,并考虑交易成本为50个基点,最后使用夏普和索提诺比率作为投资组合评估度量。
表6显示了每个投资周期的投资组合性能评估。BL-FG(标准)模型组合与八个基准策略相比,每个时期的夏普和索提诺比率都是最高的。BL-FG(Idzorek)模型中的观点的置信水平来自于通过XGBoost模型预测的回报的样本外R2,结果表明,BL-FG(Idzorek)模型构建的组合也优于所有基准策略。2018年全球市场陷入困境,主要原因是美国和中国之间的贸易紧张局势,2022年因俄乌战争引发的全球经济放缓,导致了高通胀和地缘政治不安。大多数投资组合策略在2018年和2022年的表现都是负的,然而,我们提出的方法即使在这两年的动荡中也取得了正的表现。
我们还对所有BL模型的参数τ(tau)进行了敏感性分析,范围从0.025到1,如表7所示,这是对BL-FG(标准)方法的稳健性检验。
我们观察到,BL-FG(标准)组合在六个投资周期的所有τ值中,与所有其他BL模型相比,仍然实现了最高的预期回报和夏普比率。这一发现证明了提出的BL-FG方法稳健且优于先前文献中用于生成观点的所有其他传统BL方法,这表明机器学习可以是创建BL观点的优越工具,与计量经济学方法相比,相对BL观点更好地融合了投资者偏好,结果还表明投资者情绪预测是指导投资决策的有价值的工具。
05 结论
本文首先证明了基于机器学习的方法是生成Black-Litterman(BL)模型主观观点的有价值的工具。结合去噪技术和深度学习可以实现出色的金融时间序列预测,而集成学习算法能很好地模拟回报与多个预测变量之间的关系。其次,本文展示了在构建相对BL观点时考虑投资者情绪的重要性,这可以带来更优的表现,并超越了不考虑投资者情绪的其他基准策略。未来的研究可以将方向放在考虑更好的投资者情绪代理上,超越技术指标,例如使用深度自然语言处理技术提取定性情绪信息,以及通过卷积神经网络从图像中识别情绪,以构建更实用的相对投资者观点。
如果有好的建议,请留言给我们。
"大于研究"是华南理工大学经济与金融学院、金融工程研究中心于老师和学生对外分享研究成果和学习的心得的公众号。
对我们的研究感兴趣的可以联系fofscut@scut.edu.cn