论文:机器能把握市场时机吗?收益预测中复杂性的优势
Portfolio Solutions Group. Can Machines Time Markets? The Virtue of Complexity in Return Prediction. AQR Alternative Thinking, 2024-05-06.
下载地址:
https://www.aqr.com/Insights/Research/Alternative-Thinking/Can-Machines-Time-Markets-The-Virtue-of-Complexity-in-Return-Prediction
机器学习技术可以通过捕捉预测变量(即信号)与回报之间的非线性来改进市场择时策略。为了识别这些非线性,必须估计更复杂的模型,即预测变量数量大于回报时间序列观测数量的模型。更复杂的模型能够更好地识别真实的非线性关系,从而产生更好的市场择时策略表现。这一“复杂性优点”的结果已经在三个实际的市场择时应用中得到验证:股票市场、债券市场和多空价值因子。这些性能提升是真实的,但幅度适中,这与机器学习应用于回报预测会带来渐进式而非革命性的财富增长的观点是一致的。
02 理论分析
2.1 预期回报中的非线性
本部分将用一个回报预测示例演示简单的线性模型与一个更复杂的非线性模型有何不同。假设预期回报由两个信号驱动,估值(即价值)和短期绩效(即动量)。当估值较低且短期绩效良好时,预期回报高于平均水平。图A以线性方式描绘了这种关系。但如果估值处于极端状态—所谓的“深度价值”—预期回报会有额外的影响。图B重点显示了这种非线性。信号和回报之间可能存在其他非线性关系,例如在极端情况下(市场非常便宜且短期绩效异常高)产生超出预期的回报影响(见图C)。
2.2 为什么更复杂的模型表现更好
复杂的回报预测模型通过捕捉信号(G)与未来回报(R)之间的非线性来更好地反映现实。实际上,非线性关系是未知的,必须估计。这可以通过估计一个大型、复杂的线性模型来完成,在该模型中,通过取原始信号(G)的非线性变换生成新的预测变量(S)。
在经验模型中,应该使用多少非线性变换原始信号,即P应该小还是大?如果我们首先关注市场择时预期回报目标,一个具有更多模型参数的模型将更好地近似真实回报预测模型。因此,具有更高P且更复杂的市场择时模型提供了更好的预期回报。这与图4一致,该图绘制了市场择时策略的预期回报作为模型复杂性的函数(C)。C等于模型中的预测变量数量(P)除以时间序列观测的数量(T)。当C小于1时,可以使用标准最小二乘回归。当C大于1时,最小二乘问题存在无穷多个解。因此必须采用正则化技术,如岭回归,来估计预期收益模型。岭回归通过收缩向预期收益预测中引入偏差。总体而言,随着更准确地近似真实模型所带来的好处超过了由收缩引起的偏差增加所带来的成本,预期收益的复杂性也在增加。市场择时表现不仅仅基于预期回报。收益必须经过风险调整。虽然直觉上更复杂的模型会提供更好的预期回报,但它们能否在合理的风险范围内做到这一点却并不明显。复杂的收益预测模型(数据点少参数多的模型)可能难以估计,从而增加了市场择时策略的波动性。当C≤1时,可以在表4中观察到这一现象。随着预测变量数量接近时间序列观测的数量,模型的贝塔系数的估计会变得不准确,市场择时的波动性会急剧增加。然而,随着模型复杂性的增加,岭回归的正则化技术能够识别出一组适合数据的贝塔系数,并且这些系数可以被高精度地估计。因此,当C大于1时,市场择时的夏普比率会随着复杂性的增加而提高,这就是所谓的市场择时中复杂性的优势。本文的股票收益预测模型采用了著名的Goyal和Welch关于收益可预测性的论文(见图表5)中研究的15个宏观经济和金融市场信号。为了识别这些信号与未来收益之间的非线性关系,作者采用了12个月的滚动岭回归估计,其中包含12,000个预测变量(即复杂度C为12,000/12 = 1,000)。因变量为1927年至2020年美国股票的超额收益,而12,000个预测变量则是通过对Goyal-Welch(GW)原始信号的15个变量进行非线性组合生成的。市场择时投资组合权重等于通过复杂的12个月滚动岭回归生成的预测收益。当预测收益为正时做多;当预测收益为负时做空。此外作者还构建了一个“简单”的择时模型,该模型同样根据市场收益对原始的15个Goyal-Welch(GW)预测信号进行12个月的滚动线性回归,然后根据预测收益进行做多或做空操作。该策略产生的夏普比率接近0.5。大部分表现无法用静态市场敞口来解释:评估比率(即阿尔法夏普比率)超过0.3,且阿尔法的t统计量接近3。虽然被动市场的收益分布呈负偏态,但市场择时策略的收益分布呈正偏态。换言之,该策略能够在不暴露于罕见、大幅的左尾事件的情况下,产生具有吸引力的风险调整回报。为了更透明地展示复杂的市场择时模型,图6绘制了市场择时投资组合权重和NBER衰退期的图表。该市场择时策略能够避开15次衰退中的14次。唯一的例外是1945年的8个月衰退期。值得一提的是,该策略实际上只做多头,即在衰退期之间做多,并在衰退期间退出市场。3.2 债券市场择时预测重复了上一节的预测,将因变量换成10年期美国国债的超额收益。使用复杂模型的样本外债券市场择时表现如表7所示。与股票市场择时结果一致,该策略产生的夏普比率为0.3。所有表现均无法用静态市场敞口来解释:评估比率同样为0.3,且阿尔法t统计量为2.4。债券市场择时策略的收益分布也呈正偏态。3.3 多空价值因子的择时最后,从择时传统风险溢价转向最著名的另类风险溢价之一—Fama-French多空价值因子(即HML)。这与前几节的设置完全相同,只是将因变量换成HML因子。该结果与择时股票和债券市场时发现的结果相似。HML择时策略产生的夏普比率和评估比率分别为0.4,阿尔法t统计量为3.4,且收益分布呈正偏态(见表8)。大型的复杂的模型显然有助于择时各种市场和多空因子。然而,这种复杂性并不意味着可以将任何预测变量随意纳入回归规模型。关键在于底层原始信号必须与真实的非线性预期回报模型相关。与真实预期回报无关的信号加入模型会降低市场择时性能,如表9所示。如果使用早期基于15个GW预测变量的复杂股票回报预测模型,最终可以实现0.47的市场择时夏普比率。但是,在原来的基础上加入噪声预测变量时,市场择时策略表现迅速下降,并且只包括一个噪声预测变量就会使性能下降近50%。使用小型简单的收益预测模型进行市场择时会忽略预测变量与未来收益之间的非线性关系,从而错失潜在收益。大型复杂模型克服了这一局限,能更准确地估计真正的预期收益模型,并产生更好的市场择时表现—这就是所谓的复杂性优势。这一复杂性优势原则在股票市场、债券市场和多空价值因子的择时中得到了验证。调整静态敞口后的市场择时夏普比率大约在0.3左右。因此,实施复杂模型带来的性能提升是真实的,但幅度有限,这与将机器学习应用于收益预测会带来渐进式而非革命性的财富增长的观点相一致。本文通过理论分析和实证研究,验证了复杂模型在市场时机中的优势。复杂模型能够捕捉预测变量和回报之间的非线性关系,从而提高市场时机策略的表现。尽管性能提升是显著的,但仍然是渐进的,符合机器学习方法在回报预测中的应用预期。未来的研究可以进一步探讨复杂模型在跨截面多因子组合构建中的应用。
如果有好的建议,请留言给我们。
"大于研究"是华南理工大学经济与金融学院、金融工程研究中心于老师和学生对外分享研究成果和学习的心得的公众号。
对我们的研究感兴趣的可以联系fofscut@163.com