文献阅读荟-No.287-因子择时:两阶段机器学习方法

2024-10-09 10:00   广东  

论文:因子择时:两阶段机器学习方法

DiCiurcio K J, Wu B, Xu F, et al. Equity Factor Timing: A Two-Stage Machine Learning Approach[J]. Journal of Portfolio Management, 2024, 50(3).

下载地址:

http://doi.org/10.3905/jpm.2023.50.3.132


01 引言
Fama和French(1992)的开创性研究引入了基于因子的投资概念,这是对Sharpe(1964)资本资产定价模型(CAPM)的多因子扩展,表明投资者可以通过关注影响资产定价和表现的特定因子来获得更高的收益。因子投资在过去十年中引起了金融界的广泛关注,包括规模、价值和动量等因子已成为现代投资组合构建的基础组成部分。
尽管已有大量研究探讨因子之间的长期收益差异,但相对较少的学术研究深入了解周期性风格回报变化背后的驱动因素,这为因子投资策略的进一步探索和完善提供了机会。战术性风格配置,即根据市场动态灵活调整因子暴露,仍是一个尚未得到深入研究的领域,更少有研究有效地探讨战术性风格配置策略是否以及如何能够提高风险调整后的收益。尽管通过择时这一维度来超越基准的能力仍存在争议,但了解因子在不同市场条件和经济周期下的表现,有助于投资者设计更稳健且适应性更强的投资组合。这催生了一个快速发展的研究领域,探索通过因子择时(即根据因子的预期表现系统性地调整暴露)来优化投资结果的潜在可能。
正如Ilmanen和Kizer(2012)所提出的,实现精准因子择时有潜力显著提高投资组合回报并降低风险。研究表明,资产类别多元化对投资组合的夏普比率只有适度的提升,而因子多元化由于因子之间的平均相关性非常低更能有效地降低投资组合波动性。尽管因子择时的好处显而易见,但准确预测因子表现的变化仍是一个巨大的挑战,许多投资者依赖直觉或临时方法来指导因子择时决策。本文的研究旨在为这一复杂问题提供替代方案,寻求为因子择时策略提供更可靠且基于数据的解决方案。

02 研究方法
图1展示了两阶段因子择时模型。第一阶段基于标普500指数最大回撤数据使用K-means对市场风险状态进行分类,生成反映不同市场条件的不同聚类,然后采用分类模型来预测生成的状态标签,最后使用基于决策树的特征重要性函数来明确各个市场风险状态的关键驱动因素。为了解决数据集不平衡的问题,本文采用过采样技术以创建一个平衡的数据集,从而最小化模型偏差。
第二阶段采用相对收益因子分类模型。数据集细分为多个子数据,每个子数据对应于第一阶段识别的市场风险状态。然后评估每个因子的月度表现,将表现最佳的因子标记为1,其余的标记为0。模型在宏观经济变量和金融动荡指标上进行训练,使用训练后的模型能够预测各因子超额表现,从而支持数据驱动的因子择时策略。为了进行样本外的测试,本文采用滚动窗口模型训练方法而不是使用扩展窗口,以增强模型的动态性。

03 特征选择与特征构建
3.1 数据
样本数据集从1987年3月至2023年3月,共计433个月度观测值。从Refinitiv Eikon Datastream获取与股票和国债收益相关的变量,从St. Louis Federal Reserve’s database获取宏观经济变量。本文选择一组关于通货膨胀、实际GDP增长、金融状况和政策预期的宏观经济信息的因子,初步特征选择考虑的25个宏观驱动因素(表1),6个股票因子(表2)。

3.2 金融动荡特征构建
Kritzman和Li(2010)提出了一种开创性的方法来检测市场系统性风险,引入金融动荡的概念,描述资产价格偏离其典型历史行为模式的状态。这种现象包括极端价格波动、相关资产脱钩以及不相关资产的趋同。识别金融动荡有助于更深入地理解市场动态以及与市场扰动相关的潜在风险。金融动荡计算为: 其中,  代表特定时间段  的金融动荡,  为时间段  的资产收益向量,  为历史收益的样本平均向量,  为历史收益的样本协方差矩阵。遵循Kritzman和Li的方法,本文采用来自十个标普500指数行业(信息技术、能源、金融、医疗保健、日用消费品、可选消费品、公用事业、工业、通信和原材料)的月收益,以及多种到期国债工具(12个月、2年和10年到期)的收益来构建金融动荡特征,如图2所示。

04 模型结果与特征分析
4.1 第一阶段
如前所述,第一阶段利用K-means聚类将标普500指数的回撤数据分为不同的聚类,采用肘部法确定最佳聚类数量为3。如图3所示三聚类方法(0代表市场处于正常风险状态,1代表市场处于调整状态,2代表市场处于熊市状态)有效区分了基于市场回撤数据的不同市场风险状态。采用无监督学习而非手动阈值进行风险分类有助于提供动态适应性,可以根据窗口长度和数据频率动态选择策略信号,从而实现更灵活和数据驱动的决策过程。
鉴于大部分市场数据(77.5%)属于正常风险状态,18.7%被归类为调整状态,只有3.8%被归类为熊市状态,本文采用了合成少数类过采样技术(SMOTE)来解决类别不平衡的问题,生成少数类别合成样本旨在平衡数据集。利用这些特征工程生成的数据,模型在预测显著的影子利率变化时达到了71%的交叉验证准确率。为了确定解释市场风险状态的四个因素的重要性排序,本文在随机森林模型框架下使用决策树的特征重要性函数。分析结果表明,金融状况(34.1%)和金融动荡(26.9%)是影响市场风险状态的主要因素。股权估值(19.7%)和政策预期(19.3%)也发挥了重要作用。
4.2 第二阶段
对于因子择时策略,本文选择了六个常见的股票因子,包括价值、成长、动量、低波动率、质量和小市值。为了简化分析并提升便利性,本文将熊市状态(仅占时间段的3.8%)合并到调整状态中。正如图4所示,在正常市场和调整市场状态下的交叉相关性相对所有市场状态下较低,这为使用市场风险状态作为第一阶段来识别表现优异的因子提供了实证依据。

在模型训练过程中根据每个市场状态子数据中的每月获胜因子进行标签分配。例如,如果某个月的价值因子表现最佳,将其标签设为1,其余因子的标签设为0。训练随机森林模型的过程采用滚动方式进行,以增强动态性并避免引入前瞻性偏差。图5展示了自2000年以来各因子的动态移动获胜概率,说明了各因子获胜的概率如何随着时间变化。分析从初始84个月的训练窗口开始,随后在数据集中滚动这一训练窗口。通过监控移动获胜概率,能够全面了解各因子的表现趋势,有助于在市场动态变化时做出明智且适应性强的因子择时决策。表3展示了分类模型在两种市场风险状态下的特征重要性。


4.3 组合模拟回测
本文开发了一个稳健的样本外测试框架,遵循两阶段模型设计。首先,使用1987年至2000年间的数据对模型进行训练,接着将训练样本根据不同的市场风险状态划分为子样本。在各风险状态下,分别训练模型来预测因子的相对表现。在每个样本外时间段内,首先预测当前的市场风险状态,基于这预测结果再估计每个选定因子在特定风险状态下的超额表现概率。

因子投资中常用的主要基准是“1/N”法,即对每个因子进行等权配置。本文采用的另一基准是商业周期方法,本文首先测量了整个训练样本中各商业周期阶段中每个因子的平均月度表现。然后使用这些平均表现数据,根据实时的宏观经济数据调整权重。因此最优配置是基于全样本的平均数据并结合最终的宏观经济数据确定的,样本外测试期间商业周期阶段的识别仅基于当时可用的信息,调整风险预算,采用15%的分配比例,对各因子权重进行修改。

相比之下,对于机器学习方法,虽然在实际操作中专业人士常常在训练过程中加入风险预算,但为了展示信号的有效性,本文直接使用每个因子的获胜概率作为其权重。通过比较自2002年以来的复合收益和每个月的超额收益(如图6所示),可以看到策略相对于市场指数、等权基准和商业周期基准的影响。值得注意的是,在大多数样本外期间,策略持续产生正向结果,绩效指标突显了此方法的稳健性和有效性,展示了其在生成有利超额收益的同时具备优异的风险调整后表现。


05 结论
理解因子的动态变化对因子轮动策略至关重要,已有学术研究成功建立了因子表现与宏观变量之间的相关性。然而,关键在于如何有效且系统地因子择时,以取得实际的成果。本研究利用宏观经济和金融市场数据,采用了一个两阶段的机器学习框架,开发出一种更具动态性的因子择时方法。该框架的灵活性允许在不同的时间频率下应用,并能测试更广泛的因子范围。最终提出了一种稳健且具有替代性的因子择时解决方案,具有在资产定价和投资策略中更广泛应用的潜力。此方法在准确预测市场风险状态和识别获胜因子方面具有有效性,表明其实际应用的价值。通过结合宏观经济洞察与机器学习技术,本研究为优化投资组合配置和提升投资决策开辟了新的途径,能够在瞬息万变的金融环境中带来更好的表现。

讨论时刻:
       本文提供了一种基于两阶段机器学习方法的因子择时思路,组合模拟回测的结果表明通过采用此方法将市场状态信息加入择时框架的方式确实具有稳健性和有效性,但本文仍存在一定优化空间,或许可以在模型以及特征选择上进一步完善此方法。


如果有好的建议,请留言给我们。

"大于研究"是华南理工大学经济与金融学院、金融工程研究中心于老师和学生对外分享研究成果和学习的心得的公众号。

对我们的研究感兴趣的可以联系fofscut@scut.edu.cn



大于研究
大于研究是华南理工大学金融工程研究中心的老师和学生对外分享研究成果和学习的心得的公众号。对我们的研究感兴趣的可以联系fofscut@scut.edu.cn。
 最新文章