【094】基于回归斜率的因子溢价估计与因子模型

学术   财经   2022-07-26 18:25   四川  
已有研究中构建因子的标准方法是通过组合分析(portfolio sort),即在截面上对所有股票按照给定的特征排序分组,进而用高(低)特征组合构建多空组合,并用该多空组合的收益代表当期的因子收益(参见 BetaPlus 小组的书《因子投资:方法与实践》)。但组合分析通常最多能控制两个额外的公司特征(即三重分组),从而有着明显的局限:
  • 首先,不少公司特征之间有着不低的相关性,组合分析构建的多空因子往往难以解释。例如,依据 BM 分组构建的价值因子可能并不仅仅反映了价值特征对股票收益的影响,因为价值和动量往往负相关(Asness, Moskowitz and Pedersen, 2013)。

  • 其次,更为重要的是,由于没有充分排除其他特征的影响,通过组合分析构建的多空因子往往有过高的波动率。根据投资组合理论可以证明,这意味着据此得到的因子溢价估计会偏低,从而可能无法有效识别出具有显著风险溢价的因子。事实上,已有的 ad hoc 因子模型大都包含不少溢价不显著的因子。例如,在 FF6 和 中,都有一半的定价因子是不显著的。近年来,这一还引出了更大的争论,即给资产横截面定价的因子到底是不是没有显著的溢价,从而背离了经典的 APT 理论?(此处应该 cue 一下川总)

为此,FF (2020) 自己站出来提出应该通过截面回归的方法来估计因子溢价(参见川总的推文 Which Beta (II) ?),即在每一期,用资产收益对滞后的 FF5 因子对应的公司特征(规模、BM、盈利和投资)回归,来估计当期的因子收益。但值得注意的是,FF (2020) 中作为被解释变量的是构造 FF5 时序因子模型的 18 个分组组合(规模与 BM/盈利/投资分别作 2x3 分组各得到 6 个组合,共 18 个组合),原因是其目的是比较截面回归方法是否可以获得比 FF5 时序模型更好的估计。
越来越多的研究已经开始拥抱基于资产收益对公司特征的截面回归来估计因子溢价这一方法(例如,Jegadeesh et al., 2019)。不仅如此,这些研究往往还支持直接使用个股作为测试资产(即被解释变量),而非使用组合,以尽可能地保留更多信息。与此同时,近年来大量研究表明,有非常多的公司特征可能影响股票收益,ad hoc models 看起来并不是很妥当(参见川总的推文Farewell,ad-hoc 多因子模型)。如果要引入截面回归方法来估计因子溢价,我们该选择哪些公司特征呢?
结合上述不同方向的文献,一个基本的想法是:利用机器学习和贝叶斯方法来筛选应该保留哪些公司特征,进而用资产收益对选出的公司特征(当然,要滞后)回归,来估计因子溢价。这样得到的因子溢价应该都非常显著,且用这些因子构建的因子模型应该可以更好地解释资产的表现。CLPZ (2022) 正是沿着这个思路进行的新工作。值得一提的是,其中三位作者,也的确分别参与了上述两支文献。

1. 截面回归系数作为因子

为了估计风险溢价,CLPZ 参照已有研究选取了 50 个常用的公司特征。进而在 月末,估计下述截面回归:
其中, 是股票 的收益, 是公司 的第 个特征在前一个月的值(经过了标准化处理,均值为 0,标准差为 1)。 期的公司总数。由于特征已经标准化,回归系数 便代表特征 月的溢价。
为了说明基于大量特征进行回归估计的因子溢价的优势,CLPZ 首先比较了通过上述方法估计的 FF6 模型对应的 5 个公司特征的溢价,以及仅纳入这 5 个特征时的截面风险溢价估计,和经典的 FF6 因子模型中,不同因子之间的相关性。表 1 报告了相关结果。可见,总体而言,Panel A 中基于 50 个特征的回归得到的风险溢价估计之间的相关性要显著更低。
表 1: 不同估计方法下的五因子相关性. 数据来源:CLPZ (2022).

2. 选择因子

有了因子溢价估计还不够。为了构建因子模型,还需要确定纳入哪些公司特征。最简单粗暴的方法是逐个尝试,但这意味着 种组合,看起来并不可行。为此,借鉴已有研究(主要是 KNS (2020) 和 CZ (2020)),CLPZ 提出了一个两步法来筛选应被纳入因子模型的因子。
这里的基本思想是不预先假设应该选取哪些因子,转而利用机器学习和贝叶斯方法让数据说话。具体来看,令 表示由上述截面回归得到的 50 个因子加上市场因子。为了估计风险溢价,施加下述限制条件 。因此,需要估计下述模型:
给定因子,可以安全地假定误差项在时序上是独立的。而为了保证厚尾分布下的稳健性,则不能假设正态分布。相反,CLPZ 假定误差项服从自由度为 的多元 t 分布,其中, 固定为 6 以确保相比正态分布,误差项的分布呈现出显著的厚尾特征。此外,误差项均值为 0,协方差则为
这里我们感兴趣的关键参数是 SDF 的因子载荷(factor loadings):
表示样本数据,并令 分别表示似然函数和先验,则根据贝叶斯定理可以很容易得到后验 (可能需要按某个调节系数调整)。虽然这一后验不能直接用于后续的分析,但可以据此进行 MCMC 模拟,从而得到 (例如,20000)次随机抽样:
进而可得到 个随机样本中 的估计,并用于学习 。特别地,根据这 个估计,可以为每一因子估计后验的分位数,进而判断哪些因子的溢价是显著不为 0 的。为尽可能排除错误发现,CLPZ 非常保守地选择了 0.99 的置信度,并筛选出了 15 个因子。由于正则化以及上述基于回归斜率的因子之间的低相关性,上述估计非常有效率,可以很容易地扩展至更多的特征和因子中。
但到这里并没有结束。为进一步排除可能的错误发现,CLPZ 利用 CZ (2020) 提出的方法,对上一步选出的因子(记为 )进行了进一步的筛选。具体来看,将 分为两组,其中一组包含真实的定价因子(),另一组则是可以被 定价,但不在 SDF 中的因子()。通过穷尽所有可能的分组组合(共 32,767 种可能),找到最优的因子组合。
表 2 报告了表现最好的 10 个模型。而表现最好的模型则包含了 15 个因子中的 13 个。但从最后一行不同模型的对数边际似然率来看,这些表现不错的模型的表现其实是非常接近的。为了得到更为稳健的结果,CLPZ 将是真实模型的几率不小于最优模型的 1/8 的模型都纳入进来(经过简单的计算,这一条件等价于对数边际似然率不高于最优模型的对数边际似然率加 1.95)。因此,CLPZ 选出了前 8 个模型。在此基础上,CLPZ 最后选择了这 8 个模型都包含的因子,即:
表 2:表现最好的 10 个模型. 数据来源:CLPZ (2022).
筛选出上述因子后,CLPZ 在每一期重新用股票收益对这些特征进行截面回归,来估计因子溢价,并最为最终的结果。

3. CLPZ8 模型

CLPZ 使用上述 8 个筛选出的因子来构建 CLPZ8 因子模型。这 8 个因子覆盖了不同的维度:
  • 代表市场因子;

  • 分别代表买卖价差、市场 beta 和公司市值,这三个因子与交易摩擦有关。

  • 反映了投资风险;

  • 与盈利能力有关;

  • 与动量有关(但值得注意的是 1 月期短期动量,而非常见的 12-1 月动量);

  • 则与无形资产有关。

可见,总体上,CLPZ8 模型的基础特征与 FF6 等经典 ad hoc models 仍然紧密相关。同时也与近年来日益受到关注的无形资产和流动性等紧密的关联。而传统的 BM 则被抛弃了
接下来考察这个新的因子模型是否有显著更好的定价能力。限于篇幅,这里仅简要进行说明,详细结果和解读请参见原文。
首先来看样本外 Sharpe ratio。由于因子模型有更好的定价能力等价于有更高的样本外 Sharpe ratio,因此,考察样本外 Sharpe ratio 便是一个非常简单而直观的方法。表 3 的结果显示,无论基于过去多长时间的数据来估计预期收益和协方差参数,CLPZ8 因子模型都显著优于经典 ad hoc models,优势非常大。
表 3: 不同因子模型的样本外 Sharpe ratio. 数据来源:CLPZ (2022).
CLPZ 还进一步考察了因子模型相互之间的解释能力。特别地,他们引入了一个贝叶斯的视角,即在回归分析的基础上,计算给定的因子模型可以解释作为测试资产的特定因子的赔率(对应后验概率),而不是简单地看回归的 t 统计量,以得到更稳妥的结论。一般而言,如果赔率超过了 2:1,往往就是支持因子模型可以解释测试资产的强烈信号。
表 4 报告了用 CLPZ8 模型解释 3 个经典 ad hoc models(FF6, 和 DHS)中的因子的结果。 即表示上述赔率大于 2:1。可见,11 个因子中,除 模型中的预期投资增长()和 DHS 中的短期因子 PEAD 以外,其他的因子都可以被 CLPZ8 所解释。
表 4: CLPZ8 解释经典 ad hoc models 中的因子. 数据来源:CLPZ (2022).
表 5 则报告了上述 3 个 ad hoc models 解释 CLPZ8 中的因子的结果。可见,经典模型只能解释 2 个同交易摩擦有关的因子,但不能解释的因子多达 6 个。这表明 CLPZ8 模型考虑了不少不能被已有经典模型所解释的、被定价的风险。
表 5: 经典 ad hoc models 解释 CLPZ8. 数据来源:CLPZ (2022).

4. 结语

自 Fama and French (1993) 以来一直被采用的通过组合分析来构建定价因子的方法近年来受到了越来越多的挑战。陆续有研究指出应该利用横截面回归的方法来估计因子溢价,FF (2020) 自己也支持截面回归方法,但仍然保留了 ad hoc 的因子选择方式和利用分组组合作为测试资产的做法。
得益于机器学习方法在实证资产定价研究中日益广泛的应用以及贝叶斯方法越来越受到重视,新近研究开始尝试将机器学习方法和贝叶斯方法与截面回归结合,来筛选真正有风险溢价的因子并准确估计因子溢价。实际上,这正是上述两支不同文献的作者合作的成果。
此外,值得注意的是,这并非贝叶斯方法在因子溢价估计中的首次应用。例如,Bryzgalova, Huang and Julliard (2022) 也利用了贝叶斯方法和 51 个因子来筛选因子和估计因子溢价,但他们使用的是经典的多空因子。通过结合、对比这些研究,有助于我们更为深入地理解公司特征以及因子对股票收益的影响,从而在未来的研究和投资决策中做得更好。
全文完。祝您阅读愉快!
免责声明:本文在任何情况下都不代表投资建议。文中图表均来自相关文章、期刊,或互联网数据,版权归原作者和期刊所有,也不代表本公众号的意见。

References:
  • Asness, Clifford S., Tobias J. Moskowitz, and Lasse Heje Pedersen. "Value and momentum everywhere." Journal of Finance 68.3 (2013): 929-985.

  • Bryzgalova, Svetlana, Jiantao Huang, and Christian Julliard. "Bayesian solutions for the factor zoo: We just ran two quadrillion models." Journal of Finance forthcoming (2022).

  • Chib, Siddhartha, Yi Chun Lin, Kuntara Pukthuanthong, and Xiaming Zeng. "Asset pricing with slope factors: Model and evidence of outperformance." SSRN Working Paper (2022).

  • Fama, Eugene F., and Kenneth R. French. "Common risk factors in the returns on stocks and bonds." Journal of Financial Economics 33.1 (1993): 3-56.

  • Fama, Eugene F., and Kenneth R. French. "Comparing cross-section and time-series factor models." Review of Financial Studies 33.5 (2020): 1891-1926.

  • Jegadeesh, Narasimhan, Joonki Nohb, Kuntara Pukthuanthong, Richard Roll, and Junbo Wang. "Empirical tests of asset pricing models with individual assets: Resolving the errors-in-variables bias in risk premium estimation." Journal of Financial Economics 133.2 (2019): 273-298.


因子动物园
因子动物园:专注股票与基金的因子研究
 最新文章