【093】机器学习与基金研究(I):业绩预测

学术   财经   2022-07-18 17:54   四川  
老早就想做一个关于利用机器学习方法进行基金研究的梳理总结。由于我们自己也在做一些相关的工作,所以迟迟没有动笔。最近川总和王熙老师翻译的芝加哥大学金融学教授 Stefan Nagel 的书《机器学习与资产定价》(参见川总的推文)正式上架,又在一个会议上听到了一篇非常有趣的相关研究,因此终于有了这篇推文。
由于机器学习在资产定价的应用近年来深入人心,关于机器学习在基金研究中的应用,最容易想到的自然也是利用机器学习方法来预测基金业绩,进而筛选基金。在这方面,有至少 3 项各具特色的已有研究(参见Update|基金研究:常识与趋势)。
首先,Li and Rossi (2020)(LR) 考察了一个非常自然的想法。我们知道股票市场上有大量异象,即公司特征对股票未来收益可能有着显著的预测能力。同时我们还知道基金本身也是一个股票组合,且我们知道基金的持仓(美国市场中基金会每个季度披露完整持仓,中国市场中则每半年度披露一次完整持仓,并在每季度披露十大重仓股相关数据)。因此,我们是否可以根据基金持股的平均公司特征来筛选基金呢?
LR 的答案是肯定的。参照股票市场异象研究的文献,他们选取了 94 个公司特征。在 月末,首先对每一特征在截面上排序分为 10 组,进而对基金 和特征 ,按照如下加权平均方式计算异象投资指标(AIM):
等于持股公司的特征的十分位排名按照基金持股权重加权平均。
在构建机器学习模型之前,LR 首先进行了单变量组合分析,检验各 AIM 指标本身是否对基金业绩有显著的预测能力。结果显示,94 个指标中,仅有非常少量的指标有显著的预测能力。这也就表明,虽然利用基金持股特征来预测基金业绩可能是可行的,但基金业绩与这些特征之间的关系更可能是非线性的
为此,为了充分刻画非线性关系并规避维数灾难问题(curse of dimensionality),以上述不同特征的 AIM 指标为输入,LR 训练了一个增强回归树(Boosting Regression Tree, BRT)模型,来对基金下一月的超额收益进行滚动拟合和预测。
结果显示,BRT 模型预测业绩最高的基金的等权组合可以获得 10.91% 的年化超额收益(t = 3.59),相对于 FFC4 因子模型的 alpha 同样显著:年化 2.88%(t = 2.16)。多空组合的表现则更为优异:超额收益和 alpha 分别为 6.68%和 7.46%,同样都非常显著。相比之下,线性回归方法下的多头(多空)组合的 alpha 为 2.29%(4.93%),且显著性弱很多(t = 1.81 和 t = 1.96)。
LR 进一步考察了哪些特征对预测基金业绩是重要的。最重要的 10 个特征分属两大类:动量与交易摩擦(Frictions),这与关于股票市场特征重要性的研究结论也较为一致。其中,最为重要的则是 12 月动量(划重点)。有趣的是这两个特征在全部 94 个特征中占比不足 27%。相比之下,占比近 30% 的无形资产相关特征(Intangibles),却无一进入最重要的特征之列。
除此之外,  LR 还进行了诸如业绩预测能力的时变性分析以及诸多稳健性分析,来为其分析结论提供了严谨的支撑,此处不再赘述。
其次,DeMiguel et al. (2021)(DGNP)则是另一篇重要的文献。这篇文章在方法上可能是最为简单的,但故事却并不简单。与 LR 不同,DGNP 仅使用基金规模、年龄等非常常见的基金特征以及基金的因子暴露等少量额外特征作为预测变量。乍看上去,这么简单的输入大概不会有太好的预测效果。但这实际上正是 DGNP 的卖点。
DGNP 的另一个卖点是他们着重关注多头组合,原因在于基金往往很难卖空,因此,对投资者真正有意义的是多头组合是否能赚到钱。他们使用 17 个简单的基金特征和梯度提升算法(Gradient boosting, GB)、随机森林(Random forest, RF)和弹性网络(Elastic net)三种简单的机器学习算法来考察,这样的简单特征与算法的组合是否有助于筛选有显著超额收益的基金。
与 LR 一样,DGNP 的答案是肯定的。他们发现利用 GB 和 RF 方法筛选预测业绩最好的 10% 的基金构建组合,都可以获得显著更好的样本外表现。他们还发现,实际上,只要能保留预测能力最好的 4 个基金特征,便可获得显著更好的表现。最后,非常重要的是,利用 RF 方法和简单基金特征构建的组合,相对于 FFC4 因子模型的 alpha 为 2.4%,与前述 LR 基于基金平均持股特征构建的组合 2.88% 的 alpha 非常接近。鉴于 DGNP 仅使用了少数非常简单的基金特征,这一结果颇为令人惊讶,也有着非常重要的启示:
  • 一方面,上述结果表明,简单的基金特征信息往往就包含着非常多关于基金未来业绩的信息。因此,为了更好地理解基金超额收益的来源,就需要同时考虑基金的投资组合以及基金本身的特征。

  • 另一方面,更为重要的是,由于大多数基金投资者是个人投资者,他们往往难以基于详细的基金持仓和股票数据进行复杂的计算和分析,但他们可以较为容易地获取简单的基金特征信息。上述结果表明,即便是较为不专业的个人投资者,也可以通过对易得的基金简单特征进行一定分析,来有效筛选基金,提升投资业绩。

而 Kaniel et al. (2022)(KLPvN)作为最新的研究,与前述两项研究相比,也有自己的一些特色:
  • 首先,与 LR 只考虑了基金持股加权公司特征和 DGNP 只考虑基金特征不同,KLPvN 同时考虑了持股加权特征、基金特征,以及基金公司层面的特征,其中,基金公司特征为相关基金特征按净资产加权而得。此外,他们还进一步将基金特征区分为基金动量和其他基金特征(例如,费率)两类。

  • 其次,LR 和 DGNP 使用的主要是机器学习方法,尤其是树模型。而 KLPvN 则着力于深度神经网络(与作者之一 Markus Pelger 此前关于利用深度学习研究资产定价的文章一脉相承)。

  • 再者,他们在构建分组组合时,除了等权组合,还考虑了基于预测的加权,以最大程度地利用模型的预测能力。具体而言,对于每一分组组合,用其中每一基金的预测收益减去该组基金的最低预测收益(即 ),进而按照   将基金权重之和重新标准化为 1。其实证研究中也发现,这一加权方法下的多空组合表现要更好。

  • 最后,KLPvN 对宏观因素在基金业绩预测中的表现进行了一些探讨。

详细的结果这里不再展开介绍和讨论。但 KLPvN 的结论非常有意思。他们经过仔细分析后认为,对于预测基金业绩,真正具有持久、显著的预测能力的变量只有两个:基金动量和基金资金流(Flow)。如果这一结论能得到后续更多研究的支持,基金业绩预测和基金投资领域恐怕会变得很艰难[笑]。
当然,他们的分析也许也不完全可靠。例如,他们虽然同样考虑了标准的六大类股票特征,但他们考虑的股票特征数量比 LR 和关于股票异象的已有研究要少很多(只有 46 个)。
值得注意的是,上述工作论文仍在持续更新、完善。例如,DGNP 和 KLPvN 在今年都有过更新。
最后,前述几项利用机器学习对基金业绩进行预测的研究都是 2020 年下半年之后首次发布的。而利用文本分析对基金说明书/定期公告进行分析的研究,则要更早、更多。这方面已经有不少在金融学 top 3 期刊发表或 R&R 的工作。事实上,由于(基于英文的)文本分析较为成熟,经济金融研究中早已大量采用相关研究方法。
相比业绩预测,基于文本分析对基金进行的研究涉及的内容更多,诸如基金分类、基金独特性、策略选择与风险识别,等等,其实相比业绩预测,可能要更为有趣。事实上,由于(基于英文的)文本分析较为成熟,经济金融研究中早已大量采用相关研究方法。后续我们将对此进行更多梳理介绍。

全文完!祝您阅读愉快!

References:
  • DeMiguel, Victor, Javier Gil-Bazo, Francisco J. Nogales, and Andre A. P. Santos. "Machine Learning and Fund Characteristics Help to Select Mutual Funds with Positive Alpha." SSRN Working Paper (2021).

  • Kaniel, Ron, Zihan Lin, Markus Pelger, and Stijn van Nieuwerburgh. "Machine-Learning the Skill of Mutual Fund Managers." No. w29723. NBER Working Paper (2022).

  • Li, Bin, and Alberto G. Rossi. "Selecting mutual funds from the stocks they hold: A machine learning approach." SSRN Working Paper (2020).


因子动物园
因子动物园:专注股票与基金的因子研究
 最新文章