【104】文本分析与基金研究(I):基于文本的基金分类

学术   财经   2023-05-15 20:02   四川  
【093】机器学习与基金研究(I):业绩预测一文中,我们简要梳理了几篇利用机器学习方法预测基金业绩的相关研究。值得注意的是,近年来,随着算力的提升,以文本为代表的大数据日益受到重视。文本分析方法在金融学研究中主要应用于公司定期报告(如美国的 10-K 报告,参见【075】叮!您的行业分类需要更新啦~)、电话会议纪要以及新闻等的研究并开始在资产定价上得以应用(参见【101】新闻叙事、文本分析与资产定价)。但值得注意的是,文本分析在基金研究中的应用也逐渐兴起了(如 Kostovetsky and Warner, 2020)。
需要说明的是,最初园长计划将基金文本分析相关的研究写一个综述介绍,作为“机器学习与基金研究(II)”。但鉴于基金文本分析的已有研究主题各不相同,为更好地梳理不同研究的方法和贡献,接下来将相关研究单独作为一个系列,分别进行梳理。
特别地,基金最为重要的文本是募集说明书(往往还会定期或不定期更新),而募集说明书中最重要、也最受关注的章节是主要投资策略(Principal Investment Strategies,后文简称文 PIS 章节)。PIS 章节对基金的主要投资策略进行简要的说明,可以帮助投资者更好地理解基金的投资策略,或者更通俗地说,基金可能通过何种方式赚钱。美国证监会(SEC)官方还出了如何阅读 PIS 章节的简要指南。
既然 PIS 章节包含丰富的信息,那么,一个自然的问题是,是否可以像利用文本分析方法来对公司定期报告进行分析那样,应用文本分析方法对 PIS 章节进行分析,进而提取有用的信息,以理解基金的投资策略、行为,乃至预测基金的业绩呢?
Simona Abis 对此进行了非常有趣的探索,并产出了非常丰富的研究成果。本公众号接下来将对其以及其他学者的相关研究进行梳理和介绍。作为这一主题的第一篇推文,本文着重关注最为基础的基金分类及在此基础上,对基金投资行为以及基金投资者行为的考察。
利用文本进行分类在金融研究中已得到广泛应用。最为典型的是通过对上市公司定期报告中的产品描述的文本分析,进而计算文本相似度指标,可对上市公司所属行业进行分类,且这一分类比传统的行业分类在理解公司业务、预测行业内公司的基本面和股票收益的关联上更为有效(参见【075】叮!您的行业分类需要更新啦~)。类似地,PIS 章节提供了关于基金投资策略的说明,因此,一个自然的想法是,基于对 PIS 章节的文本分析,利用文本相似度指标,来对基金分类。
Abis and Lines (2020) (AL (2020))便基于这一思路展开了研究。其做法如下:
  • 首先,利用词袋法(bag-of-words)对 PIS 章节文本进行分词,得到一系列词干和双字母组(bi-grams)。在此基础上,去除常见的停词,

  • 接下来,进一步去除在大多数文档中经常出现、从而信息含量较低的样板词。为此,对前一步得到的所有词干,组成可能的四字母组(4-grams),然后去除那些在全部文档中出现频率最高的 0.1% 的四字母组。接着进一步删除那些在超过 30% 的文档中出现过或仅在不足 5% 的文档中出现过的单个单词和双字母组。去除前者的目的仍然是删除那些信息含量低的样板词,而剔除后者则是为了避免算法过度看重那些仅偶尔出现在极少数文档中的无意义词汇并因此得到错误的结论。

  • 接下来便可构造语料的 tfidf 矩阵:其中,列代表不同的词,而行则代表不同的 PIS 章节,第 行、第 列为词 在文档 中的出现频率与包含词 的文档数之比,这一元素反映了词 在文档 中的独特影响。

  • 最后,采用 K-Means 聚类算法,对上述 tfidf 矩阵进行聚类。K-Means 聚类方法简单有效,但需要事先确定聚类数目。为此,AL (2020) 便利了 10 至 20 的取值区间,通过比较聚类稳定性和聚类密度,最终选择了聚类为 17 类。

这一方法的一个可能隐忧是没有较强的可解释性,即我们可能难以理解不同类型基金的投资策略及其差异。但 AL (2020) 通过绘制每一类基金的 PIS 章节的词云(word cloud)表明,这一基金分类是高度可解释的(参见图 1),包括按照市值分类(小盘基金、中盘基金和大盘基金)、按照投资理念和方法分类(专注长期投资的基金和量化基金)、专注不同行业和板块的基金等。
可见,这一基于文本的基金分类的确具有很好的可解释性和经济含义,同时,也不同于常见的按照晨星风格箱(或类似的市值—价值特征)的简单分类,AL (2020) 的基金分类更为具体、也就更具针对性,可能可以更为准确地刻画基金的投资策略和风险—收益特征。
图 1:不同类型基金 PIS 章节的词云图. 数据来源:AL (2020).
通过每月更新分类结果,AL (2020) 发现绝大多数基金的分类是稳定的:在样本期内属于不超过 5 个类型,且非常多基金一直属于同一个类型。在此基础上,一个更为重要的问题是:基金的实际投资行为是否与其 PIS 文本所宣称的类型一致呢?这一问题实际上也是已有文献中关于基金风格漂移的大量研究的基础。
为回答这一问题,需要界定何种情况下基金投资行为与其类型是一致的。由于基金分类是基于 K-Means 方法进行的,AL (2020) 提出了一个自然且符合逻辑的做法:考察基金的投资组合与其所属类别的中心基金的投资组合的距离。
具体来看,将属于某一类型的全部基金的持仓组合权重平均,得到该类型基金的核心策略(core strategy,)。在此基础上,进一步将除去基金 所属类型之外的其他类型的 core strategy 平均,得到其他基金的平均核心策略()。据此可考察基金 同两个核心策略组合的距离或偏离:
其中, 为基金 持有股票 的权重,而 为组合 G 持有股票 的权重。
接着进行以下回归:
如果基金 的确遵循其描述的投资策略,则上述回归中 应显著为负,即基金 的投资组合对其所属类型的核心策略的偏离应显著小于对其他类型核心策略的偏离。表 1 第 3 列展示了相关结果。结果表明:基金投资组合相对其所属类型核心策略的偏离的确显著更小,从而支持平均来看,基金是遵循其投资策略说明进行投资的。表 1 的第 2 行基于基金收益与相关核心组合的相似性来构建偏离度指标,并得到了类似的结果。
表 1:基金投资组合相对核心策略的偏离的影响因素分析. 数据来源:AL (2020).
一个有趣的问题是,基金为何会遵循其描述的投资策略呢?毕竟,当某个板块或策略处在风口上时,基金经理可能有动机改变其投资策略去追逐风口,以获取好的业绩和投资者的关注。AL (2020) 认为,基金经理遵循其描述的投资策略,实际上也是因为投资者行为带来的压力。
具体来看,基金投资者可以识别基金投资策略对其描述的投资策略(以所属类型的核心策略来表征)的偏离并对这些基金做出惩罚:将资金撤离基金。表 2 的结果支持了这一论点。无论从百分比资金流还是资金流金额来看,基金投资策略偏离其核心策略,都会导致下一月显著的资金外流,且控制了常见基金特征及基于经典的 DGTW 基金特征的组合偏离的影响后仍然显著。进一步的分析还表明,这一资金外流行为是高度持续的:在至少未来 9 个月,资金外流都高度显著。
表 2:基金投资策略偏离与基金资金流. 数据来源:AL (2020).
上述基金分类及基金通常遵循其投资策略进行投资的行为使得这一基金分类为评估基金业绩和能力提供了很好的基础。一只没有能力的基金应获得其所属类别的平均收益,因此,一只基金相对于其所属类别核心策略组合的超额收益则可归因于其能力。相应地,专业的基金投资者应根据这一超额收益来评判基金能力、进而做出投资决策。表 3 的结果显示,在控制了常见的基金相对于因子模型的 alpha 和相对于 DGTW 的经调整调整的超额收益后,基金相对于其所属类别平均业绩的超额收益(SPG-Adj Return)对基金资金流的预测能力仍显著为正,从而支持了前述论点。
这一发现其实有着挺重要的后果和影响:它表明作为一个整体,基金投资者会关注基金的投资策略,并能很好地理解基金的投资策略、据此采用恰当的 benchmark 来评价基金能力、做出投资决策。因此,它表明基金投资者在相当程度上是专业的、理性的,而非像最近的不少顶刊文章所宣称的那样仅仅在简单地追逐基金历史业绩(Ben-David et al.,2022)。
表 3:基金相对所属类别平均业绩的超额收益与基金资金流. 数据来源:AL (2023).
既然投资者能识别基金投资策略的偏离/漂移并对其做出惩罚,专业的基金经理也应知道投资者的这一行为特征,并相应调整其行为(反馈效应)。特别地,其他因素相同的情况下,如果基金面临资金外流,则基金经理应能理解这是投资者对其策略偏离行为的惩罚,从而其投资行为会加速收敛于其宣称的投资策略(所属类别的核心策略)。
为检验这一论点,进行如下回归:
其中,我们最为关心的是过去的资金流与基金投资策略偏离这一交互项的系数 。如果前述猜想正确,则 应显著为正:此时,负的资金流会使得基金投资策略偏离程度加速收敛。表 4 报告了相关结果。
首先,值得注意的是,表 4 第 1 行报告了 Divergence(SPG) (t) 的系数,所有系数都小于 1。这表明基金的投资策略偏离呈现出均值回复特征:平均来看,每一年会回复约 50%。
接下来再看最关键地资金流与投资策略偏离交互项的系数。结果显著为正,从而验证了前述猜想:基金经理会根据投资者行为调整自身的投资选择。值得注意的是,这一结果实际上也隐含了基金经理行为特征的不对称性:其他因素相同的情况下,当资金流为正时,基金投资策略的偏离程度会进一步扩大。其实这也非常符合直觉:结合表 3,这一情况通常发生于基金有显著的相对于同类基金的超额收益(SPG-Adj Return)时,这种情况下,基金自然有动力进一步坚持乃至加码当前的投资策略,从而进一步偏离其所属类型的核心策略。
表 4:基金经理投资策略偏离的持续性分析:反馈效应. 数据来源:AL (2020).
以上便是 AL (2020) 的核心分析方法和发现。当然,全文其实还有很多有意思的细节和进一步的稳健性分析。您如果感兴趣,可自行阅读原文。
总体来看,基于文本的基金分类这一想法虽然简单直观,但真正难的仍然是理清楚背后的故事。从 AL (2020) 的分析可见,好的分类可以帮助更好地度量基金的投资策略、进而分析基金的投资风格漂移,考察基金在何种程度上偏离了其宣称的投资策略,以理解基金投资者是否能有效理解基金的投资策略和行为并相应做出反应(惩罚)。在此基础上,还可进一步分析基金经理是否会对投资者行为做出合理的反应,以理解基金经理与投资者行为之间可能存在的反馈效应。以这一良好的基金分类为基础,这些研究都可自然而然地延展开来,形成一个有趣的故事,并帮助我们更深入地理解基金经理和投资者的行为,从而更有针对性地制定投资策略或开展进一步的研究工作。这也是我个人非常喜欢这一技术上看起来非常简单的工作的原因。
全文完。祝您阅读愉快!
免责声明:本文在任何情况下都不代表投资建议。文中图表均来自相关文章、期刊,或互联网数据,版权归原作者和期刊所有,也不代表本公众号的意见。
References:
  • Abis, Simona, and Anton Lines. "Do mutual funds keep their promises?." Available at SSRN 3851861 (2020).

  • Hoberg, Gerard, and Gordon Phillips. "Text-based network industries and endogenous product differentiation." Journal of Political Economy 124.5 (2016): 1423-1465.

  • Kostovetsky, Leonard, and Jerold B. Warner. "Measuring innovation and product differentiation: Evidence from mutual funds." Journal of Finance 75.2 (2020): 779-823.


因子动物园
因子动物园:专注股票与基金的因子研究
 最新文章