【093】机器学习与基金研究(I):业绩预测一文中,我们简要梳理了几篇利用机器学习方法预测基金业绩的相关研究。值得注意的是,近年来,随着算力的提升,以文本为代表的大数据日益受到重视。文本分析方法在金融学研究中主要应用于公司定期报告(如美国的 10-K 报告,参见【075】叮!您的行业分类需要更新啦~)、电话会议纪要以及新闻等的研究并开始在资产定价上得以应用(参见【101】新闻叙事、文本分析与资产定价)。但值得注意的是,文本分析在基金研究中的应用也逐渐兴起了(如 Kostovetsky and Warner, 2020)。需要说明的是,最初园长计划将基金文本分析相关的研究写一个综述介绍,作为“机器学习与基金研究(II)”。但鉴于基金文本分析的已有研究主题各不相同,为更好地梳理不同研究的方法和贡献,接下来将相关研究单独作为一个系列,分别进行梳理。特别地,基金最为重要的文本是募集说明书(往往还会定期或不定期更新),而募集说明书中最重要、也最受关注的章节是主要投资策略(Principal Investment Strategies,后文简称文 PIS 章节)。PIS 章节对基金的主要投资策略进行简要的说明,可以帮助投资者更好地理解基金的投资策略,或者更通俗地说,基金可能通过何种方式赚钱。美国证监会(SEC)官方还出了如何阅读 PIS 章节的简要指南。既然 PIS 章节包含丰富的信息,那么,一个自然的问题是,是否可以像利用文本分析方法来对公司定期报告进行分析那样,应用文本分析方法对 PIS 章节进行分析,进而提取有用的信息,以理解基金的投资策略、行为,乃至预测基金的业绩呢?Simona Abis 对此进行了非常有趣的探索,并产出了非常丰富的研究成果。本公众号接下来将对其以及其他学者的相关研究进行梳理和介绍。作为这一主题的第一篇推文,本文着重关注最为基础的基金分类及在此基础上,对基金投资行为以及基金投资者行为的考察。利用文本进行分类在金融研究中已得到广泛应用。最为典型的是通过对上市公司定期报告中的产品描述的文本分析,进而计算文本相似度指标,可对上市公司所属行业进行分类,且这一分类比传统的行业分类在理解公司业务、预测行业内公司的基本面和股票收益的关联上更为有效(参见【075】叮!您的行业分类需要更新啦~)。类似地,PIS 章节提供了关于基金投资策略的说明,因此,一个自然的想法是,基于对 PIS 章节的文本分析,利用文本相似度指标,来对基金分类。Abis and Lines (2020) (AL (2020))便基于这一思路展开了研究。其做法如下:
首先,利用词袋法(bag-of-words)对 PIS 章节文本进行分词,得到一系列词干和双字母组(bi-grams)。在此基础上,去除常见的停词,
Abis, Simona, and Anton Lines. "Do mutual funds keep their promises?." Available at SSRN 3851861 (2020).
Hoberg, Gerard, and Gordon Phillips. "Text-based network industries and endogenous product differentiation." Journal of Political Economy 124.5 (2016): 1423-1465.
Kostovetsky, Leonard, and Jerold B. Warner. "Measuring innovation and product differentiation: Evidence from mutual funds." Journal of Finance 75.2 (2020): 779-823.