Abstract
摘要
为什么用机器学习模型预测企业盈利?
准确的盈利预测可有效提升投资组合收益,甚至可穿越成长风格周期。我们做了一个理想化测试,假设每月可以准确预测上市公司尚未披露的下一报告期盈利情况,据此构建未来ROE改善的股票组合,回测后发现该组合可稳定战胜市场等权基准,统计期内(2010-02-02至2023-12-31)年化超额收益超过30%,即使成长风格走弱的2022-2023年期间,该组合仍稳定跑赢基准。
传统量化预测思路的问题:自变量单一、主要捕捉线性关系。传统量化预测思路包括盈利变化趋势外推和分析师预期数据预测。这两种预测思路自变量都相对单一,并且主要捕捉的是未来盈利与已知信息的线性关系。经过统计,我们发现这两种方式虽然具有一定的预测能力,预测胜率可以达到63-72%的水平(定义实际ROE改善幅度排名前50%为胜),但假阳性率较高,预测ROE改善的股票中,可能有20%以上股票实际ROE变化幅度排在全市场的后30%。
机器学习模型的优势:可整合多维度信息,捕捉非线性特征。海外文献中,将机器学习模型应用于企业盈利预测方面已有较多研究成果,主要观点认为,机器学习模型(尤其是树模型)通过整合多维度信息,捕捉预测目标与输入特征之间的非线性关系,可以有效提升盈利预测模型的准确率和鲁棒性。并且,树模型的特征重要性统计量也为模型的归因提供了线索。
XGBoost盈利预测模型:ROE变化方向预测胜率可达81%以上,XGBoost预测因子IC均值也达4.0%
XGBoost盈利预测模型:ROE变化方向预测胜率可达81%以上。我们以下一季度ROE变化方向为预测目标,对比了XGBoost、LightGBM、Random Forest、MLP模型的预测效果,发现XGBoost和LightGBM的预测准确率优于其他模型,预测胜率可达81%以上(定义实际ROE改善幅度排名前50%为胜),同时假阳性率也可降低至5%以下,显著优于传统量化预测思路效果(包括盈利趋势外推和分析师预期)。考虑到预测ROE改善的样本中,XGBoost模型精确度(Precision)相对较高,所以我们采用XGBoost构建盈利预测模型。
XGBoost预测因子IC均值达4.0%,选股有效性优于传统量化思路的预测因子。我们定义XGBoost盈利预测模型的预测概率为XGBoost预测因子,统计了该因子的IC表现,发现该因子全市场范围IC均值达4.0%,月度IC_IR达0.64,优于传统量化思路的预测因子。同时,沪深300范围内,该因子IC均值仍有3.0%,月度IC_IR达0.31,具有一定的选股能力。
XGBoost成长优选策略:年化超额收益率可达27%。经过测试,我们发现XGBoost模型预测ROE改善的股票池中,市场关注度相对较低、机构调研较多的公司样本内(2015-02-01至2023-12-31)收益表现较好,更有可能存在预期差。基于这一逻辑,我们应用低流动性因子和调研因子在XGBoost预测ROE改善的股票池中进行选股,构建了XGBoost成长优选策略。该策略在全市场范围内选股,年化超额收益率可达27%(统计期为2015-02-01至2024-10-31,以小盘成长指数为基准),但收益表现受小市值风格波动影响较大。如果将选股范围约束到总市值100亿元以上范围内,策略年化超额收益率仍可达20%,样本外2024年YTD收益率为15.2%。
Text
正文
量化视角下的企业盈利预测
准确的盈利预测可有效提升投资组合收益
现金流折现模型(DCF)是证券市场基本面研究框架的基石,从模型的定价过程可以看出,证券价格与上市公司未来现金流、未来盈利表现具有正相关关系。因此,上市公司未来盈利的边际变化往往是基本面研究人员所关注的重点,对上市公司未来盈利进行准确预测也是研究的关键目标之一。
我们不妨做一个理想化的测试:如果每月可以准确预测上市公司尚未披露的下一报告期盈利情况,构建未来ROE改善的股票组合(未来ROE提升幅度排名前10%的股票),每月末调仓,观察组合的历史收益表现。我们发现,未来ROE改善的股票组合收益表现可观,统计期内(2010-02-02至2023-12-31)年化收益率超过30%,相对市场等权基准具有稳定超额收益,可穿越风格周期,即使在2022-2023年期间,成长风格明显跑输价值风格的阶段,未来ROE改善的股票组合仍具有稳定的超额收益。
图表1:未来ROE改善的股票组合回测净值
注:截至2023-12-31;未来ROE改善的股票组合为未来ROE提升幅度排名前10%的股票
资料来源:Wind,中金公司研究部
图表2:国证成长与国证价值指数相对净值走势
注:截至2023-12-31
资料来源:Wind,中金公司研究部
传统量化预测思路:盈利变化趋势外推vs分析师预期数据
如前文所述,对于上市公司未来ROE变化的准确预测可以有效提升组合收益表现,那当前市场上有没有行之有效的预测思路呢?首先,行业研究员对于个股基本面信息的挖掘和研究,是目前比较主流的个股盈利预测的方式;其次,从量化的视角来看,通常将直接预测未来ROE改善幅度转换为预测未来ROE改善幅度在全市场内的排名,目前主要有两种实践方式,一个是基于过去的盈利变化趋势进行外推的思路,一个是利用分析师预期的盈利预测数据。
基于过去的盈利变化趋势进行外推是一种较为朴素的预测思路,认为过去一段时间实现ROE大幅改善的公司,未来仍可延续这一趋势。一个较为基本是思路是线性外推,即依据上期盈利变化情况外推预测未来;此外,我们曾在报告《基本面量化系列(3):业绩成长是否具有延续性中金:公司业绩成长是否具有延续性?》中提出,结合业绩增速和业绩增长的加速度(即利润二阶导)可以更好的刻画业绩变化的趋势,并提升对未来盈利的预测能力(以下简称为二次趋势外推)。
► 线性外推:从数据统计结果来看,这一预测思路是有一定效果的,如图4所示,我们取上一期ROE改善幅度最大的前10%的股票作为预测未来ROE改善的股票组合,发现该组合中有63%的公司下一期ROE改善幅度排全市场前50%。
► 二次趋势外推:二次趋势外推是在线性外推的基础上增加了业绩的二阶导,引入了简单的非线性信息。从统计结果来看,引入非线性信息是可以一定程度提升预测效果的,同样取预测改善幅度较大的前10%股票作为预测未来ROE改善的股票组合,该组合中有72%的公司下一期ROE改善幅度排全市场前50%。
分析师预期数据是卖方分析师在公开发布的研究报告中所表达的,对上市公司未来的盈利预测。量化研究中,我们常用分析师的一致预期数据作为未来盈利预测值。这一做法的优势在于可以有效利用分析师基于高频数据总结出来的具有前瞻性的观点;劣势在于其数据覆盖度将受到分析师研究股票范围的限制。我们取有分析师覆盖的股票中,分析师一致预期未来ROE改善幅度最大的前10%的股票作为预测未来ROE改善的股票组合,发现该组合中有65%的公司下一期ROE改善幅度排全市场前50%。
虽然量化预测思路均具有一定的预测能力,但同时也存在一定的风险:线性外推预测和基于分析师预期数据预测未来ROE改善的股票组合中,都有20%以上的股票下一期ROE改善幅度排名全市场后30%;二次趋势外推预测虽然有所改善,但仍有约13%的股票下一期ROE改善幅度排名全市场后30%,这些股票将给组合带来的调整风险
图表3:传统量化思路预测未来ROE大幅提升的股票中,未来ROE实际变化幅度分布
注:统计期为2015-05-01至2023-12-31;Group10为下一期ROE实际变化幅度在全市场排前10%
资料来源:Wind,朝阳永续,中金公司研究部
为什么考虑应用机器学习模型?
我们认为传统的量化预测模型存在两方面的共性问题:1)自变量相对单一,仅考虑了过去的盈利信息和分析师预期观点信息,其他丰富的财务信息、价量信息、调研信息等均没有应用;2)主要考虑了自变量与因变量的线性关系,而很多财务信息对企业未来盈利变化的影响并非是线性的,模型中应尝试挖掘和捕捉更多的非线性信息。
为了针对这两方面的问题进行改进,很多研究文献开始将机器学习方法引入盈利预测模型中。Kaiser(2019)[1]提出,通过多层次机器学习模型分析财务报表可以捕捉市场对未来盈利变化的反应,而Chen等(2022)[2]则通过更详细的财务数据揭示非线性预测因子的潜力。此外,Barboza等人[3](2017)在研究中使用了随机森林(Random Forest,RF)、Boosting和Bagging等机器学习方法对财务数据进行分析,并发现这些方法在破产预测中相较于传统统计方法表现出更高的准确性和鲁棒性。
本篇报告中,我们尝试将四种机器学习方法在ROE变化幅度预测模型中进行应用,包括:LightGBM、XGBoost、随机森林(RF)和多层感知器(Multi-Layer Perceptron, MLP)。这些模型均可整合多维度信息,捕捉非线性特征,并具有一定的归因能力(参考报告《机器学习系列(3):如何结合树模型与深度学习的优势》)。
图表4:不同机器学习模型对比
资料来源:中金公司研究部
综上所述,对未来ROE变化的准确预测可有效提升组合收益表现,传统量化预测思路虽然对未来ROE变化具有一定的预测能力,但存在假阳性率较高的问题。本篇报告尝试将机器学习模型应用于企业未来盈利预测的模型中,整合多维度的信息,有效捕捉预测目标与输入变量之间的非线性关系,以提升盈利预测的准确度,并优化选股组合收益表现。
基于机器学习的盈利预测模型
模型设计:通过分类模型预测上市公司ROE变化方向
Chen等(2022)[4]指出,企业盈利变化幅度的变异性较大,直接预测未来盈利水平难度较高。相较而言,我们将更容易预测的盈利变化方向作为预测目标,是更具有可行性的方式。同时,盈利变化方向的预测对于投资者来说也是一个更直接的投资决策信号。
因此,我们将企业尚未披露的下一季度ROE变化方向作为模型预测目标,以期通过机器学习模型的方式找出未来较大概率ROE上行的企业。具体的,我们将从预测时间及输入特征、训练方式等方面介绍预测模型的训练方案。
模型预测时间及输入特征
我们依据A股市场财务信息的披露节奏,综合考虑数据的及时性和完备性,确定了模型的预测时间为一年四次:
► 1月底:预测Q1的单季度ROE同比变化方向;
► 4月底:预测Q2的单季度ROE同比变化方向;
► 8月底:预测Q3的单季度ROE同比变化方向;
► 10月底:预测Q4的单季度ROE同比变化方向。
模型输入特征主要包括两部分,一部分是财务信息,为使模型可以全面捕捉上市公司过去财务信息与未来盈利变化的联系,我们以每次预测时已知的最新一期完全披露的报告期作为起点,将最近四个报告期的三大报表的各项科目均作为输入特征,并且将每个科目的上年同期数据(lag项)、同比差分数据(diff项)均纳入输入特征范围;另一部分是因子数据,为把握及时性更强的信息,我们将每次预测时最新的因子数据作为模型的输入特征,包括:价量因子、预期因子、调研因子等,具体因子构建思路可以参考附注表格。
预测标签(Y):我们的预测目标为单季度ROE同比变化方向,一个直观标签处理方式就是取单季度ROE同比差分大于0的为1,否则为0。但考虑到不同阶段下,受经济周期影响,上市公司ROE上行和下行的数量存在明显变化,而对于机器学习的分类模型而言,正负样本数量差异较大时,将较大程度影响模型拟合的稳定性。因此,我们采取一个替代的方案是取单季度ROE同比变化幅度排名前50%的为正样本,否则为负样本。
图表5:模型预测时间及输入特征
资料来源:中金公司研究部
模型训练方式
我们在不同的预测时间分别构建模型进行预测,并滚动过去6年的数据为历史样本,前五年为训练集,最近一年为验证集。以2024年4月底的预测模型为例,我们取2018-2022年的历史样本作为训练集,标签Y为当年Q2的ROE变化方向,输入特征为当年Q1及以前的财务信息和当年4月底的因子数据;2023年的样本作为验证集,标签Y为2023年Q2的ROE变化方向。所训练出来的模型将在2024年4月底,以2024Q1及以前的财务信息和2024年4月底的因子数据作为输入特征,预测2024年Q2的ROE变化方向。
图表6:模型训练方式的示意图(以2024年4月底预测模型为例)
资料来源:中金公司研究部
模型对比:XGBoost和LightGBM预测准确率相对较高
如何判断预测模型的有效性呢?通常情况下,分类模型的有效性可关注Accuracy、Precision、F1 score等刻画分类准确度的统计量,我们可以比较各个机器学习模型样本外预测ROE变化方向的准确度,并与基准模型进行对比,包括线性外推、二次趋势外推、分析师预期。
除此之外,我们还可以取模型预测ROE改善概率排名前10%的样本作为预测未来ROE改善的股票组合,并进一步统计该组合中未来ROE实际变化的数量分布。若该组合中,未来ROE实际变化幅度在全市场范围内排名靠前的股票数量占比越高,说明模型预测效果越好。
机器学习模型表现总体优于历史业绩趋势外推思路和分析师预期。我们以历年4月底预测Q2的ROE变化方向的模型为例,统计了几个机器学习模型在样本外的分类准确度。如下图所示,四个机器学习模型在Accuracy、Precision、F1_score统计量上,均明显优于基准模型。同时,不同模型预测ROE改善的股票组合中,基准模型有超过20%的股票实际ROE改善幅度为全市场后30%,但机器学习模型仅不到5%的股票存在这样的风险。
机器学习模型中,LightGBM和XGBoost模型有效性相对较好。不同机器学习模型对比,LightGBM和XGBoost的准确度统计量相对优于Random Forest和MLP。模型预测ROE改善的股票组合中,LightGBM和XGBoost模型的ROE实际变化幅度分布也相对较好,即:实际ROE改善幅度全市场排名前50%的股票数量占比高,超过85%,实际ROE改善幅度全市场排名后30%的股票数量占比低,仅4.7%左右。
考虑到正样本的精确度表现,XGBoost模型有效性略微优于LightGBM,因而本篇报告最后采用了XGBoost构建企业ROE变化方向预测模型。
图表7:不同机器学习模型样本外预测ROE变化的准确度统计
注:统计期为2015-04-30至2023-04-30
资料来源:Wind,中金公司研究部
图表8:不同机器学习模型预测ROE改善的股票组合中,未来ROE实际变化幅度的股票数量分布
注:统计期为2015-04-30至2023-04-30;Group10为下一季度ROE同比改善幅度排名前10%的股票
资料来源:Wind,中金公司研究部
模型预测效果及归因:各期预测胜率均超过81%
如前文所述,本篇报告采用XGBoost构建了ROE变化方向预测模型,在不同预测时间点,模型的预测准确度存在一些差异,如下图所示。
XGBoost模型预测ROE变化方向的样本外准确度较高。XGBoost模型预测ROE变化方向的样本外准确度大多在65%以上。如果取模型预测ROE改善的概率排名前10%的股票作为预测ROE改善的股票组合,不同预测时间的组合中均有超过81%以上的股票ROE实际改善幅度在全市场排名前50%。
1月底预测Q1的准确度相对较低。主要原因在于1月底时,上年年报的财务信息尚未完全披露,出于覆盖度的考虑,我们模型的输入特征还是以上年三季报的财务信息为主,与预测目标Q1间隔了一个季度时间,故而数据上的关联性弱一些,进而影响了模型有效性表现。
图表9:XGBoost模型预测ROE变化的样本外准确度统计
注:统计期为2015-01-01至2023-12-31
资料来源:Wind,中金公司研究部
图表10:XGBoost模型预测ROE改善的股票中,未来ROE实际变化幅度的股票数量分布
注:统计期为2015-01-01至2023-12-31;Group10为下一季度ROE改善幅度前10%的股票;预测ROE改善的股票定义为模型预测ROE改善的概率排名前10%的股票
资料来源:Wind,中金公司研究部
综上所述,我们用XGBoost构建了ROE变化方向的预测模型,基于模型预测未来ROE改善的概率选取前10%的股票构建预测ROE改善组合,不同预测时间均可达81%以上的胜率,相较传统量化预测思路有较为明显的提升。
应用:XGBoost成长优选策略年化超额收益率可达27%
在前面章节中,我们用XGBoost构建了未来ROE变化方向的预测模型,该模型对ROE变化方向的预测准确度较高。本章内容尝试将该模型的预测结果应用于量化选股,检验其因子有效性以及选股策略收益表现。
XGBoost预测因子:月度IC均值达4.0%
我们将XGBoost预测ROE改善的概率定义为XGBoost预测因子,在不同范围内统计了该因子的月度IC表现、IC_IR和多头年化超额收益率,并与传统量化预测思路的预测因子表现进行了对比(线性外推预测因子、二次趋势外推预测因子、分析师预测因子)。
XGBoost预测因子IC表现整体优于传统量化思路的预测因子,IC均值可达4.0%。如下图表所示,XGBoost预测因子在全市场、沪深300、中证500、中证1000范围内,IC均值和IC_IR表现均显著优于传统量化预测思路的因子,全市场范围IC均值可达4.0%,IC_IR也达0.64。沪深300范围内传统成长因子表现相对较弱,但XGBoost预测因子IC均值可达3.4%,IC_IR也达0.31,其多头组合相对沪深300等权基准的超额收益达9.6%。
图表11:XGBoost预测因子不同范围内的有效性统计
注:统计期为2015-02-01至2024-10-25;多头为因子值排名前10%的股票组合;超额收益的比较基准为等权指数
资料来源:Wind,朝阳永续,中金公司研究部
我们统计了2015年以来XGBoost预测因子与传统量化预测因子的相关性, 发现XGBoost预测因子与未来ROE实际变化因子相关性较高,达0.48;同时,XGBoost预测因子也与盈利变化趋势预测因子具有一定的相关性,相关系数约为0.53。
图表12:XGBoost预测因子与传统量化思路预测因子的相关性系数统计
注:统计期为2015-05-01至2024-10-31;
资料来源:Wind,朝阳永续,中金公司研究部
XGBoost成长优选策略:2024年持有电子行业股票数量相对较多
如前文所述,我们取XGBoost预测ROE改善概率前10%的股票构建预测ROE改善组合,组合内未来ROE实际改善的概率超过81%。一个比较直观的选股应用思路就是在这一胜率较高的ROE改善组合中,应用量化选股因子进行优选,从而构建XGBoost成长优选策略。
我们将中金量化团队所积累的选股因子在XGBoost预测ROE改善的股票范围内进行测试,观察各类因子该股票池范围内的有效性。为减小策略的过拟合问题,我们的因子测试统计期2023年以前的阶段,统计了各类因子在股票池范围内多头选股收益表现。
如下图表所示,流动性因子(liq_turn_std_6M)、调研因子(ISNum_6M、ISChange_6M)在预测ROE改善的股票池内,选取因子排名靠前的10%构建的股票组合年化超额收益均可达7%以上。说明在该股票池范围内,市场关注度相对较低(低流动性),机构调研较多的上市公司,更有可能存在预期差,未来收益表现较好。
图表13:各因子在XGBoost预测ROE改善的股票池中,多头选股组合相对净值
注:统计期为2015-02-01至2023-12-31;多头组合为股票池范围内因子排名前10%的股票组合
资料来源:Wind,中金公司研究部
基于以上统计,我们构建XGBoost成长优选策略的过程如下:
► ROE改善股票池:应用XGBoost预测未来ROE变化方向,取预测ROE改善概率较高的10%的股票构建ROE改善股票池;
► 量化因子增强:在ROE改善股票池范围内,基于liq_turn_std_6M、ISNum_6M、ISChange_6M(行业市值中性化处理后)三因子等权合成进行综合打分,全市场范围内取综合得分排名靠前的30只股票作为策略持仓。
► 100亿元市值限制:考虑到全市场范围内的具有低流动性因子暴露的股票往往市值偏小,组合收益容易受到小市值风格波动的影响,我们可以将股票筛选范围限制在总市值不低于100亿元的范围内,同样取综合打分前30名的股票作为市值限制后的策略持仓。
全市场范围内的策略年化超额收益率可达27%。我们以小盘成长(399376)指数为基准,回测了XGBoost成长优选策略的收益表现,如下图所示。全市场范围内,XGBoost成长优选策略在回测期内(2015-02-01至2024-10-31)年化收益率为24.4%,年化超额收益率达27.4%。样本外(2024年以来)受到小市值风格波动影响较大,虽然全年大部分时间相对收益净值依然是稳步向上的,但2024年YTD超额收益率仅2.4%。
总市值100亿元以上范围内的策略年化超额收益也有20%,2024年YTD收益率达15.2%。将选股范围限制在100亿元市值以上时,年化超额收益率略有降低,但仍有20%以上,分年度收益率在偏股型基金的排名也大多在前40%。样本外2024年YTD收益率达15.2%,收益表现较好。
图表14:XGBoost成长优选策略回测净值(全市场范围)
注:截至2024-10-31
资料来源:Wind,中金公司研究部
图表15:XGBoost成长优选策略回测净值(总市值100亿元以上范围)
注:截至2024-10-31
资料来源:Wind,中金公司研究部
附注
图表16:机器学习模型所应用的因子构造明细
资料来源:中金公司研究部
参考文献
[1] Amel-Zadeh, A., Calliess, J.-P., Kaiser, D., & Roberts, S. (2020). Machine Learning-Based Financial Statement Analysis. SSRN Electronic Journal.
[2] Chen, X., Cho, Y. H., Dou, Y., & Lev, B. (2022). Predicting Future Earnings Changes Using Machine Learning and Detailed Financial Data. Journal of Accounting Research, 60(2), 467-515.
[3] Barboza, F., Kimura, H., & Altman, E. (2017). Machine learning models and bankruptcy prediction. Expert Systems with Applications, 83, 405-417.
[4] Hajek, P., & Henriques, R. (2017). Mining corporate annual reports for intelligent detection of financial statement fraud–A comparative study of machine learning methods. Knowledge-Based Systems, 128, 139-152.
[5] Guo, R., Zhao, Z., Wang, T., Liu, G., Zhao, J., & Gao, D. (2020). Degradation State Recognition of Piston Pump Based on ICEEMDAN and XGBoost. Applied Sciences, 10(18), 6593.
Source
文章来源
本文摘自:2024年11月10日已经发布的《基本面量化系列(20):机器学习模型如何提升企业盈利预测的准确度?》
古翔 分析员 SAC 执证编号:S0080521010010 SFC CE Ref:BRE496
周萧潇 分析员 SAC 执证编号:S0080521010006 SFC CE Ref:BRA090
刘均伟 分析员 SAC 执证编号:S0080520120002 SFC CE Ref:BQR365
Legal Disclaimer
法律声明