混合频率量价因子模型初探-AI系列研究之四

文摘   2024-11-22 09:00   上海  

在前期的研究中,我们发现不同频率的量价信息对于构建综合量价机器学习选股模型相比于单一频率的量价数据有一定的增量贡献。在本文中,量价机器机器学习模型进一步拓展到周频、日频、15min频量价三个维度。同时,为了缓解不同数据集学习到的因子相关性较高的问题,本文提出了基于残差增量学习和特征提升的混合量价机器学习框架用于构建综合机器学习量价因子。在因子测试和策略构建的结果来看,我们提出的混合频率量价因子模型相比于基准模型有比较明显的提升。

  • 前期报告中,我们提出了基于多模型多数据集的综合量价因子构建流程。该模型取得了良好的效果,但是也存在一些问题,例如不同数据集学习得到量价因子相关性较高等。

  • 在周频、日频原始量价数据构建的简单等权模型基础上加入15min数据集之后模型的表现有一定的提升。

  • 为了缓解不同数据集学习到的因子之间较高的相关性,本文提出基于数据集的残差增量学习框架,从结果来看,相比于简单等权的模型,残差增量学习的综合量价因子的表现进一步提升。

  • 为了更大限度地利用不同量价数据集的信息,本文进一步提出了在数据集残差增量学习框架的基础上构建多维特征,最后使用梯度提升技术来整合特征的残差增量学习+特征提升的混合频率综合量价因子学习框架。从2017年至今的表现来看,综合因子的周频RankIC达到13.15%,全A分20组的多头超额年化收益率达到38.01%,显著超过基准的表现

  • 在因子的风险和风格分析过程中,本文发现综合因子与流动性(Liquidity)和残差波动率(Residual Volatility)的平均截面相关性稍高分别为-0.38和-0.42;在因子多头的尾部风险敞口分析中发现因子的主要的尾部风险来自小市值股票的暴跌

  • 基于综合因子,本文构建了对应宽基指数的周频指数增强策略,其中:

  • 全市场选股的沪深300周频指增策略年化超额收益率为13.75%,超额最大回撤6.91%,信息比率为3.51,年化跟踪误差为4.44%;

  • 全市场选股的中证500周频指增策略年化超额收益率为19.79%,超额最大回撤6.76%,信息比率为3.48,年化跟踪误差为6.11%;

  • 全市场选股的中证1000周频指增策略年化超额收益率为23.48%,超额最大回撤5.44%,信息比率为3.96,年化跟踪误差为5.80%。

*风险提示:量化策略基于历史数据统计,模型存在失效的可能性。

I

时序神经网络与其他截面学习模型

1.1. 基于日频量价的多模型Alpha框架

在前期报告中,我们构建了基于日频量价的机器学习模型。使用的数据主要包括:日频量价、周频量价、Alpha158因子集合。该模型利用不同的机器学习模型在单个数据集上进行学习得到对应数据集的因子,然后通过等权加权得到综合量价因子。在不同成分股内的测试结果来看,基于日频量价信息构建的因子在RankIC均值、多头超额收益率水平这些统计量上都表现稳定且良好。

总体表现来看,“单数据集单模型”<“单数据集多模型” < “多数据集多模型”。不过在研究中,我们也发现不同模型和不同数据集构建出来的因子彼此之间的相关性还是偏高,这说明不同数据集学习到的增量信息相对有限。如何进一步提高综合量价因子的表现,引入更高频的量价数据是比较自然的思路。

II

基于混合频率量价数据的量价因子构建

2.1. 多频率数据集的构建和测试

在上一个章节中,本文探讨了多模型多数据集得到的综合量价因子的框架。虽然最终结果还是有不错的表现,但是不同数据集的细分量价因子的相关性还是偏高。如何通过不同频率的量价信息获得相关性更低的细分量价因子是一个值得探讨的问题。

在前期报告中,我们测试了不同模型在人工构建的弱因子集合(Alpha158)上的表现,发现无论是从因子表现的绝对水平以及对于综合因子的整体提升来看,Alpha158因子集合相对于原始量价数据并无明显优势。因此在构建多频率量价因子模型的时候剔除弱因子集合(Alpha158),仅使用原始的日频、周频以及日内更高频的数据来进行构建。考虑到时间序列长度和硬件资源的限制,15分钟是比较合适的频率。

按照前文设置,我们分别利用不同的数据集来训练得到三个数据集对应的因子,最后等权加权得到简单加权的综合量价因子,并与前期构建的综合量价因子进行比较,观察15min量价数据构建的因子相比于日频和周频数据集构建的量价因子的增量。

从实证结果来看,基于15min量价数据构建的量价因子与周频、日频数据构建的因子在单一数据集层面的差距较小。从RankIC水平、多头超额年化水平、多头超额最大回撤等指标的表现来看,加入15min数据构建的因子后,整体综合量价因子的表现有了进一步提升。进一步分析三个细分量价因子的相关性,day_week平均截面相关系数为0.71,day_15min的平均两两相关系数为0.79,week_15min的平均两两相关系数为0.64,周频和15min频的量价因子之间的相关性稍低。

在本节中,本文构建了15min量价数据集且在数据集上利用多模型学习的方式构建了细分的15min细分量价因子,并按照前期综合量价因子的构建流程(简单等权)的方式构建了新的综合量价因子。

从不同频率的量价因子的两两相关性来看,15min频率的量价因子与week频率的量价因子相关性相对最低。新的综合量价因子相比于前期构建的综合量价因子在RankIC 、多头超额收益率和超额最大回撤等方面都有一定的提高。但是也可以发现不同细分量价因子之间的相关性还是偏高。在下文中,我们将进一步探讨如何降低不同细分因子之间的相关性,提高综合量价因子的整体表现。

2.2. 多频率量价数据残差增量学习框架

在机器学习场景中提高整体模型表现的主要思路包括:增加特征的种类和数量,模型层面的集成等。综合机器学习因子的构建框架可以表述为:

其中X_t为在t时刻的特征矩阵。在上述章节中,本文分别测试了日频、周频、15min量价数据基于常见机器学习模型的因子学习结果,在简单等权这样相对简单的集成方式下,综合因子的表现相比于单个模型和数据集的结果也是有一定提升。本节将探讨如何从算法层面进一步从不同的数据集中挖掘出更多的增量信息,从而提高整体综合量价因子的表现。

回顾模型集成的方式,通常有以下几类:

1)Bagging(特征选择):

  • RandomForest:通过组合多棵决策树进行预测,每棵树都在不同的样本子集上训练。

2)Boosting(提升方法):

  • AdaBoost:逐步训练弱学习器,每个新模型更关注前一个模型中错误分类的样本。

  • Gradient Boosting:通过优化损失函数,逐步添加模型。

3)Voting & Stacking:

  • 将多个基础模型的预测结果作为输入进行投票或平均(固定权重),训练一个模型进行最终预测(优化权重)。

这些算法通过不同的方式组合多个模型,通常能够提高模型的准确性和鲁棒性。每种方法都有其适用的场景和优缺点。其他集成学习算法大多可以归为上述集成学习算法的变体或组合。

简单总结,集成方法主要是通过组合不同的模型来提高综合模型的表现,其中Voting和Stacking是在模型训练完成后通过固定权重或者通过训练模型的方式加权现有模型输出。Bagging和Boosting类的方法是通过改变训练样本的权重或学习目标来使得新训练的模型加入现有的模型组合能够在训练集改善整体的预测表现。

在Alpha因子生成模型中,Bagging和Boosting类的方法是比较契合因子构建流程的。借鉴机器学习模型的集成方法,那么比较自然的改进思路有:

  • 特征选择(特征权重调整):通过给予关注的样本更高的权重,例如收益率更高的样本。

  • 学习目标的优化:通过设置不同学习目标来获得关注点不同的模型(因子);考虑现有模型(因子)的表现来训练新模型等。

本节希望设计一个算法流程在已有的模型(因子)基础上获得具有信息增量的模型(因子)。首先想到的思路就是通过梯度提升的方法来逼近最终结果,算法流程如下:

假设第一个模型学习目标为MSE:

基于上述算法流程,本文构建了对应不同常数 的残差增量学习框架的综合量价因子。从结果来看,相比于分别在不同频率的量价数据集上单独训练然后等权加权的模型,本节提出的基于残差的增量学习流程比较明显地提高了集成模型的整体表现。

进一步思考,这个残差学习流程每次学习的目标都是优化上一次的负梯度从而逼近最优的结果,同时也有一定的缺点:

  • 迭代的次数较少(3次) ,增量相对有限;;

  • 对于每个数据集之间的特征在学习的过程中相互独立,没有交互。

现有的工具中,GBDT类的模型工具是相对比较成熟的梯度提升框架。如果可以利用三个数据集构建不同类型的特征,然后用GBDT来整合不同数据集得到的特征进行梯度提升从理论上来说可以比较好的解决上述两个问题。

通过NN(不同类型的神经网络)进行特征生成的方式根据不同的网络结构和学习目标有不同的结果,这里以GRU作为特征提取模型,其他特征提取模型在后续研究中继续深入探讨。以GRU作为特征提取模型的结构最简单的方式如图11所示,GRU的最后一个时间步的输出作为生成的特征。

从单个数据集上的表现来看,GRU提取的因子相关性较低(这里以2017年生成的因子为例)。周频数据集上生成的因子平均相关系数约为0.43;日频数据集生成的因子平均相关系数约为0.42;15min数据集上生成的因子平均相关系数约为0.41。

本文中设置GRU提取的特征为64维即64个因子,对于三个不同的数据集共生成3x64维特征以及人工构建的N个特征共3x64+N个特征。这里以Alpha158为例来观察这一框架的表现。那么在GBDT中输入的特征个数则为350维。

从结果来看,基于残差增量特征学习-特征梯度提升的混合频率量价因子学习框架从不同的因子统计量的表现相比于上文提到的两种学习框架来看都获得了比较可观的提升。

从多空累计净值和多头超额净值的表现来看,基于残差学习和特征提升的学习框架相比于简单等权和基于数据集的残差增量学习框架也都有比较明显的提升。在后面的章节中,本文将进一步对综合因子在不同成分股内的表现、风险暴露以及指增组合的表现进行测试。

III

周频指数增强策略构建

3.1. 综合量价因子的单因子测试

本节按照单因子测试的常规流程对综合量价因子进行测试,回溯区为:20170101-20240816,股票池为同时期中证全指成分股。调仓周期为5日,调仓价格为次日vwap价格。分组数为20组,不考虑交易费用。

其中沪深300、中证500、中证1000的分组为10组,全A的分组为20组。可以看出在不同的成分股内综合因子的统计量基本保持稳定,即在不同的成分股内均有比较强的选股能力。但从多头收益率(q1)来看,综合因子在中证500成分股内的表现要显著低于沪深300和中证1000内的表现。其他组(q2-q10)的表现中证500成分股内的表现与沪深300内表现无明显差距。中证1000成分股内的表现好于沪深300成分股和中证500成分股

在本节中,本文测算了综合因子在不同成分股内的表现,从总体表现来看综合因子十分稳健。但是也注意到在不同成分股内的表现还是存在一些差异。下一节中本文主要分析综合因子在风险维度的特征。

3.3. 综合量价因子的风格/风险分析

在构建综合量价因子的过程中,虽然本文对学习目标进行了风格剔除(详见前期报告),但是从得到的因子的风格分析结果来看,因子在常见风格仍然有一定程度的暴露。本节将从平均风险暴露和尾部风险暴露的角度分析综合量价因子在风格/风险维度的特征。

从截面相关性来看,综合因子与流动性、残差波动率的相关性稍高,其次是账面价值比、盈利率,在市值和其他风格因子的暴露较小。以不同期限的换手率衡量的流动性指标以及残差波动率本身作为风格因子本身具有一定的Alpha。从平均截面风格相关性来看,综合因子的风格/风险敞口主要在流动性和残差波动率两个风格上

此外,极端情况的风险敞口也是非常重要的风险。本文定义因子多头超额的大幅回撤(超过10%)为极端情况。回测发现极端情况主要发生在两个时间区间,即:

回撤区间1:20201130 – 20210226,持续59个交易日,最大超额回撤13.01%;

回撤区间2:20240110 – 20240221,持续25个交易日,最大超额回撤12.98%。

通过对综合因子在大幅回撤的区间进行分析,本文发现最大的风险敞口是市值,在因子多头大幅回撤的区间,市值因子分别贡献了-11.4%和-6.87%的负向收益,其次是动量-2.6%和-0.65%。

虽然在前期报告中,我们通过学习目标的风格中性(市值、行业等)减轻了风格暴露带来的影响,机器学习模型还是通过非线性拟合的方式学习到了小市值的暴露。这可能是因为,过去几年小市值因子的平均回报率确实远超其他风格因子,模型在学习优化的路径中,对小市值的暴露是更容易实现loss最小化的路径。但其带来的较为明显的尾部风险不容忽视,在未来的研究中,我们将更加深入地探索如何缓解模型对小市值效应的过拟合倾向。

策略构建和测试

4.1. 周频指数增强策略构建测试

本章节将基于上文构建的综合因子构建指数增强策略,指数增强的优化目标为最大化预期收益率,优化目标如下:

本文中各类指数增强策略的设置如下:

1)风格偏离约束:

  • 沪深300指增策略,市值、估值、成长等风格为最大主动偏离0.3个标准差、行业占比偏离约束为3%;

  • 中证500指增策略,常见风格约束为0.3个标准差,行业占比偏离约束为3%;

  • 中证1000指增策略,常见风格约束为0.3个标准差,行业占比偏离约束为5%;

2)个股权重偏离:0.3%-0.5%

3)换手率约束:双边20%,40%,60%

4)成分股约束:无限制(全市场选股)/ 100%成分股约束

5)费率设置:买入费率千分之一,卖出费率千分之二

6)其他说明:成交价格为次日WVAP价格,停牌无法买入卖出、涨停无法买入,跌停无法卖出。tvr表示双边换手率。

4.1.1. 沪深300指数增强策略(周频)

从结果来看,沪深300指增策略表现良好,全市场选股的指增策略收益率表现优于成分股内选股,但超额最大回撤大于成分股内选股,信息比率和跟踪误差的表现成分股内选股的策略表现更好。

在双边换手40%的控制下,成分股内选股300指增表现最好,策略的信息比率为3.79,年化跟踪误差为3.61%。

在双边换手20%的控制下,全市场选股300指增表现最好。策略的信息比率为3.51,年化跟踪误差为4.44%。

4.1.2. 中证500指数增强策略(周频)

成分股内选股的中证500指增策略,在双边换手率控制为40%时,全样本超额收益率表现最好,该策略信息比率为2.75,年化跟踪误差为5.40%。

全市场选股的中证500指增策略,在双边换手率控制为40%时,全样本超额收益率表现最好,该策略信息比率为3.48,年化跟踪误差为6.11%。

4.1.3. 中证1000指数增强策略(周频)

成分股内选股的中证1000指增策略,在双边换手率控制为60%时,全样本超额收益率表现最好,该策略信息比率为3.89,年化跟踪误差为4.68%。

全市场选股的中证1000指增策略,在双边换手率控制为60%时,全样本超额收益率表现最好,该策略信息比率为3.96,年化跟踪误差为5.80%。

Ⅴ‌

总结

本文在基于周频和日频多模型多数据集的量价模型中加入15min量价数据后模型的表现有了一定提升,同时也观察到在不同数据上利用多模型学习得到的量价因子之间的相关性相对较高。

为了缓解这种较高相关性的现象。本文借鉴梯度提升的方法,提出了残差增量学习的方法,即在后续数据集的学习过程中加入前期数据集的结果残差。从结果来看,基于数据集的残差增量学习流程得到的因子相比于简单等权得到的因子提升较为明显。基于数据集的残差增量学习框架也存在一些问题,例如:

  • 迭代的次数太少;

  • 对于每个数据集之间的特征缺乏交互。

据此,本文进一步提出了结合数据集残差增量学习+特征提升的混合频率综合量价因子学习框架,从结果来看该框架得到的综合因子表现显著超过了上述基准模型框架。

此在综合因子的风险敞口分析中,本文发现综合因子多头的小市值因子时序平均暴露较大,而且因子多头大幅回撤的区间都伴随着小市值因子的暴露水平的大幅提升以及小市值股票的暴跌。本文猜想,模型在训练的历史区间由于小市值组合的收益率较高,模型学习路径中,拟合小市值因子是loss下降比较容易的方向。在后续的研究中,我们将进一步探索如何缓解这种对于小市值因子的过拟合倾向,从而缓解这种尾部风险。

最后,本文基于综合因子构建了基于沪深300、中证500、中证1000,100%限制成分股和不限制成分股的不同指增策略都取得了不错的效果,但是不同指增组合最大回撤的区间也基本和因子大幅回撤的区间吻合。回测历史区间中,小市值股票的暴跌确实给策略带来了不小的尾部风险。

重要申明

风险提示

本报告仅作为投资参考,量化策略基于历史数据统计,模型存在失效的可能性。


本文选自招商证券定量研究团队报告《混合频率量价因子模型初探-AI系列研究之四》(2024年11月12日发布)


分析师承诺

本研究报告的每一位证券分析师,在此声明,本报告清晰、准确地反映了分析师本人的研究观点。本人薪酬的任何部分过去不曾与、现在不与,未来也将不会与本报告中的具体推荐或观点直接或间接相关。


本报告分析师

任    瞳  SAC职业证书编号:S1090519080004

周    游  SAC职业证书编号:S1090523070015


特别提示

本公众号不是招商证券股份有限公司(下称“招商证券”)研究报告的发布平台。本公众号只是转发招商证券已发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解或缺乏相关的解读而对资料中的关键假设、评级、目标价等内容产生理解上的歧义。

本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。

招商证券对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。对依据或者使用本公众号所载资料所造成的任何后果,招商证券均不承担任何形式的责任。

本公众号所载内容仅供招商证券股份客户中的专业投资者参考,其他的任何读者在订阅本公众号前,请自行评估接收相关内容的适当性,招商证券不会因订阅本公众号的行为或者收到、阅读本公众号所载资料而视相关人员为专业投资者客户。


一般声明

本公众号仅是转发招商证券已发布报告的部分观点,所载盈利预测、目标价格、评级、估值等观点的给予是基于一系列的假设和前提条件,订阅者只有在了解相关报告中的全部信息基础上,才可能对相关观点形成比较全面的认识。如欲了解完整观点,应参见招商证券网站(http://www.cmschina.com/yf.html)所载完整报告。

本公众号所载资料较之招商证券正式发布的报告存在延时转发的情况,并有可能因报告发布日之后的情势或其他因素的变更而不再准确或失效。本资料所载意见、评估及预测仅为报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。

本公众号所载资料涉及的证券或金融工具的价格走势可能受各种因素影响,过往的表现不应作为日后表现的预示和担保。在不同时期,招商证券可能会发出与本资料所载意见、评估及预测不一致的研究报告。招商证券的销售人员、交易人员以及其他专业人士可能会依据不同的假设和标准,采用不同的分析方法而口头或书面发表与本资料意见不一致的市场评论或交易观点。

本公众号及其推送内容的版权归招商证券所有,招商证券对本公众号及其推送内容保留一切法律权利。未经招商证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。

招商定量任瞳团队
招商证券任瞳团队——定量与基金评价研究成果展示平台
 最新文章