+
目录
一、传统AI模型在中证A500上效果欠佳
二、GRU模型在中证A500指数上的优化探索
2.1 成分股训练:效果有限
2.2 归一化模块:增强模型表现
2.3 迁移学习:全A训练与中证A500微调
三、LightGBM模型在A500指数上的优化探索
3.1 滚动训练的影响
3.2 增量信息的影响
3.3 分域训练与特征筛选的作用
四、中证A500机器学习指数增强策略
4.1 GRU与LightGBM因子合成
4.2 中证A500机器学习指数增强策略
总结
风险提示
摘要
■投资逻辑
传统AI模型在中证A500上效果欠佳
中证A500指数自问世以来,吸引了大量关注,赢得了广泛的市场认可。在此背景下,如何从中获取alpha收益成为了投资者的重要课题。通过之前的研究,我们对中证A500上风格因子的表现进行了深入分析,并设计了表现优异的增强策略。本报告进一步应用机器学习技术,特别是GRU和LightGBM模型,力求在提升策略收益的同时降低跟踪误差。
GRU模型在中证A500指数上的优化探索
在研究时序神经网络模型时,普遍的观点是需要大规模的样本数据来准确捕捉市场规律。因此,即便聚焦于特定股票领域,通常也倾向于在整个A股市场中进行训练,从而获得优于单一领域的效果。本章验证了这一结论,并发现引入LayerNorm等归一化方法改进训练后的GRU模型能显著提升表现。此外,采用迁移学习策略,将全A训练的模型微调于中证A500,进一步优化了在较小数据集下的模型适应性和预测能力。
LightGBM模型在A500指数上的优化探索
在考察LightGBM模型的表现时,我们综合探讨了几个关键因素:首先,固定训练比滚动训练提供了更好的结果,这可能与训练集的分布选取有关;其次,增量信息的整合,讨论将Alpha158和GJQuant作为输入,对模型效果的影响;最后,从分域训练和特征筛选来看,不进行因子筛选反而能在因子质量较高的情况下提升模型的整体表现,且全A股训练的效果普遍优于中证A500训练。
中证A500机器学习指数增强策略
最终,我们将GRU和LightGBM得到的因子进行合成,在中证A500成分股上进行测试,回测期效果良好。具体来说,因子IC均值为10.23%,多头年化超额收益达14.70%,而多头超额最大回撤为7.47%。我们结合实际交易情况,构建了基于中证A500指数的指数增强策略,该策略年化超额收益达到13.06%,跟踪误差为5.47%,超额最大回撤为6.76%。
正文
一、传统AI模型在中证A500上效果欠佳
中证A500指数自发布以来便受到市场的广泛关注,并获得了机构和个人投资者的高度评价。在这种背景下,如何在把握指数行情的同时实现Alpha收益,成为投资者关注的焦点。在此前的报告《量化漫谈系列之十一:中证A500指数有效因子分析与增强策略》中,我们深入分析了中证A500指数的大类风格因子表现,并基于表现优异的因子设计和构建了增强策略,该策略在回测期间表现优异。本文将进一步运用机器学习模型,力求实现更高的超额收益和更低的跟踪误差。
在之前的系列报告中,包括《ALPHA掘金系列之九:基于多目标、多模型的机器学习指数增强策略》、《ALPHA掘金系列之十:细节对比与测试:机器学习全流程重构》和《ALPHA掘金系列之十三:AI选股模型特征筛选与处理:SHAP、中性化与另类特征》,我们深入探讨了多种神经网络(Neural Networks,NN)与多种梯度提升决策树(Gradient Boosting Decision Tree,GBDT)集成的模型架构,以及在模型训练中涉及的各种输入输出数据和细节问题。这些模型在样本外的跟踪测试中也表现出色。
不过在更深入的研究和与客户的交流过程中,我们发现一个普遍的共识:在神经网络模型中,GRU模型表现得稳定且出色;而在梯度提升决策树模型中,LightGBM获得了较高的认可。此外,XGBoost和CatBoost等模型与LightGBM所学习到的因子之间也显示出很高的相关性。因此,在权衡模型性能与构建时间成本后,本报告将专注于中证A500股票域,对GRU模型和LightGBM模型进行深入且细致的探索。
GRU和LightGBM这一类机器学习选股模型都是基于训练数据驱动的,主要使用量价数据及其构造的因子。但是量价因子可能存在忽略市场情绪与噪音较大的问题,因此我们也考虑基本面因子。模型构建主要涉及如下三个数据集,包括了原始日线量价数据、Alpha158量价因子与国金因子库人工构建的含基本面因子在内的116个风格因子。
本文使用的数据集涵盖了从2005年1月1日至2024年9月30日的数据。后续的回测主要从2015年2月1日开始,但由于某些方法存在局限性,部分回测从2016年2月1日开始。我们对所有数据集应用了时序上的鲁棒标准化(robust z-score)方法进行归一化处理。
在模型选择方面,为了让GRU模型能够有效学习时序规律,我们仅使用数据集1作为输入。而对于LightGBM模型,由于它特别擅长集成弱因子并且高度依赖特征工程,我们选择了数据集2和3作为输入。
为了确保结果具有实际的可交易性,我们将次日(T+1)的收盘价收益率设定为模型训练的目标。本文主要考虑月频调仓,因此使用20日收益率作为标签。在训练过程中,我们对收益率进行排序处理,以增强模型的学习效果。
考虑到训练过程可能受到随机种子的影响,我们对每个模型进行了3次独立训练,并取平均值作为最终结果。
二、GRU模型在中证A500指数上的优化探索
在使用时序神经网络模型时,普遍的观点认为需要大量的样本数据才能准确捕捉市场规律。因此,即便我们只关注某个特定的股票领域,通常也会在整个A股市场范围内进行训练,这样往往能取得比仅在单一股票领域训练更好的效果。本章将对这一结论进行验证,同时我们将通过改进模型结构和训练方式,有针对性地提升GRU模型的表现。
2.1成分股训练:效果有限
首先,我们尝试分别使用全A股市场数据和中证A500成分股数据进行模型训练,随后比较模型在中证A500成分股上的表现。模型训练集为2005年1月1日至2012年31日,验证集为2013年1月1日至2014年12月31日,回测区间设定为2015年2月1日至2024年9月30日。
从结果来看,成分股训练相较于全A股训练,在IC和多空策略上的表现都有所逊色,仅在多头策略上表现出微弱的优势。因此,直接使用成分股数据进行GRU训练,并不能取得理想的效果。
2.2 归一化模块:增强模型表现
由于成分股训练未能提升GRU模型的表现,因此我们应首先着力于改进基于全A数据训练的GRU模型。我们注意到,在简单的GRU架构中通常不使用归一化层,然而归一化层在深度学习中可以显著提高模型的训练精度和效率。本小节将对两种常见的归一化方法:批归一化(BatchNorm,BN)和层归一化(LayerNorm,LN)进行介绍和应用探讨。
BatchNorm和LayerNorm是深度学习中常用的两种归一化技术,它们的主要目的是减少内部协变量偏移(Internal Covariate Shift),即网络层输入分布的变化,以加速训练过程并提高模型的稳定性。BatchNorm在网络的每个层之后(通常是在激活函数之前),对于每个特征通道,计算当前小批量数据的均值和方差,使用上述计算的均值和方差对数据进行归一化。归一化后的数据可以通过两个可学习的参数(缩放因子γ和偏移量β)进行缩放和平移,以恢复模型的表达能力。BatchNorm 的优点包括:1)减少梯度消失问题,加速训练;2)允许更高的学习率;3)可以看作是一种正则化,有助于减少过拟合。LayerNorm整体步骤与BatchNorm类似,与BatchNorm不同的是在单个样本的层级上进行归一化。
之前的报告中,通常不使用归一化层或者使用BatchNorm层,但实际上,对于循环神经网络(RNN)类的模型,LayerNorm更受到欢迎,原因是多方面的。
在对GRU模型的研究中,我们分别引入了BatchNorm层和LayerNorm层,旨在比较这两种归一化方法在量化选股领域的优劣。
我们首先比较改进之后,模型在全A上的表现。模型训练划分时间与回测区间与上一节相同。
通过观察全A的表现,我们发现引入BatchNorm后有明显提升,而引入LayerNorm的效果更为显著。因此,LayerNorm作为GRU的归一化方式更为合适。接下来,我们将比较两种归一化方法在中证A500上的表现差异。
可以看出,加入LayerNorm后,多头和多空策略的表现有一些提升,但在IC表现和回撤控制方面仍有不足。LayerNorm作为GRU的归一化方式更为合适,但仍需要一种方法提升对应域表现的方法。
2.3 迁移学习:全A训练与中证A500微调
在使用GRU模型时,全A股训练和在中证A500成分股内训练各有其优劣。使用全A股进行训练可以让模型全面学习,但这可能导致模型学习到的特征与中证A500的本质特征存在分布差异;而若只在中证A500成分股内进行训练,虽然减少了分布上的差异,但由于数据量较小,GRU模型容易出现过拟合。为了有效结合两者的长处,本文采用迁移学习的方法来解决这一问题。
迁移学习是一种机器学习方法,它的核心思想是将一个任务(源任务)上训练好的模型作为初始点,重新使用在另一个不同但相关的任务(目标任务)上。这种方法特别适用于目标任务数据稀缺或者训练成本过高的情况。通过迁移学习,可以利用源任务中学习到的知识来加速目标任务的学习过程,并提高模型的性能。
针对中证A500选股的问题,我们可以通过迁移学习的方法来优化模型。具体来说,首先利用全A股的数据来训练一个GRU模型,然后将GRU模型的参数固定。接下来,使用中证A500的数据对模型的最后一层MLP进行微调。这样的做法使得我们的模型既能从全A股数据中学习到强大的特征提取能力,同时又能够在中证A500上实现更加精准的预测。
在全A数据的训练过程中,我们的时间划分方式与前面提到的相同,因此测试集的时间范围是从2015年1月1日到2024年9月30日。在进行微调时,从2015年开始,我们使用11个月的数据作为训练集,并设置1个月的间隔期以确保没有未来信息泄露,接着是半年的测试集,每隔半年滚动一次。在训练集上,模型仅训练两个epoch。经过微调后,回测的时间区间为2016年2月1日至2024年9月30日。
经过微调后,我们观察到模型的各项指标和整体表现均有显著提升。因此,我们得出结论:LayerNorm能够增强模型的能力,而微调则是帮助神经网络模型适应更小目标域的一种有效方法。
三、LightGBM模型在A500指数上的优化探索
在考察LightGBM模型的表现时,我们主要从以下三个方面进行分析:
1) 在LightGBM模型训练的过程中,需要考虑滚动训练吗?
2) 增量信息的影响,即如何将Alpha158和GJQuant有效地整合到模型中。在这方面,我们考虑分别将Alpha158和GJQuant单独输入模型,以及同时输入模型的效果。
3) 训练数据的选择问题,是使用全A股数据进行统一训练,还是针对特定领域(中证A500)进行分领域训练。
4) 关于树模型,是否仍需要进行输入特征的筛选?我们探讨选择32、64、128个因子进行筛选与不做任何筛选的不同结果,本章中筛选的主要依据是因子在训练集和验证集中的IC值的绝对值。
3.1 滚动训练的影响
与直观感受相反,滚动训练在LightGBM模型的训练中表现出负面效果,这可能是因为固定训练时训练集的分布更为容易学习。因此,在后续的研究中,我们将采用固定训练的方式。
3.2 增量信息的影响
在中证A500成分股上,主要实验的统计数据如下(回测区间2015年2月1日至2024年9月30日)。
在分析模型输入的增量信息时,我们发现以下几点规律:
1) 仅使用Alpha158量价因子进行全A股训练时,模型在控制多头超额最大回撤方面表现尤为出色。
2) 从信息系数(IC)和多空策略的年化超额收益率来看,同时将Alpha158和GJQuant输入模型的效果最佳。
3) 就多头策略的年化超额收益率而言,仅使用GJQuant的表现相对较弱。
3.3 分域训练与特征筛选的作用
关注于分域训练与特征筛选,我们可以将上表中的关键信息重构一下,得到下面这张统计数据表。
从这张表中可以得出以下结论:
1) 随着因子数量的增加,模型的各项指标确实有所改善。这表明在因子质量较好的情况下,对于LightGBM模型来说,不需要对因子进行筛选。
2) 显而易见,在不同的条件设置下,全A股训练的LightGBM表现更为出色。这可能与中证A500在行业市值分布上与全A保持一致有关。
在后续的实验分析中,对于Alpha158、GJQuant、Alpha158_GJQuant三类模型,我们均使用全A训练且不使用因子筛选的模型作为其代表。其三个模型的多空组合净值、分位数组合年化超额收益如下。
四、中证A500机器学习指数增强策略
4.1 GRU与LightGBM因子合成
首先,我们对GRU得到的因子与LightGBM得到的三个因子进行相关性分析。
可以看出,GRU模型和LightGBM模型所生成的因子之间的相关性较低。然而,GJQuant通过LightGBM得到的因子与Alpha158_GJQuant高度相关。因此,若直接将Alpha158_GJQuant与GRU模型结合,可能会丢失Alpha158大部分的信息。鉴于此,我们决定首先对Alpha158和GJQuant进行等权合成,然后再与GRU模型等权合成,以构建最终的中证A500增强因子。由于GRU因子的数据从2016年开始,因此合成因子的回测也从2016年2月1日开始。
经过针对中证A500优化的中证A500增强因子在各类统计指标与净值表现上都相较于前期报告中的机器学习因子有了较多的进步。
4.2 中证A500机器学习指数增强策略
最终,我们使用上述中证 A500 增强因子构建中证 A500 指数增强策略。在构建策略时,我们考虑月末调仓,以中证A500 指数作为基准,控制个股权重偏移1.5%以内,市值偏移0.2个标准差,行业偏移2%,月度双边换手率50%以内,手续费率假设为单边千分之二,回测时间段为2016年2月1日至2024年9月30日。策略表现如下:
通过组合优化的控制,我们发现策略在回撤控制等方面的表现得到了显著提升。以中证A500指数作为基准,策略的年化超额收益率达到了13.06%,而超额最大回撤仅为6.76%。
从年度表现来看,除了2018年和2019年超额收益相对较低,其余年份都实现了超过10%的超额收益。这说明优化后的策略在各方面表现更加稳健和卓越,有助于投资者获得更高的长期收益。今年的超额收益率也表现良好,达到了10.92%。
总结
在中证A500指数受到广泛关注的背景下,探索如何获取alpha收益成为投资者关注的重点。本文重点研究了机器学习选股模型在该股票域上的适应,并设计了增强策略。
本文首先研究了时序神经网络GRU模型在中证A500中的应用,验证了大规模数据训练的优势,并通过LayerNorm等归一化方法提升GRU模型表现。采用迁移学习策略,将全A股市场训练的模型微调到中证A500上,提高了其在小数据集下的适应性和预测能力。接着优化LightGBM模型时,发现固定训练优于滚动训练,同时整合增量信息(如Alpha158和GJQuant)提升了模型效果。不进行因子筛选在因子质量高时提升整体表现,全A股训练效果优于仅在中证A500上的训练。
最后我们融合GRU和LightGBM模型因子,对中证A500成分股进行测试,结果显示因子IC均值为10.23%,多头年化超额收益达14.70%,回撤控制良好。最终,构建的指数增强策略实现年化超额收益13.06%,跟踪误差5.47%,最大回撤6.76%。
风险提示
1、 以上结果通过历史数据统计、建模和测算完成,历史规律未来可能存在失效的风险。
2、 各类事件因子可能会受到政策、市场环境发生变化的影响,出现阶段性失效的风险。
3、 市场可能出现超出模型预期的变化,导致策略出现超出模型估计的波动和回撤。
往期报告
量化观市系列
《量化观市:海外流动性宽松与政策预期推动,做多窗口持续》
主动量化系列
Alpha掘金系列
Beta猎手系列
1.《Beta猎手系列之六:基于宏观量价信号叠加的微盘股茅指数择时轮动策略》
2.《Beta猎手系列之五:Beta猎手系列之五:基于机构调研热度和广度视角的行业配置策略》
3.《Beta猎手系列之四:如何利用ChatGPT解析卖方策略观点并构建行业轮动策略?》
4.《Beta猎手系列之三:行业超预期的全方位识别与轮动策略》
5.《Beta猎手系列之二:熵池模型:如何将纯主动观点纳入量化配置模型》
6.《Beta猎手系列:基于动态宏观事件因子的股债轮动策略》
智能化选基系列
量化漫谈系列
量化掘基系列
CTA金点子系列
年度投资策略
+
报告信息
证券研究报告:《全样本训练+分域微调——中证A500AI指增再优化》
对外发布时间:2024年12月3日
报告发布机构:国金证券股份有限公司
证券分析师:高智威
SAC执业编号:S1130522110003
邮箱:gaozhiw@gjzq.com.cn
证券分析师:王小康
SAC执业编号:S1130523110004
邮箱:wangxiaokang@gjzq.com.cn
点击下方阅读原文,获取更多最新资讯