【广发金工】2024精选深度报告系列之四:基于卷积神经网络的ETF轮动策略

财富   财经   2024-09-05 08:40   广东  


摘 要

研究背景
境内ETF市场规模创历史新高,指数化投资已成为境内公募基金行业发展趋势。我们团队于近期发布过《基于卷积神经网络的股价走势AI识别与分类》等深度学习研究报告,样本外跟踪至今仍旧有相对稳定的市场表现。ETF具备持仓透明、交易便利、费用低廉等特征。本报告探索将深度学习因子映射到ETF产品轮动中的效果。

因子构建。

通过构建标准化的价量数据图表,设计了卷积神经网络识别其中价格和交易量的走势形态,将其与未来股价进行建模,从而实现对未来股价的预测。然后基于个股因子值和权重数据计算权益指数的因子值,再进一步映射到ETF中。


实证分析。

周频ETF轮动模式下,ETF_fimage因子的IC均值为6.9%,IC胜率为62%,多空年化收益为20.4%,多空年化波动率为17.01%,多头年化收益为14.4%,空头年化收益为-6.1%。因子分年度表现稳定,其中截至3月底,该因子2024年初至今已实现约11%的多空收益。


固定持仓数量组合。

等权配置5、10、15和20只ETF,持有不同数量的ETF组合的回测收益特征基本一致,总体呈现持有较少数量,收益表现更加突出的特征。持有5只ETF回测收益相对较高,2020年以来实现约16%的年化收益,年化波动率为25.6%,相比于样本内等权配置所有ETF的超额收益为14.5%,相比于偏股混合型基金指数年化超额收益为13.9%。


进一步检验。

流通性方面,相对严格的流动性条件会降低多头组的收益表现。费用方面,持仓5只ETF,在无交易费、双边千一和双边千二的条件下的回测年化收益分别为19.9%、16.2%和12.5%,年化波动率为25.6%。


风险提示。

本专题报告所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时可能存在失效风险;策略在市场结构及交易行为的改变时有可能存在策略失效风险;因量化模型不同,本报告提出的观点可能与其他量化模型结论存在差异




正 文

一、研究背景

1.1
指数化投资蓬勃发展 

根据上交所的2024年度ETF行业发展报告,全球ETF市场规模于2023年首次突破11万亿美元,全年资金净流入接近万亿美元。截至2023年底,全球挂牌交易的ETF资产总规模达11.61万亿美元,较2022年底增长21.83%。近20年的全球ETF规模年均复合增长率达22.16%,产品数量连续20年保持正增长。从资产类别来看,权益ETF占主导地位。截至2023年底,全球权益ETF规模达8.62万亿美元,占比74.2%;债券ETF规模达2.06万亿美元,占比17.7%;商品ETF规模约1794亿美元,占比1.6%;其他类ETF规模约7506亿美元,占比6.5%。
回顾境内市场,指数化投资已成为境内公募基金行业发展趋势。根据上交所的2024年度ETF行业发展报告,境内ETF市场规模突破2万亿元,创历史新高。截至2023年底,境内交易所挂牌上市的ETF数量达889只,较2022年底增长18.06%;总规模达2.05万亿元,较2022年底增长28.13%。其中权益型ETF市值达到1.73万亿元,约占A股总市值的2%。2023年境内ETF规模增长4508.82亿元;其中新发产品贡献了778.96亿元的规模增量,占比17.28%;存量产品规模实现了3729.86亿元的增长,占比82.72%。

1.2
机器学习因子

基于价量数据对未来股价走势进行预测作为一类重要的机器学习量化选股策略,在过去受到了较为广泛的研究和应用。由于价量数据是跟着交易活动的进行而产生的,其本质上是关于时间的一组序列。因此,为了建模价量数据与未来股价走势之间的关系,大多数现有研究方法都选择了使用循环神经网络等时序模型。然而,时序模型无法对价格和交易量的走势形态进行有效识别,其表现在一定程度上因此受限。
我们团队于近期发布过《基于卷积神经网络的股价走势AI识别与分类》等深度学习研究报告,为了克服时序模型对序列数据建模的不足,探究了使用卷积神经网络对图表化的价量数据与未来股价进行建模,样本外跟踪至今仍旧有相对稳定的市场表现。
ETF产品相比于普通基金,可以于交易时间内确认交易,具备相对更好的交易便利性,相比于股票不用支付印花税等费用,具备费用优势。同时,ETF主要以跟踪标的指数为投资目标,底层资产透明清晰。因此如何基于ETF进行配置也是投资者相对关注的投资方向。
综上所述,本报告将进一步探索将深度学习因子映射到ETF产品轮动中的效果。

二、境内ETF市场概况
情况跟踪益基金化
2.1
ETF总体概况

ETF产品快速发展。根据上交所的2024年度ETF行业发展报告,截至2023年末,根据Wind,境内公募基金产品11514只,规模合计27.27万亿元,其中权益型基金规模7万亿元,占境内公募基金总规模的26%。指数化投资已成为境内公募基金行业发展趋势,截至2023年底,境内交易所挂牌上市的ETF数量达到889只,较2022年底(753只)增长18.06%,年末市值总规模达到2.05万亿元,较2022年底(1.60亿元)增长28.13%。其中权益型ETF市值达到1.73万亿元,创历史新高,约占A股总市值的2%。


产品布局日趋完善。截至2023年末,境内ETF的投资标的涵盖了股票、债券、货币、商品、境外股票等大类资产,产品布局较为完善。根据Wind,其中股票ETF规模1.45万亿元,占比70.86%;跨境ETF规模2792.75亿元,占比13.66%;货币ETF规模2067.94亿元,占比10.11%;债券ETF规模788.92亿元,占比3.86%;商品ETF规模307.16亿元,占比1.50%。


2.2
权益ETF概况

权益ETF的规模增量相对明显。下沉到资产类型,观察权益ETF的规模变动,根据Wind,权益ETF的总规模由2014年的约2000亿元增长至2023年末的1.73万亿元,在各资产类别中,规模增长相对明显。


进一步观察权益ETF中,各大类型的产品规模最新情况。规模方面,宽基类ETF占比相对较高,根据Wind,截至2023年底,宽基ETF的规模合计为8424亿元,占比约49%,行业主题类产品规模合计为5668亿元,占比约33%。


2.3
ETF市场格局

截至2024年4月底,境内有51家基金公司拥有上市非货币ETF产品。根据Wind,排名前十的基金公司非货币管理规模合计为1.89万亿,占市场总规模的82%。已有7家管理人非货币ETF管理规模突破千亿,其中华夏基金管理规模已达4884亿元。


下沉到具体产品,规模靠前的产品已突破千亿元,跟踪指数以沪深300等宽基指数为主,其中华夏基金旗下的沪深300ETF的规模已超过2000亿元。


基于指数分类,根据Wind,截至2024年4月底,871只权益类ETF的跟踪指数合计有369种,ETF合计规模靠前的指数同样以宽基指数为主。


三、深度学习因子逻辑

3.1
标准化价量数据图表

为了能更好地使用卷积神经网络对价量数据图表与未来股价走势进行建模,本方法对每个个股窗口期内的价量数据构建了标准化的图表。该图表包含了窗口期大小为20日的价量数据,其由三部分组成:

1.图表的上部分由k线图和移动平均线构成,包含了开、高、低、收价格,以及若干股价的移动平均线,如MA5、MA10等。
2.图表的中部分由当日对应的成交量构成。
3.图表的下部分由股价的MACD信息构成,其中短期和长期移动平均线的窗口期。
由此构成了信息丰富的标准化价量数据图表。标准化图表构建完毕后,全市场范围内从2005年至2023年期间的图表数据量达115Gb,远超于同期以序列形式表达的价量数据,后者数据量仅为2Gb不到。


3.2
价量数据图表卷积神经网络

为了对标准化图表和股价未来走势进行建模,本方法构建了卷积神经网络。输入图片经过卷积结构后得到了512x10x10的特征图,将其摊平后得到51200维度的特征后送入一个全连接神经网络。模型的最终输出为3个概率,分别对应个股在未来截面日上收益率的百分位,即后1/3、中1/3、前1/3,以表示跌、平、涨。最终以股票上涨的概率作为因子进行选股。
在模型的实现细节上,采用Xavier、 Adam化器等技术对模型进行训练;采用训练数据外的验证集对训练中的模型进行验证,以确定最优早停(Early Stopping)时点。
通过分别训练两个不同的模型,将包含过去20日价量数据的标准化图表,与未来5日、20日的个股收益情况进行建模。在下文中,这以I{x}R{y}来表示,其中x为价量数据图表的窗口大小,y为预测未来y日的收益情况,换仓周期与y保持一致。即I20R5表示使用包含过去20日价量数据的标准化图表来预测未来5个交易日的收益情况。




3.3
特征可视化

在完成卷积神经网络的训练后,标准化价量数据图表对模型进行输入,分别对模型中的4个卷积神经网络结构的输出在特征维度随机抽取9张特征图进行可视化。
从特征可视化结果来看,卷积层1和卷积层2作为低维度特征提取器,其关注到了整幅标准化价量数据图表中的信息,均同时涵盖了k线图、移动平均线、交易量以及MACD信息。
而卷积层3和卷积层4作为高维度特征提取器,其对图表中代表不同信息的不同部位的关注点开始发生分化,有的特征图重点捕捉k线图、移动平均线中的信息,而有的特征图则重点捕捉交易量以及MACD中的信息。与此同时,也有的特征图关注到了全局信息。
由此可见,训练后的卷积神经网络能对标准化的价量数据图表进行有效的特征提取,识别出其中的价格以及交易量形态走势信息,从而与未来的股价走势进行建模,实现对未来股价的预测。


四、实证分析
4.1
数据说明

由个股汇总到指数,再映射ETF的逻辑,我们将选股因子应用到ETF轮动。考虑到ETF产品的流动性,对ETF产品作规模和成交额等基本要求。另外,个股因子只涉及境内A股市场,对跟踪海外和沪港深等指数的ETF作剔除处理。


ETF范围:境内权益ETF;
因子预处理:中位数去极值、Z-Score标准化;
回测区间:2020.01.01 – 2024.3.31;
分档方式:根据当期ETF的因子值,从小到大分为五档 ;
调仓周期:周度;
加权方式:等权;

流动性限制:换仓日滚动过去2周的日均规模超过1亿元,日均成交额超1000万元。



4.2
因子实证表现

周频ETF产品轮动模式下,因子回测结果收益相对明显。ETF_fimage因子的IC均值为6.9%,IC胜率为62%,多空年化收益为20.4%,多空波动率为17.01%,多头年化收益为14.4%,空头年化收益为-6.1%。

分档表现方面,5分组模式下多头组超额收益相对明显。




观察ETF因子的分年度表现。回测结果显示,该因子2020年以来各年度均能实现正的多空收益,其中截至3月底,该因子2024年初至今已实现约11%的多空收益。


进一步观察多头组的分年度表现,同时引入偏股混合型基金指数作为基准,对比能否实现超额收益。测算结果显示,绝对收益方面,除了2023年,该因子自2020年以来的各年度均实现了正收益,和偏股混合型基金指数的超额收益方面,该因子的多头组均能实现超额收益。


4.3
固定数量组合表现

回测结果显示,随着市场中的ETF产品发展,符合筛选要求的样本ETF产品逐渐增多,多头组的ETF产品数量也同步增加。实际投资中,我们也关注持有如5只10只等固定数量的ETF产品的收益状况。
因此本部分进一步测算基于因子等权配置5、10、15和20只ETF产品的回测效果。


测算结果显示,持有因子靠前的N只产品,相对偏股混合型基金指数和等权配置样本内所有ETF均能实现超额收益。对比持有不同数量的ETF,持有相对较少的5只ETF回测收益相对较高,2020年以来实现约16%的年化收益,年化波动率为25.6%,相比于样本内等权配置所有ETF的超额收益为14.5%,相比于偏股混合型基金指数年化超额收益为13.9%。



分年度表现来看,持有不同数量的ETF组合的回测收益特征基本一致。对比不同数量持仓组合的表现,总体呈现持有较少的产品数量,收益表现更加突出的特征。





五、进一步检验
5.1
剔除重复样本
上述内容的回测样本包含了跟踪同一指数的多只ETF,因此存在部分时期内回测的多头组合里的持仓有跟踪同一指数的多只ETF的情况。
因此,我们进一步尝试换仓时,样本中跟踪同一指数的多只ETF中只保留规模最大或流动性最好的一只。观察回测区间内符合要求的ETF样本数量,相比于剔除重复项前数量有所下降。


剔除重复项后的,因子回测收益特征和未剔除前基本一致。ETF_fimage因子的IC均值为6.4%,IC胜率为60%,多空年化收益为19.1%,多头年化收益为14.2%,空头年化收益为-5.1%。






对比持有不同数量的ETF,持有相对较少的5只ETF回测收益进一步增厚,相对较高,2020年以来实现约21%的年化收益。



5.2
流动性因素调整影响
流动性限制方面,前述方法是要求样本ETF换仓日滚动过去2周的日均规模超过1亿元,日均成交额超1000万元。
我们进一步调整规模和成交额要求以对比不同流通性条件的影响。测算结果显示,相对严格的流动性条件会降低多头组的收益表现。




5.3
费用影响

费用方面,持仓5只ETF,在无交易费、双边千一和双边千二的条件下的回测年化收益分别为19.9%、16.2%和12.5%,年化波动率为25.6%。




六、总结
研究背景:境内ETF市场规模突破2万亿元,创历史新高,指数化投资已成为境内公募基金行业发展趋势。团队于近期发布过《基于卷积神经网络的股价走势AI识别与分类》等深度学习研究报告,样本外跟踪至今仍旧有相对稳定的市场表现。ETF具备持仓透明、交易便利、费用低廉等特征。本报告探索将深度学习因子映射到ETF产品轮动中的效果。
因子构建:通过构建标准化的价量数据图表,设计了卷积神经网络识别其中价格和交易量的走势形态,将其与未来股价进行建模,从而实现对未来股价的预测。然后基于个股因子值和权重数据计算权益指数的因子值,再进一步映射到ETF中。
实证分析:周频ETF产品轮动模式下,ETF_fimage因子的IC均值为6.9%,IC胜率为62%,多空年化收益为20.4%,多头年化收益为14.4%,空头年化收益为-6.1%。因子分年度表现稳定,其中截至3月底,该因子2024年初至今已实现约11%的多空收益。
固定持仓数量组合:等权配置5、10、15和20只ETF,持有不同数量的ETF组合的回测收益特征基本一致,总体呈现持有较少的产品数量,收益表现更加突出的特征。持有5只ETF回测收益相对较高,2020年以来实现约16%的年化收益,相比于样本内等权配置所有ETF的超额收益为14.5%,相比于偏股混合型基金指数年化超额收益为13.9%。
进一步检验:流通性条件的影响方面,相对严格的流动性条件会降低多头组的收益表现。费用方面,持仓5只ETF,在无交易费、双边千一和双边千二的条件下的回测年化收益分别为19.9%、16.2%和12.5%。

七、风险提示
本专题报告所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时可能存在失效风险。
本专题策略模型在市场结构及交易行为的改变时有可能存在策略失效风险。
因量化模型不同,本报告提出的观点可能与其他量化模型结论存在差异。

详细研究内容请参见广发金工专题报告


《基于卷积神经网络的ETF轮动策略


法律声明:
本微信号推送内容仅供广发证券股份有限公司(下称“广发证券”)客户参考,其他的任何读者在订阅本微信号前,请自行评估接收相关推送内容的适当性,广发证券不会因订阅本微信号的行为或者收到、阅读本微信号推送内容而视相关人员为客户。
完整的投资观点应以广发证券研究所发布的完整报告为准。完整报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性或完整性做出任何保证,报告内容亦仅供参考。
在任何情况下,本微信号所推送信息或所表述的意见并不构成对任何人的投资建议。除非法律法规有明确规定,在任何情况下广发证券不对因使用本微信号的内容而引致的任何损失承担任何责任。读者不应以本微信号推送内容取代其独立判断或仅根据本微信号推送内容做出决策。
本微信号推送内容仅反映广发证券研究人员于发出完整报告当日的判断,可随时更改且不予通告。
本微信号及其推送内容的版权归广发证券所有,广发证券对本微信号及其推送内容保留一切法律权利。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。


广发金融工程研究
定期发布团队最新研究成果及观点,欢迎交流!
 最新文章