【广发金工】2024精选深度报告系列之一:基于Visibility Graph-CNN创新架构的高效股价预测模型

财富   财经   2024-09-02 08:21   广东  


摘 要

可见性图
可见性图(Visibility Graph)是一种图论模型,它将空间中的物体(例如:点、线段、多边形)映射为图中的结点和边。在其拓展到时间序列分析领域后,可见性图能够高效地将时序数据(如价量数据)转化为图结构,以提取时序数据中的有效信息。此图结构在数据形式上体现为二维的整型矩阵,矩阵中的元素均为整数0或1,有效地降低了数据的冗余性,减少了后续深度学习模型在训练过程中的过拟合现象,提升了模型的泛化能力。

可见性图与卷积神经网络
本工作提出了基于Visibility Graph-CNN创新架构的高效股价预测模型。首先,使用可见性图算法模型对个股的历史价量数据进行初步的特征提取,而后将提取得到的可见性图送入特别设计的卷积神经网络中,以进一步提取价量特征,并与个股的未来走势进行建模,以实现对未来股价的预测。由于可见性图是低维度的整型矩阵,因此本工作设计了一个参数量少、复杂度低的卷积神经网络将其与未来股价进行建模,进一步减少了模型的过拟合情况,提升了模型在样本外数据的预测能力。

实证分析
本工作采用过往20日和60日价量数据分别构建了两个Visibility Graph-CNN模型,以实现对未来20个交易日截面上的个股进行股价预测,并根据预测的股价上涨概率将个股分为10档,以此构建多、空组合。回测结果表明,两个模型的因子在各大板块当中均取得了较为单调的分档收益。在2020~2023年样本外回测期间,20日模型因子在全市场的平均RankIC为5.39%,多头年化收益率为10.35%,最大回撤率为17.85%,相比同期中证全指的超额年化收益率为9.57%;而60日模型因子在全市场的平均RankIC为5.61%,多头年化收益率为10.24%,最大回撤率为19.51%,相比同期中证全指的超额年化收益率为9.61%;整体而言,20日模型和60日模型的表现差异不大。在细分板块上,20日模型因子在中证500、中证1000、创业板上分别取得了6.41%、7.56%、8.79%的多头年化收益率;而60日模型因子在中证500、中证1000、创业板上分别取得了4.83%、6.08%、11.79%的多头年化收益率。

风险提示
本专题报告所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时可能存在失效风险;策略在市场结构及交易行为的改变时有可能存在策略失效风险;因 量化模型不同,本报告提出的观点可能与其他量化模型结论存在差异。



正 文

一、Visibility Graph-CNN股价预测模型

1.1
可见性图(Visibility Graph)
可见性图(Visibility Graph)是一种图论模型,它将空间中的物体(例如:点、线段、多边形)映射为图中的结点和边。在其拓展到时间序列分析领域后,可见性图能够高效地将时序数据(如价量数据)转化为图结构,以提取时序数据中的有效信息。
在可见性图的构建算法中,采用了一种朴素的思想。如图1所示,图中包含20个数据的柱状图,从第1个柱状图起,将每个柱状图与其他所有柱状图在顶部相连,若该连接不穿过其他柱状图,则为“可见”,该节点以整形数字1来表示;若穿过其他柱状图,则为“不可见”,该节点以整形数字0来表示。举个例子,第1个柱状图与第2、3、4、5个柱状图是“可见的”,不穿插经过其他柱状图,以蓝色线表示;而第1个柱状图与第6个柱状图是“不可见的”,因为其穿插经过了第4和第5个柱状图,以红色线表示。
由于任意的时间序列数据都可以以此柱状图的形式来表达,因此可通过可见性图来对时序数据进行特征提取。此图结构在数据形式上体现为二维的整型矩阵,矩阵中的元素均为整数0或1,有效地降低了数据的冗余性,减少了后续深度学习模型在训练过程中的过拟合现象,提升了模型的泛化能力。

此外,可见性图在水平和垂直方向上均具有仿射不变性的特征,如图2所示,图a为原时间序列对应的柱状图,图b发生了时间顺位移动,图c和图d发生了横纵坐标上的放缩,图e发生了其他仿射变换,但这些经过变换后的时序与原时序的可见性图是完全一致的。该特性使得可见性图能够有效提取价量数据中的形态特征,如相同的走势出现在不同的历史时期、不同的价格点上,可见性图可以识别出相似的形态走势,从而提升特征提取和股价预测能力。


1.2
可见性图与卷积神经网络

在前序工作《深度学习研究报告:基于卷积神经网络的股价走势AI识别与分类》中,我们对卷积神经网络进行了详细的介绍,提出了首先基于价量数据构建标准化的价量数据图表,而后采用卷积神经网络将价量数据图表与未来股价走势进行建模的股价预测模型。在该策略中,包含20日价量数据的图表矩阵维度为3*200*200,矩阵中的元素为常见图片的0~255整型数字,数据较为密集,在计算能力充分满足的情况下取得了可观的收益结果。

而在本工作中,我们另辟蹊径,提出了基于Visibility Graph-CNN创新架构的高效股价预测模型。首先,采用可见性图对价量数据进行初步的特征提取,对于20日(60日)价量数据得到维度为6*20*20(6*60*60)低维度特征矩阵,且矩阵的元素均为整数0或1。由于可见性图大大降低了数据的冗余性,且其本身具备高效的初步特征提取能力,因此本工作设计了一个参数量少、复杂度低的卷积神经网络将其与未来股价进行建模,该网络结构如图3所示。在对开盘价、最高价、最低价、收盘价、交易量、交易额6组价量数据提取可见性图后,将可见性图输入4层卷积神经网络中,并采用全连接层和SoftMax函数将其映射为3个概率,分别对应个股在未来截面日上收益率的百分位,即后1/3、中1/3、前1/3,以表示跌、平、涨,最终以股票上涨的概率作为因子进行选股。


在卷积神经网络模型的实现细节上,采用Xavier(Glorot and Bengio, 2010)的方式来对模型的参数进行初始化,使得模型的初始预测方差更接近数据标签,以加速模型在训练过程中的收敛速度;采用Adam(Kinga and Adam, 2015)优化器、1x10-5学习率、512批大小(Batch Size)对模型进行训练;采用训练数据外的验证集对训练中的模型进行验证,以确定最优早停(Early Stopping)时点。

本工作基于过去20日和60日的价量数据,分别训练了两个模型(在下文中分别称为20日模型及60日模型),以预测未来20个交易日的股票涨跌情况。

二、实证分析

2.1
数据说明
选股范围:全市场,沪深300,中证500,中证800,中证1000,创业板
股票预处理:剔除非上市、摘牌、ST/*ST、涨跌停板、上市未满60个交易日的股票
训练数据:全市场2005年1月~2016年12月
验证数据:全市场2017年2月~2019年11月(与训练数据间隔1个月防止数据暴露)
回测区间:2020年1月~2023年12月(与验证数据间隔1个月防止数据暴露)
分档方式:根据当期预测的个股价格未来上涨概率,从大到小分为10档
调仓周期:20个交易日,信号次日均价买入、20个交易日后均价卖出
数据来源:Wind,天软科技 
2.2
因子分档表现

从下图可以看出,20日模型因子和60日模型因子在各大板块当中均取得了不错的分档效果,从Q1档多头到Q10档空头呈现出较为单调递减的收益,且Q1档多头相较于其他所有分档取得了较为突出的分档超额收益,因子具有不错的分层选股能力。



2.3
20日模型因子与常见风格因子的相关性
20日模型因子与常见风格因子的相关性如下表所示,除了与最高点距离因子的相关性为0.2387,与六个月股价反转、换手率、三个月股价反转、容量比、一个月股价反转等因子的相关性分别为-0.1190、-0.1549、-0.1867、-0.2238、-0.3007外,与其他风格因子的相关性绝对值均小于0.1,可见20日模型因子与常见风格因子的相关性较低,是一组较为新颖、拥挤度低的因子。

2.4
60日模型因子与常见风格因子的相关性
60日模型因子与常见风格因子的相关性如下表所示,除了与最高点距离和流通市值因子的相关性分别为0.1929和0.1282,与六个月股价反转、容量比、换手率、三个月股价反转、一个月股价反转等因子的相关性分别为-0.1194、-0.1966、-0.2298、-0.2320、-0.2756外,与其他风格因子的相关性绝对值均小于0.1,可见60日模型因子与常见风格因子的相关性较低,是一组较为新颖、拥挤度低的因子。

2.5
20日模型因子具体表现(全市场)
20日模型因子在全市场股票池中的表现如下图表所示,在2020~2023年回测期间,Q1多头取得了10.35%的年化收益率,相对于同期中证全指的超额年化收益率为9.57%,Q1-Q10多空年化收益率为16.67%。

2.6
20日模型因子具体表现(中证500)
20日模型因子在中证500股票池中的表现如下图表所示,在2020~2023年回测期间,Q1多头取得了6.41%的年化收益率,相对于同期中证500指数的超额年化收益率为4.33%,Q1-Q10多空年化收益率为8.92%。

2.7
20日模型因子具体表现(中证1000)
20日模型因子在中证1000股票池中的表现如下图表所示,在2020~2023年回测期间,Q1多头取得了7.56%的年化收益率,相对于同期中证1000指数的超额年化收益率为4.06%,Q1-Q10多空年化收益率为18.10%。

2.8
20日模型因子具体表现(创业板)
20日模型因子在创业板股票池中的表现如下图表所示,在2020~2023年回测期间,Q1多头取得了8.79%的年化收益率,Q1-Q10多空年化收益率为18.56%;在2023年期间,Q1多头相对于同期创业板指取得了37.74%的超额年化收益率。

2.9
60日模型因子具体表现(全市场)
60日模型因子在全市场股票池中的表现如下图表所示,在2020~2023年回测期间,Q1多头取得了10.24%的年化收益率,相对于同期中证全指的超额年化收益率为9.61%,Q1-Q10多空年化收益率为13.36%。

2.10
60日模型因子具体表现(中证500
60日模型因子在中证500股票池中的表现如下图表所示,在2020~2023年回测期间,Q1多头取得了4.83%的年化收益率,相对于同期中证500指数的超额年化收益率为3.00%。

2.11
60日模型因子具体表现(中证1000
60日模型因子在中证1000股票池中的表现如下图表所示,在2020~2023年回测期间,Q1多头取得了6.08%的年化收益率,相对于同期中证1000指数的超额年化收益率为2.65%,Q1-Q10多空年化收益率为13.79%。

2.12
60日模型因子具体表现(创业板
60日模型因子在创业板股票池中的表现如下图表所示,在2020~2023年回测期间,Q1多头取得了11.79%的年化收益率,Q1-Q10多空年化收益率为20.85%;在2023年期间,Q1多头相对于同期创业板指取得了40.83%的超额年化收益率。

五、总结
本工作融合可见性图(Visibility Graph)和卷积神经网络(CNN),提出了基于Visibility Graph-CNN创新架构的高效股价预测模型。首先,使用可见性图算法模型对个股的历史价量数据进行初步的特征提取,而后将提取得到的可见性图送入特别设计的卷积神经网络中,以进一步提取价量特征,并与个股的未来走势进行建模,以实现对未来股价的预测。由于可见性图是低维度的整型矩阵,因此本工作设计了一个参数量少、复杂度低的卷积神经网络将其与未来股价进行建模,进一步减少了模型的过拟合情况,提升了模型在样本外数据的预测能力。
本工作采用过往20日和60日价量数据分别构建了两个Visibility Graph-CNN模型,以实现对未来20个交易日截面上的个股进行股价预测,并根据预测的股价上涨概率将个股分为10档,以此构建多、空组合。回测结果表明,两个模型的因子在各大板块当中均取得了较为单调的分档收益,表明了因子具有不错的分层选股能力。
在2020~2023年样本外回测期间,20日模型因子在全市场的平均RankIC为5.39%,多头年化收益率为10.35%,相比同期中证全指的超额年化收益率为9.57%;而60日模型因子在全市场的平均RankIC为5.61%,多头年化收益率为10.24%,相比同期中证全指的超额年化收益率为9.61%;整体而言,20日模型和60日模型的表现差异不大。在细分板块上,20日模型因子在中证500、中证1000、创业板上分别取得了6.41%、7.56%、8.79%的多头年化收益率;而60日模型因子在中证500、中证1000、创业板上分别取得了4.83%、6.08%、11.79%的多头年化收益率。

风险提示:

本专题报告所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时可能存在失效风险;

本专题策略模型在市场结构及交易行为的改变时有可能存在策略失效风险;
因量化模型不同,本报告提出的观点可能与其他量化模型结论存在差异。

详细研究内容请参见广发金工专题报告


《基于Visibility Graph-CNN创新架构的高效股价预测模型


法律声明:
本微信号推送内容仅供广发证券股份有限公司(下称“广发证券”)客户参考,其他的任何读者在订阅本微信号前,请自行评估接收相关推送内容的适当性,广发证券不会因订阅本微信号的行为或者收到、阅读本微信号推送内容而视相关人员为客户。
完整的投资观点应以广发证券研究所发布的完整报告为准。完整报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性或完整性做出任何保证,报告内容亦仅供参考。
在任何情况下,本微信号所推送信息或所表述的意见并不构成对任何人的投资建议。除非法律法规有明确规定,在任何情况下广发证券不对因使用本微信号的内容而引致的任何损失承担任何责任。读者不应以本微信号推送内容取代其独立判断或仅根据本微信号推送内容做出决策。
本微信号推送内容仅反映广发证券研究人员于发出完整报告当日的判断,可随时更改且不予通告。
本微信号及其推送内容的版权归广发证券所有,广发证券对本微信号及其推送内容保留一切法律权利。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。


广发金融工程研究
定期发布团队最新研究成果及观点,欢迎交流!
 最新文章