【广发金工】2024精选深度报告系列之十一:订单维度解耦的22个长短单因子

财富   财经   2024-09-18 07:58   广东  


摘 要

数据制胜

如何能在股票市场的博弈中胜出?对于量化投资者来说,关键在于对数据的全面收集,并结合数学模型和算法进行深入分析,从海量数据中挖掘出隐藏的市场规律。

在前序研究“多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)”中,从订单的大小角度对Level 2逐笔订单数据进行窥探,并结合多维度解耦的分析方法构建出了有效的大小单因子。


基于Level 2逐笔订单数据构建的长短单因子
在股票交易所的订单撮合中,同一笔委托可能会由于对手下单数量的不同而被拆解为多个订单成交,而拆解后的多个订单既可能在短时间内连续完成,也可能在较长的一段时间内分散完成。因此,不同委托订单的成交完成时间并不相同。基于此观察,本文作为“海量Level 2数据因子挖掘”系列研究报告的第二篇,继续从Level 2数据出发,根据逐笔成交订单中不同买入或卖出订单号的实际成交完成时间进行成交量占比统计,并结合订单维度的解耦分析方法构建出有效的长短单因子。

精选长短单因子组合。
本文进一步从上述原始长短单因子中挑选出表现优异者,构建出精选长短单因子组合。具体而言,采用因子值排序后的前K个股票构建Top-K组合,以t+1日均价买入,20个交易日换仓,双边千三计费,实证结果表明精选长短单因子组合在A股全市场及各大板块中均取得了较为出色的表现。

全市场板块。

2021~2023年间,精选因子RankIC均值达13.2%、胜率达80.5%,Top-150组合的平均年化收益率为21.41%、最大回撤率为18.70%、夏普比率为1.31,同期中证全指平均年化收益率为-8.50%。


创业板板块。

2021~2023年间,精选因子RankIC均值达13.2%、胜率达80.3%,Top-150组合的平均年化收益率为21.52%、最大回撤率为29.49%、夏普比率为1.07,同期创业板综指指数平均年化收益率为-7.46%。2023年,Top-150组合的年化收益率为25.69%、最大回撤率为9.39%、夏普比率为1.76,同期创业板综指年化收益率为-5.39%。


沪深300板块。

2021~2023年间,精选因子RankIC均值为10.2%、胜率为65.9%,Top-50组合的平均年化收益率为6.61%、最大回撤率为14.87%、夏普比率为0.35,而同期沪深300指数平均年化收益率为-13.79%,精选因子组合取得了较为显著的超额收益。


风险提示。

(1)本文所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时存在失效风险;(2)本文策略在市场结构及交易行为改变时有可能存在失效风险;(3)因量化模型不同,本文提出的观点可能与其他量化模型结论存在差异。





正 文

一、Level 1与Level 2行情数据介绍

如何能在股票市场的博弈中胜出?关键在于对市场信息的掌握和对市场规律的理解。对于量化投资者来说,更在于对数据的全面收集和深度分析,并结合数学模型和算法,从海量数据中挖掘出隐藏的市场规律。这些规律可能是某些股票价格的趋势,市场的周期性波动,抑或是短期的交易信号。一旦这些规律被发现并加以利用,量化投资者便能在股票市场的博弈中获得优势。
股票行情数据源于上交所和深交所,根据数据的频率和丰富度通常分为Level 1数据和Level 2数据。如表1所示,Level 1数据为3秒一笔的快照(Snapshot)数据,包含了常用行情软件上可以看到的最高价、最低价、开盘价、收盘价、成交量、成交额、成交笔数、委买委卖量、5档申买申卖价、5档申买申卖量等数据。而相比数据频率较低、数据丰富度有限的Level 1数据,Level 2数据中则不仅提供了更为丰富的快照(Snapshot)数据,如10档申买申卖价、10档申买申卖量、最优买卖价前50笔委托、买卖委托价位数、买卖撤单信息等,而且提供了Level 1数据中所不包含的逐笔订单(Tick)数据。逐笔订单数据包含了当日交易时段中集合竞价阶段和连续竞价阶段的每一笔订单数据,其中的关键信息包括精确到毫秒的订单时间、逐笔序号、频道代码、价格、数量、金额、买入卖出订单号和订单类别等详细数据。Level 2数据中的逐笔订单数据是一切行情数据的根源,不同频率的快照数据均由逐笔订单数据聚合而成。在“海量Level 2数据因子挖掘”系列研究报告中,将尝试对Level 2数据中详细的快照数据和逐笔订单数据进行深入分析并加以利用,有望能够从中获得更为丰富的价格趋势、周期波动、交易信号等规律和信息,从而挖掘出更为有效的因子,构建出具有超额收益的股票投资组合。
在前序研究“多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)”中,从所有行情数据的根源——Level 2逐笔订单出发,通过“大小订单”的角度对所有交易订单进行窥探,结合多维度解耦的分析方法构建出了多个有效的大小单因子,并从中挑选出表现优异者构建出了精选大小单因子组合,在A股全市场及各大板块中均取得了较为突出的表现。
本文是在“海量Level 2数据因子挖掘”系列研究报告的第二篇,继续从Level 2逐笔订单数据出发,通过“长短订单”的角度对所有交易订单进行窥探,并结合多维度解耦的分析方法构建出了22个有效的长短单因子。


二、长短单因子构建

在股票交易所的订单撮合中,同一笔委托可能会由于对手下单数量的不同而被拆解为多个订单成交,而拆解后的多个订单既可能在短时间内连续完成,也可能在较长的一段时间内分散完成。因此,不同委托订单的成交完成时间并不相同。基于此观察,本文分别对逐笔成交订单中不同买入或卖出订单号的实际成交完成时间进行统计,并对成交完成时长大于均值+N倍标准差的订单界定为长单,剩余的则相应地界定为短单。本文分别采用3个不同的标准差阈值来对长短单进行界定,假设买卖订单中的成交量服从如图1所示的高斯分布,则买卖订单中成交完成时长大于均值+1.0倍标准差的长单约占15.8%,大于均值+1.5倍标准差的长单约占6.7%,大于均值+2.0倍标准差的长单约占2.3%,以此构建出了长买单占比因子LongBuy_1p0、LongBuy_1p5、LongBuy_2p0,以及长卖单占比因子LongSell_1p0、LongSell_1p5、LongSell_2p0。此外,还可以将长买单占比因子和长卖单占比因子相加得到长买长卖单占比因子LongBuySell_1p0、LongBuySell_1p5、LongBuySell_2p0。而短单占比因子实际上等于1-长单占比因子,它们之间呈现出同向的线性关系,因此长单占比因子实际上已包含短单占比因子信息,无需额外构建短单占比因子。


长单占比因子在全市场中的20档回测如表2~表5所示。在5日换仓条件下(表2),各因子的多头表现较为集中,年化收益率均在21~23%之间,其中LongBuySell_1p0因子的RankIC均值最高,为7.4%,胜率为72%,多头年化收益率为22.63%,具有较低的最大回撤率15.91%和较高的夏普比率1.27;在多空组合上,LongBuySell_1p0因子的表现同样较为突出,取得了54.76%的年化收益率,最大回撤率为10.76%,夏普比率达3.80。
在经过因子平滑处理的5日换仓情况下(表3),各因子的RankIC均值和多头最大回撤率指标均有提升,但RankIC胜率和多头年化收益率略有衰减。其中表现较好的LongBuySell_1p0因子的RankIC均值为7.8%,胜率为68%,多头年化收益率为20.65%、最大回撤率为13.44%、夏普比率为1.19,多空年化收益率为55.32%、最大回撤率为14.93%、夏普比率为3.09。
在20日换仓条件下(表4),各因子的多头表现仍然较为集中,年化收益率均在22~24%之间,其中LongBuySell_1p0因子的RankIC均值最高,达10.4%,胜率达77%,多头年化收益率为23.17%,具有较低的最大回撤率9.31%和较高的夏普比率1.54;在多空组合上,LongBuySell_1p0因子的表现同样较为突出,年化收益率为37.74%,最大回撤率为9.03%,夏普比率为2.34。
在经过因子平滑处理的20日换仓情况下(表5),与5日换仓的情况类似,各因子的RankIC均值和多头最大回撤率指标均有提升,但RankIC胜率和多头年化收益率略有衰减。其中表现较好的LongBuySell_1p0因子的RankIC均值达11.7%,胜率为72%,多头年化收益率为21.78%、最大回撤率为6.84%、夏普比率为1.49,多空年化收益率为38.26%、最大回撤率为12.98%、夏普比率为1.76。





三、从订单维度解耦长短单因子
从本文第二章节中对长短单的界定划分可以看出,同一笔成交订单同时存在着买入和卖出两个方向上的长短单属性。因此,长短单因子可以拆解为长买单长卖单、长买单短卖单、短买单长卖单、短买单短卖单四种订单属性不同的因子。文小节基于三种不同的长短单划分阈值构建出了12个从订单维度解耦的长短单占比因子,谋求挖掘出更有效的信息。(值得注意是,本文并未像前序研究“多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)”中一样对长短单因子从时间维度进行解耦。这是因为长短单因子本身即考虑了时间维度,且可能存在横跨多个时间段的情况,因此无需从时间维度对长短单因子进行解耦分析)
经订单维度解耦后的长短单占比因子在全市场中的20档回测表现如表6~表9所示。其中,在长短订单界定标准为当日所有成交订单的时长均值+1.0倍标准差情况下,长买单短卖单因子LongBuy_ShortSell_1p0、短买单长卖单因子ShortBuy_LongSell_1p0、短买单短卖单因子ShortBuy_ShortSell_1p0表现较为突出。
在5日换仓条件下(表6),三个因子的多头表现较为集中,年化收益率在20~23%之间,最大回撤率在15~18%之间,夏普比率在1.16~1.27之间。其中ShortBuy_ShortSell_1p0因子的RankIC均值绝对值最高,为-7.4%,胜率为28%。在多空组合上,ShortBuy_ShortSell_1p0因子的表现同样较为突出,取得了54.85%的年化收益率,最大回撤率为11.00%,夏普比率达3.78。
在经过因子平滑处理的5日换仓情况下(表7),各因子的RankIC均值绝对值和多头最大回撤率指标均有提升,但RankIC胜率和多头年化收益率略有衰减。其中ShortBuy_ShortSell_1p0因子的RankIC均值绝对值最高,为-7.8%,胜率为32%,多头组合的年化收益率为20.64%、最大回撤率为13.27%,夏普比率为1.19,多空组合年化收益率为55.43%,最大回撤率为15.19%,夏普比率达3.08。
在20日换仓条件下(表8),三个因子的多头表现较为集中,年化收益率在22~23%之间,最大回撤率在9~12%之间,夏普比率在1.43~1.53之间。其中ShortBuy_ShortSell_1p0因子的RankIC均值绝对值最高,达-10.4%,胜率达23%。在多空组合上,ShortBuy_ShortSell_1p0因子的表现同样较为突出,年化收益率为37.73%,最大回撤率为9.19%,夏普比率达2.31。
在经过因子平滑处理的20日换仓情况下(表9),与5日换仓情况类似,各因子的RankIC均值绝对值和多头最大回撤率指标均有提升,但RankIC胜率和多头年化收益率略有衰减。其中ShortBuy_ShortSell_1p0因子的RankIC均值绝对值最高,达-11.7%,胜率为28%,多头组合的年化收益率为21.65%、最大回撤率为6.79%,夏普比率为1.49,多空组合年化收益率为38.10%,最大回撤率为13.23%,夏普比率为1.74。





四、精选长短单因子组合
最后,本文从上述21个长短单因子中挑选出表现优异者,构建出了精选长短单因子组合,并对其在各大版块上进行回测,实证分析表明精选长短单因子组合取得了较为出色的表现。
选股范围:全市场,创业板,沪深300,中证500,中证800,中证1000 
股票预处理:剔除摘牌、ST/*ST、涨跌停、上市未满一年股票
回测区间:2021年1月~2023年12月
回测路径:以多路径回测均值作为统计数据
组合构建:采用因子值排序后的前K个股票构建Top-K组合
调仓策略:每20个交易日,根据t日因子值以t+1日均价买入,t+21日均价卖出
交易费率:双边千分之三(卖出时收取)

4.1
从低频信息到高频信

在2021~2023年期间,精选长短单因子组合在全市场板块的RankIC均值达13.2%、胜率达80.5%。以因子值对全市场股票进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图2和表10所示。在2021~2023年期间,各组合分别取得了18.97%、19.52%、21.25%、21.41%、20.83%的平均年化收益率,而同期中证全指的平均年化收益率为-8.50%,精选长短单因子组合取得了较为出色的超额收益。



4.2
精选长短单因子组合在创业板板块中的表现

在2021~2023年期间,精选长短单因子组合在创业板板块的RankIC均值达13.2%、胜率达80.3%。以因子值对创业板股票进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图3和表11所示。在2021~2023年期间,各组合分别取得了19.48%、20.67%、21.54%、21.52%、20.51%的平均年化收益率,而同期创业板综指指数的平均年化收益率为-7.46%;在2023年期间,各组合分别取得了19.86%、21.46%、24.22%、25.69%、25.58%的平均年化收益率,而2023年创业板综指指数的年化收益率为-5.39%,精选长短单因子组合取得了较为出色的超额收益。



4.3
精选长短单因子组合在沪深300板块中的表现

在2021~2023年期间,精选长短单因子组合在沪深300板块的RankIC均值为10.2%、胜率为65.9%。以因子值对沪深300股票进行排序,分别取Top-30、50个股票构建组合进行测算,结果如图4和表12所示。在2021~2023年期间,各组合分别取得了6.15%、6.61%的平均年化收益率,而同期沪深300指数的平均年化收益率为-13.79%;在2023年期间,各组合分别取得了11.17%、11.13%的平均年化收益率,而2023年沪深300指数的年化收益率为-11.33%,精选长短单因子组合取得了较为出色的超额收益。



4.4
精选长短单因子组合在中证500板块中的表现

在2021~2023年期间,精选长短单因子组合在中证500板块的RankIC均值为11.1%、胜率为65.9%。以因子值对中证500股票进行排序,分别取Top-30、50、100个股票构建组合进行测算,结果如图5和表13所示。在2021~2023年期间,各组合分别取得了7.70%、8.18%、7.70%的平均年化收益率,而同期中证500指数的平均年化收益率为-5.98%;在2023年期间,各组合分别取得了4.13%、5.37%、5.76%的平均年化收益率,而2023年中证500指数的年化收益率为-7.39%,精选长短单因子组合取得了较为出色的超额收益。



4.5
精选长短单因子组合在中证800板块中的表现

在2021~2023年期间,精选长短单因子组合在中证800板块的RankIC均值为11.3%、胜率为68.7%。以因子值对中证800股票进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图6和表14所示。在2021~2023年期间,各组合分别取得了6.59%、7.93%、7.53%、7.26%、6.64%的平均年化收益率,而同期中证800指数的平均年化收益率为-12.01%;在2023年期间,各组合分别取得了2.79%、4.49%、6.74%、6.58%、6.26%的平均年化收益率,而2023年中证800指数的年化收益率为-10.33%,精选长短单因子组合取得了较为出色的超额收益。



4.6
精选长短单因子组合在中证1000板块中的表现

在2021~2023年期间,精选长短单因子组合在中证1000板块的RankIC均值为10.0%、胜率为67.4%。以因子值对中证1000股票进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图7和表15所示。在2021~2023年期间,各组合分别取得了9.83%、10.59%、11.21%、10.00%、8.76%的平均年化收益率,而同期中证1000指数的平均年化收益率为-4.70%,精选长短单因子组合取得了较为出色的超额收益。



五、总结与展望
如何能在股票市场的博弈中胜出?对于量化投资者来说,关键在于对数据的全面收集,并结合数学模型和算法进行深入分析,从海量数据中挖掘出隐藏的市场规律。Level 1行情数据为3秒一笔的快照(Snapshot)数据,包含了简单的开高低收交易量交易金额等常规数据,所含信息有限。而相比数据频率较低、数据丰富度有限的Level 1数据,Level 2数据中则不仅提供了更为丰富的快照(Snapshot)数据,如10档申买申卖价、10档申买申卖量、最优买卖价前50笔委托、买卖委托价位数、买卖撤单信息等,而且提供了Level 1数据中所不包含的逐笔订单(Tick)数据。
在前序研究“多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)”中,从订单的大小角度对Level 2逐笔订单数据进行窥探,并结合多维度解耦的分析方法构建出了有效的大小单因子。
本文则是“海量Level 2数据因子挖掘”系列研究报告的第二篇,尝试了从Level 2逐笔订单数据中构建出有效的长短单占比因子。在股票交易所的订单撮合中,同一笔委托可能会由于对手下单数量的不同而被拆解为多个订单成交,而拆解后的多个订单既可能在短时间内连续完成,也可能在较长的一段时间内分散完成。因此,不同委托订单的成交完成时间并不相同。基于此观察,本文作为“海量Level 2数据因子挖掘”系列研究报告的第二篇,继续从Level 2数据出发,根据逐笔成交订单中不同买入或卖出订单号的实际成交完成时间进行成交量占比统计,并结合订单维度的解耦分析方法构建出有效的长短单因子。
进一步的,本文从上述原始长短单因子中挑选出表现优异者,构建出精选长短单因子组合。具体而言,采用因子值排序后的前K个股票构建Top-K组合,以t+1日均价买入,20个交易日换仓,双边千三计费,实证结果表明精选长短单因子组合在A股全市场及各大板块中均取得了较为出色的表现。
全市场板块回测:2021~2023年间,因子RankIC均值达13.2%、胜率达80.5%,Top-150组合的平均年化收益率为21.41%、最大回撤率为18.70%、夏普比率为1.31,而同期中证全指平均年化收益率为-8.50%,精选长短单因子组合取得了较为显著的超额收益。
创业板板块回测:2021~2023年间,因子RankIC均值达13.2%、胜率达80.3%,Top-150组合的平均年化收益率为21.52%、最大回撤率为29.49%、夏普比率为1.07,同期创业板综指平均年化收益率为-7.46%。在2023年,Top-150组合的年化收益率为25.69%、最大回撤率为9.39%、夏普比率为1.76,而同期创业板综指年化收益率为-5.39%,精选长短单因子组合取得了较为显著的超额收益。
沪深300板块回测:2021~2023年间,因子RankIC均值为10.2%、胜率为65.9%,Top-50组合的平均年化收益率为6.61%、最大回撤率为14.87%、夏普比率为0.35,而同期沪深300指数平均年化收益率为-13.79%,精选长短单因子组合取得了较为显著的超额收益。
展望未来,“海量Level 2数据因子挖掘”系列研究报告将继续深入Level 2数据,从海量数据中挖掘出隐藏的市场规律,构建出更多的有效因子。

六、风险提示
本文所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时存在失效风险;
本文策略在市场结构及交易行为改变时有可能存在失效风险;
因量化模型不同,本文提出的观点可能与其他量化模型结论存在差异。


详细研究内容请参见广发金工专题报告


《订单维度解耦的22个长短单因子:海量Level 2数据因子挖掘系列(二)


法律声明:
本微信号推送内容仅供广发证券股份有限公司(下称“广发证券”)客户参考,其他的任何读者在订阅本微信号前,请自行评估接收相关推送内容的适当性,广发证券不会因订阅本微信号的行为或者收到、阅读本微信号推送内容而视相关人员为客户。
完整的投资观点应以广发证券研究所发布的完整报告为准。完整报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性或完整性做出任何保证,报告内容亦仅供参考。
在任何情况下,本微信号所推送信息或所表述的意见并不构成对任何人的投资建议。除非法律法规有明确规定,在任何情况下广发证券不对因使用本微信号的内容而引致的任何损失承担任何责任。读者不应以本微信号推送内容取代其独立判断或仅根据本微信号推送内容做出决策。
本微信号推送内容仅反映广发证券研究人员于发出完整报告当日的判断,可随时更改且不予通告。
本微信号及其推送内容的版权归广发证券所有,广发证券对本微信号及其推送内容保留一切法律权利。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。


广发金融工程研究
定期发布团队最新研究成果及观点,欢迎交流!
 最新文章