如何能在股票市场的博弈中胜出?对于量化投资者来说,关键在于对数据的全面收集,并结合数学模型和算法进行深入分析,从海量数据中挖掘出隐藏的市场规律。相关研究工作。
在“海量Level 2数据因子挖掘”系列研究(一)和(二)中,分别从订单的大小角度和长短角度对Level 2逐笔订单数据展开研究,并结合多维度解耦的分析方法构建出了有效的大小单因子和长短单因子。
大小单和长短单因子的相关性。
本文首先统计了前序研究中的大小单因子和长短单因子之间的相关性。从结果来看,大小单因子和长短单因子之间的相关性较低,相关系数范围在-0.19~0.19之间,表明“大小”和“长短”是衡量逐笔订单的两个较为独立的维度。
有了以上研究基础和初步结论,本文作为“海量Level 2数据因子挖掘”系列研究报告的第三篇,进一步尝试同时结合订单的“大小”和“长短”维度对其进行深入剖析,构建出了240个同时从“大小”和“长短”角度进行解构的订单因子。其中,2021/01/01 ~ 2023/12/31期间以20日进行换仓,RankIC均值大于8%的因子数量超过50个。
精选订单因子组合。
本文进一步从上述240个因子中挑选出表现优异者,构建出精选订单因子组合。具体而言,采用因子值排序后的前K个股票构建Top-K组合,以t+1日均价买入,20个交易日换仓,双边千三计费,实证结果表明精选订单因子组合在A股全市场及各大板块中均取得了较为出色的表现。
全市场板块。
2021~2023年间,精选因子RankIC均值达13.3%、胜率达78.3%,Top-30组合的平均年化收益率为31.33%、最大回撤率为15.39%、夏普比率为1.86,而同期中证全指年化收益率为-8.50%。
创业板板块。
2021~2023年间,精选因子RankIC均值达13.7%、胜率达83.4%,Top-30组合的平均年化收益率为27.66%、最大回撤率为25.45%、夏普比率为1.30,而同期创业板综指年化收益率为-7.46%。
国证2000板块。
2021~2023年间,精选因子RankIC均值为12.7%,胜率为76.5%,Top-30组合的平均年化收益率为25.00%、最大回撤率为17.50%、夏普比率为1.44,而同期国证2000指数平均年化收益率为1.22%,精选订单因子组合取得了较为显著的超额收益。
风险提示:(1)本文所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时存在失效风险;(2)本文策略在市场结构及交易行为改变时有可能存在失效风险;(3)因量化模型不同,本文提出的观点可能与其他量化模型结论存在差异。
如何能在股票市场的博弈中胜出?关键在于对市场信息的掌握和对市场规律的理解。对于量化投资者来说,更在于对数据的全面收集和深度分析,并结合数学模型和算法,从海量数据中挖掘出隐藏的市场规律。这些规律可能是某些股票价格的趋势,市场的周期性波动,抑或是短期的交易信号。一旦这些规律被发现并加以利用,量化投资者便能在股票市场的博弈中获得优势。
股票行情数据源于上交所和深交所,根据数据的频率和丰富度通常分为Level 1数据和Level 2数据。如表1所示,Level 1数据为3秒一笔的快照(Snapshot)数据,包含了常用行情软件上可以看到的最高价、最低价、开盘价、收盘价、成交量、成交额、成交笔数、委买委卖量、5档申买申卖价、5档申买申卖量等数据。而相比数据频率较低、数据丰富度有限的Level 1数据,Level 2数据中则不仅提供了更为丰富的快照(Snapshot)数据,如10档申买申卖价、10档申买申卖量、最优买卖价前50笔委托、买卖委托价位数、买卖撤单信息等,而且提供了Level 1数据中所不包含的逐笔订单(Tick)数据。逐笔订单数据包含了当日交易时段中集合竞价阶段和连续竞价阶段的每一笔订单数据,其中的关键信息包括精确到毫秒的订单时间、逐笔序号、频道代码、价格、数量、金额、买入卖出订单号和订单类别等详细数据。Level 2数据中的逐笔订单数据是一切行情数据的根源,不同频率的快照数据均由逐笔订单数据聚合而成。在“海量Level 2数据因子挖掘”系列研究报告中,将尝试对Level 2数据中详细的快照数据和逐笔订单数据进行深入分析并加以利用,有望能够从中获得更为丰富的价格趋势、周期波动、交易信号等规律和信息,从而挖掘出更为有效的因子,构建出具有超额收益的股票投资组合。
在前序研究“多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)”中,从所有行情数据的根源——Level 2逐笔订单出发,通过“大小订单”的角度对所有交易订单进行窥探,结合多维度解耦的分析方法构建出了多个有效的大小单因子,并从中挑选出表现优异者构建出了精选大小单因子组合,在A股全市场及各大板块中均取得了较为突出的表现。而在前序研究“多维度解耦的22个长短单因子:海量Level 2数据因子挖掘系列(二)”中,则通过“订单成交完成时长”的角度继续对Level 2逐笔订单数据展开研究,通过订单维度的解耦分析方法构建出了22个有效的长短单因子,并从中挑选出表现优异者构建出了精选长短单因子组合,在A股全市场及各大板块中均取得了较为突出的表现。本文首先对前序研究中的大小单因子和长短单因子之间的相关性采用spearman相关系数进行计算,其中所有因子均采用原始值(未经平滑计算)。由于因子数量众多,这里采用以“均值+1.0倍标准差”作为大小单或长短单判断标准的因子进行相关性计算,结果如下表2所示。整体而言,大小单因子和长短单因子之间的相关性较低,相关系数范围在-0.19~0.19之间,这表明“大小”和“长短”是衡量逐笔订单的两个较为独立的维度。有了以上研究基础和初步结论,本文作为“海量Level 2数据因子挖掘”系列研究报告的第三篇,将进一步尝试同时结合订单的“大小”和“长短”维度对其进行深入剖析,谋求挖掘出更有效的Level 2因子。
在每个交易日中,股票的交易订单大小不一,而其中的大订单常常被认为是信息优势者发出的主力订单,对股票价格的未来走势具有揭示作用。而在股票交易所的订单撮合中,同一笔委托可能会由于对手下单数量的不同而被拆解为多个订单成交,而拆解后的多个订单既可能在短时间内连续完成,也可能在较长的一段时间内分散完成,即不同委托订单的成交完成时间并不相同。因此,可以同时从订单的“大小”和“长短”角度对其进行解构,并采用订单维度的解耦分析方法,结合同一笔订单中的“买入订单号”和“卖出订单号”属性,同时从买入和卖出两个角度进行分析,构建出相应的16种订单因子,如下表3所示。其中“大买_长买_大卖_长卖”因子“BigBuy_LongBuy_BigSell_LongSell”缩写为“BB_LB_BS_LS”,以此类推。对于订单的“大小”和“长短”界定,本文采用前序研究“多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)”和订单维度解耦的22个长短单因子:海量Level 2数据因子挖掘系列(二)”中的划分方法:将成交量(成交完成时长)大于均值+N倍标准差的订单界定为大单(长单),剩余的则相应地界定为小单(短单),并分别采用3个不同的标准差阈值来对大小单(长短单)进行界定。假设买卖订单中的成交量服从如图1所示的高斯分布,则买卖订单中成交量(成交完成时长)大于均值+1.0倍标准差的大单(长单)约占15.8%,大于均值+1.5倍标准差的大单(长单)约占6.7%,大于均值+2.0倍标准差的大单(长单)约占2.3%,以此基于3种不同阈值构建出16*3=48个同时从“大小”和“长短”进行解构的订单因子,比如“BB_LB_BS_LS_1p0”代表以均值+1.0倍标准差为大小(长短)订单划分阈值构建的因子。此外,如前序研究“多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)”中所言,隔夜知情交易者通常会在第二天开盘后迅速根据已掌握的信息进行买入或卖出,以谋求更大的收益或减少踩踏。具体而言,开盘后15分钟或30分钟内的大小订单信息尤其值得关注,类似的现象有时也会出现在收盘前15分钟或30分钟内。因此,本文进一步采用时间维度的解耦分析方法,结合不同交易时段的统计信息对上述48个因子进行解耦。其中,本文采用全日连续竞价交易时段、开盘后15分钟、开盘后30分钟、收盘前30分钟、收盘前15分钟这5个时段,分别以09301457、09300945、09301000、14301457、14451457作为因子名称的后缀予以区分。比如,“BB_LB_BS_LS_1p0_09301457”代表以均值+1.0倍标准差为大小(长短)订单划分阈值,以全日连续竞价交易时段作为统计口径的“大买_长买_大卖_长卖”因子。综上所述,本文共构建了16*3*5=240个同时从“大小”和“长短”进行解构的订单因子。上述240个因子在2021年1月1日~2023年12月31日期间A股全市场的RankIC表现如下表4~19所示,其中分别统计了原始因子值与未来5个、20个交易日收益的相关性,以及5日平滑因子和20日平滑因子分别与未来5个、20个交易日收益的相关性。 从统计结果来看,在20日换仓条件下,上述240个因子中有超过50个因子的RankIC均值大于8%,其中有18个因子的RankIC大于10%。整体而言,本文挖掘出了一大批可观的有效逐笔订单因子。进一步的,本文从上述240个基于“大小”和“长短”进行解构的订单因子中挑选出表现优异者,构建出精选订单因子组合,并对其在各大板块上进行回测。实证分析结果表明,精选订单因子组合取得了较为出色的表现。选股范围:全市场,创业板,沪深300,中证500,中证800,中证1000
股票预处理:剔除摘牌、ST/*ST、涨跌停、上市未满一年股票
回测区间:2021年1月~2023年12月
回测路径:以多路径回测均值作为统计数据
组合构建:采用因子值排序后的前K个股票构建Top-K组合
调仓策略:每20个交易日,根据t日因子值以t+1日均价买入,t+21日均价卖出
在2021~2023年期间,精选订单因子组合在全市场板块的RankIC均值达13.3%、胜率达78.3%。以因子值对全市场股票进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图2和表20所示。在2021~2023年期间,各组合分别取得了31.33%、31.15%、29.26%、27.55%、26.21%的平均年化收益率,而同期中证全指的平均年化收益率为-8.50%,精选订单因子组合取得了较为出色的超额收益。在2021~2023年期间,精选订单因子组合在创业板板块的RankIC均值达13.7%、胜率达83.4%。以因子值对创业板股票进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图3和表21所示。在2021~2023年期间,各组合分别取得了27.66%、26.72%、23.80%、22.33%、21.69%的平均年化收益率,而同期创业板综指指数的平均年化收益率为-7.46%;在2023年期间,各组合分别取得了30.55%、26.33%、24.64%、26.13%、27.85%的平均年化收益率,而2023年创业板综指指数的年化收益率为-5.39%,精选订单因子组合取得了较为出色的超额收益。
在2021~2023年期间,精选订单因子组合在沪深300板块的RankIC均值为10.5%、胜率为64.6%。以因子值对沪深300股票进行排序,分别取Top-30、50个股票构建组合进行测算,结果如图4和表22所示。在2021~2023年期间,各组合分别取得了10.62%、7.49%的平均年化收益率,而同期沪深300指数的平均年化收益率为-13.79%;在2023年期间,各组合分别取得了11.64%、9.96%的平均年化收益率,而2023年沪深300指数的年化收益率为-11.33%,精选订单因子组合取得了较为出色的超额收益。
在2021~2023年期间,精选订单因子组合在中证500板块的RankIC均值为11.1%、胜率为63.9%。以因子值对中证500股票进行排序,分别取Top-30、50、100个股票构建组合进行测算,结果如图5和表23所示。在2021~2023年期间,各组合分别取得了8.79%、10.22%、10.00%的平均年化收益率,而同期中证500指数的平均年化收益率为-5.98%,精选订单因子组合取得了较为出色的超额收益。
在2021~2023年期间,精选订单因子组合在中证800板块的RankIC均值为11.3%、胜率为65.6%。以因子值对中证800股票进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图6和表24所示。在2021~2023年期间,各组合分别取得了6.86%、8.78%、10.23%、9.32%、7.86%的平均年化收益率,而同期中证800指数的平均年化收益率为-12.01%,精选订单因子组合取得了较为出色的超额收益。
在2021~2023年期间,精选订单因子组合在中证1000板块的RankIC均值为10.7%、胜率为67.4%。以因子值对中证1000股票进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图7和表25所示。在2021~2023年期间,各组合分别取得了15.39%、14.88%、12.33%、12.16%、12.22%的平均年化收益率,而同期中证1000指数的平均年化收益率为-4.70%,精选订单因子组合取得了较为出色的超额收益。
在2021~2023年期间,精选订单因子组合在国证2000板块的RankIC均值为12.7%、胜率为76.5%。以因子值对国证2000股票进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图8和表26所示。在2021~2023年期间,各组合分别取得了25.00%、24.76%、22.99%、22.72%、21.84%的平均年化收益率,而同期国证2000指数的平均年化收益率为1.22%,精选订单因子组合取得了较为出色的超额收益。如何能在股票市场的博弈中胜出?对于量化投资者来说,关键在于对数据的全面收集,并结合数学模型和算法进行深入分析,从海量数据中挖掘出隐藏的市场规律。Level 1行情数据为3秒一笔的快照(Snapshot)数据,包含了简单的开高低收交易量交易金额等常规数据,所含信息有限。而相比数据频率较低、数据丰富度有限的Level 1数据,Level 2数据中则不仅提供了更为丰富的快照(Snapshot)数据,如10档申买申卖价、10档申买申卖量、最优买卖价前50笔委托、买卖委托价位数、买卖撤单信息等,而且提供了Level 1数据中所不包含的逐笔订单(Tick)数据。在前序研究“多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)”中,从所有行情数据的根源——Level 2逐笔订单出发,通过“大小订单”的角度对所有交易订单进行窥探,结合多维度解耦的分析方法构建出了多个有效的大小单因子,并从中挑选出表现优异者构建出了精选大小单因子组合,在A股全市场及各大板块中均取得了较为突出的表现。而在前序研究“多维度解耦的22个长短单因子:海量Level 2数据因子挖掘系列(二)”中,则通过“订单成交完成时长”的角度继续对Level 2逐笔订单数据展开研究,通过订单维度的解耦分析方法构建出了多个有效的长短单因子,并从中挑选出表现优异者构建出了精选长短单因子组合,在A股全市场及各大板块中均取得了较为显著的超额收益本文首先对前序研究中的大小单因子和长短单因子之间的相关性采用spearman相关系数进行计算。从测算结果来看,大小单因子和长短单因子之间的相关性较低,相关系数范围在-0.19~0.19之间,这表明“大小”和“长短”是衡量逐笔订单的两个较为独立的维度。有了以上研究基础和初步结论,本文作为“海量Level 2数据因子挖掘”系列研究报告的第三篇,同时结合订单的“大小”和“长短”维度对Level 2逐笔订单数据进行深入剖析,构建出了240个从“大小”和“长短”角度进行解构的订单因子。本文进一步从上述240个因子中挑选出表现优异者,构建出精选订单因子组合。具体而言,采用因子值排序后的前K个股票构建Top-K组合,以t+1日均价买入,20个交易日换仓,双边千三计费,实证结果表明精选订单因子组合在A股全市场及各大板块中均取得了较为出色的表现。全市场板块:在2021~2023年间,精选订单因子组合的RankIC均值达13.3%、胜率达78.3%,Top-30组合的平均年化收益率为31.33%、最大回撤率为15.39%、夏普比率为1.86,而同期中证全指年化收益率为-8.50%。创业板板块:在2021~2023年间,精选订单因子组合的RankIC均值达13.7%、胜率达83.4%,Top-30组合的平均年化收益率为27.66%、最大回撤率为25.45%、夏普比率为1.30,而同期创业板综指年化收益率为-7.46%。国证2000板块:在2021~2023年间,精选订单因子组合的RankIC均值为12.7%,胜率为76.5%,Top-30组合的平均年化收益率为25.00%、最大回撤率为17.50%、夏普比率为1.44,而同期国证2000指数平均年化收益率为1.22%,精选订单因子组合取得了较为显著的超额收益。展望未来,“海量Level 2数据因子挖掘”系列研究报告将继续深入Level 2数据,从海量数据中挖掘出隐藏的市场规律,构建出更多的有效因子。
本文所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时存在失效风险;
本文策略在市场结构及交易行为改变时有可能存在失效风险;
因量化模型不同,本文提出的观点可能与其他量化模型结论存在差异。
《大小单与长短单的241个碰撞火花:海量Level 2数据因子挖掘系列(三)》本微信号推送内容仅供广发证券股份有限公司(下称“广发证券”)客户参考,其他的任何读者在订阅本微信号前,请自行评估接收相关推送内容的适当性,广发证券不会因订阅本微信号的行为或者收到、阅读本微信号推送内容而视相关人员为客户。
完整的投资观点应以广发证券研究所发布的完整报告为准。完整报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性或完整性做出任何保证,报告内容亦仅供参考。
在任何情况下,本微信号所推送信息或所表述的意见并不构成对任何人的投资建议。除非法律法规有明确规定,在任何情况下广发证券不对因使用本微信号的内容而引致的任何损失承担任何责任。读者不应以本微信号推送内容取代其独立判断或仅根据本微信号推送内容做出决策。
本微信号推送内容仅反映广发证券研究人员于发出完整报告当日的判断,可随时更改且不予通告。
本微信号及其推送内容的版权归广发证券所有,广发证券对本微信号及其推送内容保留一切法律权利。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。