开源证券金融工程首席分析师 魏建榕
研究领域:高频量化、机器学习
摘要
我们在之前的专题报告《大小单重定标与资金流因子改进》中,利用逐笔成交数据重新切分大小单资金流并构造CNIR因子,但是在实际使用过程中发现效果并不理想。
资金流因子失效不应归结于策略同质化
CNIR因子在不同预测周期长度下的IC变化趋势,2016年以前的峰值大约出现在第15个交易日,2016年以后峰值似乎已经消失并且均值水平出现明显下滑。这说明即便是在若干个组合内共同使用资金流策略,也不至于出现的因子衰减。
以CNIR因子的构造为例,具体分析:
其一,合并资金流:将超大单、大单和中单合并为广义主力资金;
其二,剥离反转效应:逐日计算资金流指标(IMB)对涨跌幅的截面回归残差值,作为修正后的Alpha因子。
上述两步骤在分组的多空收益、多头超额等均有不错的收益增强,我们着重从这两个方面着手讨论。
关于回归方式的讨论
由于买卖行为促使价格发生变动会导致资金流因子暴露反转特征,我们在原始报告中通过截面回归的方式,剥离反转的负向IC,从而得到正向的资金流Alpha。考虑到改进的可能性,我们使用备用的回归方法构造CNIR因子。
(1)对比时序回归和截面回归而言,极端考虑个股差异同样不是可选项,因为这容易在截面上丧失同一分布假设的显著性,因子IC会降低;
(2)资金流因子的核心定价逻辑主要背靠机构的优秀的选股能力。在A股市场,机构交易者往往是以市值由大到小的方向覆盖其选股范围,在大市值股票中的选股效果会更加稳定,在小市值范围的排序能力较弱;
(3)资金流Alpha对于非稳定的市场环境的适应性会更弱一些,CNIR因子在沪深300指数成分股内的分组多空收益出现了较大回撤,小市值影响更甚。
行情软件中提供的超大单、大单、中单和小单的四类划分方法并不适合2015年以后的订单分布,我们讨论了如何更好地重新界定大单与小单的边界。
(1)绝对阈值:设定某个金额作为统一的划分阈值,将大于该金额的订单识别为大单;
(2)相对阈值:逐日统计所有个股的逐笔成交订单的委托金额,设定其由小到大的百分位r对应的金额作为阈值;
(3)动态阈值:回溯过去N个交易日,将区间内所有股票的逐笔成交订单视作整体,将其委托金额由小到大的百分位r对应数值作为统一标准。
主力资金识别难的问题并不能通过单纯调节大小单划分阈值来解决。划分标准的普适性减弱,拆单行为是最直接的影响因素,并且这一变化在流动性上分布不均。
报告链接
点击文末阅读原文(提取码请联系开源金工团队成员获取)
报告发布日期:2024-12-31
我们曾利用逐笔成交数据重新切分大小单资金流并构造CNIR因子,但是在实际使用过程中发现效果并不理想。关于资金流失效原因及如何应对的讨论较多,本篇报告将着重讨论CNIR构造的两个关键问题,进一步探讨研究的可能性。
表1统计了CNIR因子分年度测试的结果,2021年以来,该因子出现了较为明显的衰减。截至2024年底,因子并未出现明显的回调和改善的迹象。
笔者根据因子的实际使用以及收到的反馈情况,分成三部分展开讨论:第一节主要分析资金流策略的拥挤情况;第二节则讨论了CNIR因子构造过程中使用的截面回归方法;第三节侧重于大小单划分标准的重新设定。
01
资金流Alpha减弱不应归结于策略拥挤
我们首先需要回答的问题是:因子失效是因为策略同质化导致的交易拥挤?有一组比较有意思的数据,券商发布的涉及资金流的报告数量,自2021年开始大幅度增加,这说明资金流的确已经被市场广泛认知和使用。
我们很自然地会认为是策略被关注了引起交易上拥挤,从而导致Alpha出现衰减和因子失效的情况。然而,报告带来的关注度上升并不足以引起同质化交易。图3展示了CNIR因子在不同预测周期长度下的IC变化趋势,2016年以前的峰值大约出现在第15个交易日,2016年以后峰值似乎已经消失并且均值水平出现明显下滑。这说明即便是在若干个组合内共同使用资金流策略,也不至于出现的因子衰减。
矛盾并非千篇一律,关键是具体问题具体分析。以CNIR因子为例,其构造过程主要有两步处理,分别是(1)合并资金流:将超大单、大单和中单合并为广义主力资金;(2)剥离反转效应:逐日计算资金流指标(IMB)对涨跌幅的截面回归残差值,作为修正后的Alpha因子。上述两步骤在分组的多空收益、多头超额等均有不错的收益增强,我们将着重从这两个方面着手讨论。
02
构造方式不合理,截面回归容易忽视大小市值的差异
股票的资金流向反映了微观供求信息,投资者根据这一信息能够对个股的市场关注及偏好程度有一定程度的了解,从而对投资决策的制定提供帮助。但是,买卖行为促使价格发生变动会导致资金流因子暴露反转特征(图4)。我们以前的做法是通过截面回归的方式,剥离反转的负向IC,从而得到正向的资金流Alpha。
从结果来看,虽然截面回归模型要求样本应服从同一分布,这与实际情况可能存在些许出入,但至少截面回归能够给最终因子带来稳定的收益改善(图5)。
我们剥离涨跌幅的目的是对因子进行反转中性化。回归模型的估计结果描述了股票价格冲击的一致性规律,因截面选取的大部分样本属于中小市值股票,Beta不能较好地反映大票的流动性冲击影响,通常会导致大市值股票的主力资金净流入被错误估计,从而会在分组收益中凸显小市值的阶段性表现。
从表达式中不难看出,回归系数β反映了个股对于资金净流入的敏感程度。流动性好的大市值股票订单簿的厚度更厚,因大额交易产生的冲击较小,但从回归结果来看,似乎市值的影响关系并非是通过订单簿深度来传导的。为了检验市值对于回归模型剥离翻转效应的效果是否会产生明显干扰,笔者在表2中罗列了5种可能的回归方式,并分别构造和测试对应因子相对CNIR因子的改进效果。
通过分组回归-市值、分组回归-行业、补充市值变量、补充流动性变量和时序回归五种方法构造的因子分别记作CNIR_G1、CNIR_G2、CNIR_MV、CNIR_LQ和CNIR_TS。我们用这五个因子以及原始CNIR因子分别对沪深300、中证500、中证1000和国证2000的成分股分组,图6至图9展示了多空收益曲线的对比效果。
从上述结果可以看出,表2中涉及的5种方案,并没有提供预想中明显的优化结果。无论是添加解释变量或是分域处理,能够提供的增量信息有限。此外,对比时序回归和截面回归而言,极端考虑个股差异同样不是可选项,因为这容易在截面上丧失同一分布假设的显著性,换言之即因子的IC会降低,收益会变差。
图6至图9的分域测试结果可以给予我们一定的启发:资金流因子的核心定价逻辑主要背靠机构的优秀的选股能力。在A股市场,机构交易者往往是以市值由大到小的方向覆盖其选股范围,在大市值股票中的选股效果会更加稳定,在小市值范围的排序能力较弱。以中证1000和国证2000为例,2022年以来多空收益持平的现象明显,而同期沪深300和中证500的选股多空收益回撤较小,这说明并不一定是资金流本身的选股逻辑发生本质的改变,CNIR因子收益衰减的问题有可能是由另外的原因导致。
2023年底以来,市场风格发生了较为明显的变化。从2023年11月份开始的流动性危机,到2024年5月“新国九条”颁布影响市场内投资者结构的变化,再至2024年9月的政策催化下的放量行情。资金流Alpha对于非稳定的市场环境的适应性会更弱一些,CNIR因子在沪深300指数成分股内的分组多空收益出现了较大回撤,自20240510至20241112,跌幅达14.9%以上。一方面,沪深300指数的成分股包含了极端大市值的股票,相比于中证500指数而言对于大小市值风格的更加敏感,出现风格切换损失超额的可能性更高;另一方面,子域交易者结构的变化也会造成因子的最优的超参数(例如,划分大小单的标准阈值)发生变化,从而影响选股效果。
03
大小单的识别方法缺乏适应性
在原始的报告中,我们讨论的另一个关键问题是如何准确地识别主力资金。主流行情软件中的分类方法是:参照委托金额大小,任意一笔交易订单可以被分成超大单、大单、中单和小单四种不同类型。其中,超大单和大单的买入卖出操作常常作为“机构投资者”或是“主力资金”交易的观测窗口。但是,这四类划分方法并不适合2015年以后的订单分布,因此需要重新界定大单与小单的边界。
为了方便确定最佳的大、小单划分阈值,我们原先的做法是根据金字塔结构特征“由低到高、先密后疏”地选定了0.5、0.6至90、100万元等44个候选值。然后根据不同的金额阈值分别划分资金流向并构造CNIR因子。图10展示着这些因子在中证1000指数成分股内的分组测试的结果。在样本内,笔者可以统计出较为明确的金额阈值:2.5万元,即大于2.5万元的委托订单属于机构交易订单。但是,在样本外,我们发现测试结果不能给出相同的答案,甚至无法给出确定的阈值。
更加具体来看,我们统计了不同年份的最优参数,如图11所示。2022年、2023年和2024年的阈值分别是26万元、12万元和40万元,均远大于原始报告中的2.5万元的经验值。我们分析原因,这主要是因为市场微观结构发生了较大变化。以私募量化为代表的高频交易资金在交易中贡献的比重在这期间逐渐上升,通过观察我们的观测指标(图12,单笔金额)不难发现,在这期间每笔订单的委托金额快速下降,交易流动性得到改善的同时,主力资金识别的难度也在增加。
此外,从最优参数的变化情况来看,资金流Alpha的变化还体现在IC降低。我们认为这种选股能力降低的背后是大单资金识别的准确度在降低。由于市场微观结构的改变,我们无法即时的更新对大小单的阈值,导致CNIR因子出现明显失准的情况。几乎与此同时,以普通股票型和偏股混合型基金为代表的机构资金收益能力进入到一个较长的衰退周期,Alpha衰减自然也会伴随逻辑的弱化而发生。
为了更好的跟踪大小单的边界变化,我们调整了原有的划分标准,由1.0的绝对阈值衍生出两种确认方法,具体步骤如表3所示。其中,相对阈值考虑到市场不同时期的微观结构差异,通过金额排序的百分位数来确定划分边界。动态阈值则是在此基础上,增加历史样本来提高阈值的显著性,是相对阈值划分方法的补充。
我们简单测算了三种不同划分方法,在20180102至20241223期间,最优参数下的分组收益情况。其中,绝对阈值方法选取了2.5万元,相对阈值和动态阈值的百分位均设置为82%,结果如图14所示。
结构变化并非是单一的,而是受到诸多复杂因素的影响。从结果来看,相对阈值和动态阈值调整没有起到很好的增厚收益的作用,这说明主力资金识别难的问题并不能通过单纯调节大小单划分阈值来解决。划分标准的普适性减弱,拆单行为是最直接的影响因素,并且这一变化在流动性上分布不均。我们可以判断,微观结构变化在主要以市值区分的不同选股域中存在差异,对于大单的讨论不能一概而论。
图15和图16分别展示了参数的敏感性分析结果。
从整个回测区间来看,相对阈值和动态阈值的百分位达到80%左右,CNIR因子的分组能力会收敛于一个极大值,而后缓慢变化。在不同年度的统计结果中,这一结果似乎又不值得继续推敲,2021年以来,最优参数大致稳定在90%,且上升的边际变化较小。根据我们前文的判断,该参数同样不具备外推能力,只限于市场在短期局部达到平衡的“伪最优”。
04
风险提示
模型基于历史数据测试,未来市场可能发生变化。
更多交流,欢迎联系:
开源证券金融工程团队 | 魏建榕 张翔 傅开波 高鹏 苏俊豪 胡亮勇 王志豪 盛少成 苏良 何申昊 陈威 蒋韬
end
团队介绍
开源证券金融工程团队,致力于提供「原创、深度、讲逻辑、可验证」的量化研究。团队负责人:魏建榕,开源证券研究所副所长、金融工程首席分析师、金融产品研究中心负责人,复旦大学理论物理学博士,浙江大学金融硕士校外导师、复旦大学金融专硕校外导师、上海财经大学数学专硕业界导师。专注量化投资研究10余年,在实证行为金融学、市场微观结构等研究领域取得了多项原创性成果,在国际学术期刊发表论文7篇。系列代表研报《开源量化评论》、《市场微观结构》、《开源基金研究》,在业内有强烈反响。2023年获评金麒麟菁英分析师第1名、Wind金牌分析师第3名、水晶球分析师公募榜单第4名;2022年获评金牛分析师第5名、Wind最佳路演分析师。团队成员:魏建榕/张翔/傅开波/高鹏/苏俊豪/胡亮勇/王志豪/盛少成/苏良/何申昊/陈威/蒋韬。