【广发金工】基于相似度的因子研究

财富   2025-01-10 15:02   广东  

广发证券资深金工分析师 张钰东

SAC: S0260522070006

zhangyudong@gf.com.cn

广发证券首席金工分析师 安宁宁

SAC: S0260512020003

anningning@gf.com.cn

广发金工安宁宁陈原文团队

摘要


研究背景:

金融市场存在羊群效应,即股票之间存在一定领先滞后效应,当某只股票收益率较高时,会吸引投资者的关注,而这种关注会溢出到具有相似特征的股票上,即若相似股票在上一期获得较高收益时,预期该股票本期可获得高收益。通过挖掘股票之间的相似性信息,可以捕捉潜在的投资机会。


相似度刻画基本逻辑:

结合近期学术成果,本报告从财务、市场特征等指标相关度出发,刻画相似股票的关联特征。我们最终筛选价格、市值、估值、盈利和投资等五个角度刻画股票之间的相关性。我们通过特征之间的欧几里得距离来衡量股票之间的相关性。具体而言,以相似股票的收益加权均值、相对差值、“相关性程度”等作为因子。


回测结果:

月频全市场选股方式下,SIM_corr因子的IC均值为7.6%,IC胜率为74.8%,多空年化收益为25%,夏普比率为1.96,多头年化收益为14%。行业市值中性化后,因子的ICIR、IC胜率、夏普比等特征进一步增厚。周频全市场选股方式下,SIM_corr因子的IC均值为6.8%,IC胜率为76.8%,多空年化收益为47%,夏普比率为3.24,多头年化收益为18%。


进一步检验:

基于不同数值方向收益序列构建的因子,可能蕴含的信息量也存在差异,进一步将收益序列进行拆分,测算显示,拆解之后的收益特征和拆解前基本一致。


分域检验:

分析因子在周频换仓周期下对于在沪深300、中证500和中证1000池子的敏感性。测算结果显示,因子在中证1000股票池中的回测IC相对更高,多头组的区分度更加突出。


风险提示:

本专题报告所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时可能存在失效风险;策略在市场结构改变时有可能存在策略失效风险;策略在交易行为改变时存在可能失效风险。

一、研究背景


(一)羊群效应

传统金融市场理论通常假设市场上的每个投资者都是完全理性的,都能高效地获取并分析市场信息,并做出最优决策。然而,现实中的金融市场往往是非理性的,在A股市场上,个人投资者占比较高,卖空存在限制,股价异象繁生。

无论是国外还是国内,投资者的投资行为一直是学术界及实业界热门研究的领域之一。而投资者的羊群行为,在行为金融学领域,一直是其中研究的一个热点。羊群行为通常被定义为投资者对他人行为的模仿。Devenow and Welch (1996)提出造成这一现象的原因有三点。第一个原因来源于报酬的外部性,指一个行为带来的回报随着实施这一行为的人数增加而增加。例如,投资者倾向于同时交易,这样能为他们带来更好的流动性。第二个原因来自于声誉问题和与委托代理理论。当一个基金经理人的业绩是相对于一个基准来评估时,例如,通过使用其他经理人的平均业绩或市场/行业指数的业绩评价该经理人的绩效,那么该经理人更加倾向于模仿这个基准的做法。虽然这样做会使得经理人丧失比平均水平表现的更好的潜力,但却能够防止由于相对表现较差而带来的损失。第三个原因是信息的外部性,指投资者通过观察其他投资人的行为来获取信息。这种外部性可能非常强,以至于投资者甚至会忽略自己的信息而依赖这种噪音信息。

羊群行为的存在对市场有效假说提出了挑战,市场有效假说认为所有投资者都是理性的,并且有着相同的信息集,因此可以形成一致的股价预期,市场上的股票价格能够真实的反映股票的内在价值。但是羊群行为的投资不一定是理性的。投资者不是通过对于公司的理性分析,而是通过观察和跟踪其他投资者的行为来进行投资,即不是所有的市场参与者都完全知情,因此羊群行为可能会使得股票价格偏离其基本面,从而影响股票的实际价值。

Tan, Chiang, Mason (2008)等人的研究表明羊群行为会增加市场波动性和套利机会。羊群行为可能还会影响股票的价格变动过程,根据Grinblatt (1995)和Wermers (1999)等人的研究结果,羊群行为有利于信息的快速传递,从而使得股价能够随着信息快速变化,有助于价格发现过程。通常认为,短期羊群效应会伴随着价格的反转,即当出现买入(卖出)羊群行为时,未来股价可能会下跌(上涨)。同时,买入(卖出)效应越强烈,未来价格下跌(上涨)的幅度越大,即未来价格变动和羊群行为的剧烈程度相关


(二)关联度信息

传统的有效市场假说认为,在完全有效的金融市场上,价格能够及时、充分反映资产的所有公开信息以及私有信息。但是,Kalok等(2005)、刘菁哲(2010)等众多学者通过实证研究发现,股票市场中存在着“领先滞后效应”,即不同公司对相同基本面信息的反应速度存在差异,一些公司能够迅速对新信息做出反应,另一些公司对于新信息的反应存在时滞。
以行业关联信息为例,Cohen和Lou(2012)实证检验,面对影响全行业的信息事件,单一经营部门公司的股价能够更迅速的反映新信息,同时对于多经营部门公司未来股票收益存在显著预测能力。胡聪慧等(2015)采用A股上市公司数据验证了这一结论,并证实了集团公司股价变动的滞后性主要在于投资者关注度与处理能力有限性,以及行业估值的复杂性。向诚等(2018)实证说明了行业内受关注度最高的30%公司组合的收益率,显著引领受关注度最低30%公司组合的未来收益率。段丙蕾等(2022)认为行业关联回报率仅在月度层面显著,在周度层面不显著。同时,Parsons和Sabbatucci(2018)对于行业关联公司的收益预测能力的有效性提出质疑。他们认为,随着证券分析师覆盖率不断提升,股票价格的有效性增强;随着个股证券分析师重复率上升,股票价格反映的行业一致预期信息越多,因此基于行业关联构建的股票投资策略效果可能衰减

综上所述,金融市场存在羊群效应,即股票之间存在一定领先滞后效应,通过挖掘股票之间的相似性信息,可以捕捉潜在的投资机会。过往相似性主题研究从行业、产业链等角度出发刻画相应特征,结合近期学术成果,本报告从财务、市场特征等指标相关度出发,刻画相似股票的关联特征

二、相似度指标筛选


(一)基本指标信息

上市股票主要包括两方面的信息,即财务报表和市场交易特征,财务报表包括盈利能力、成长能力、债务比例等因素,上市交易信息包括成交价、市值、成交额、成交量等多维特征。从上述两方面出发,本报告首先初步筛选以下指标。


(二)基本指标回测

按照如下的回测框架,检测前述指标直接用于选股的区分度效果。
选股范围:全市场;
股票预处理:剔除非上市、摘牌、ST/*ST、涨跌停板、上市未满1年股票;
因子预处理:MAD去极值、Z-Score标准化;
回测区间:2015.01.01 – 2024.09.30;
分档方式:根据当期股票的因子值,从小到大分为十档 ;
调仓周期:每月/周的最后一个交易日的次日均价;
交易费用:千分之三(卖出时收取)
回测结果显示,前述指标的RANKIC、ICIR总体相对较低,即说明相应指标直接用于选股,总体效果不够理想


(三)基本指标相关性

进一步观察相应基本指标的相关性,测算结果显示,反映相似特征的指标具备一定的相关性,如operate_rt表示滚动前推12个月营业收入,profit表示滚动前推12个月归属母公司股东的净利润,两个指标的内部相关性约53%。
因此,刻画股票之间的相关性,应当从多维不同角度出发更加合理。

综上所述,我们最终筛选价格、市值、估值、盈利和投资等五个角度刻画股票之间的相关性。


三、实证回测


(一)相似度刻画
当某只股票收益率较高时,会吸引投资者的关注,而这种关注会溢出到具有相似特征的股票上,即若相似股票在上一期获得较高收益时,预期该股票本期可获得高收益。
我们通过特征之间的距离来衡量股票之间的相关性。对计算股票之间所有特征的欧几里得距离,然后筛选相似股票,计算相似股票的收益加权均值(SIM),以及计算相似股票收益的相对差值(RSIM)。
(二)数据说明
选股范围:全市场;
股票预处理:剔除非上市、摘牌、ST/*ST、涨跌停板、上市未满1年股票;
因子预处理:MAD去极值、Z-Score标准化、(行业市值中性化);
回测区间:2015.01.01 – 2024.10.31;
分档方式:根据当期股票的因子值,从小到大分为十档 ;
调仓周期:每月/周的最后一个交易日的次日均价;
交易费用:千分之三(卖出时收取)。
(三)实证结果
本小节中,主要对SIM、RSIM因子在IC、多空策略、胜率以及换手率方面的回测表现进行整体展示,并对比行业市值中性化前后是否有不同。
月频全市场选股方式下,SIM因子的IC均值为-2.9%,多空年化收益为8%,其中多头年化收益为4.4%,但收益特征相对不够突出。

1.SIM因子

相关性结果来看,因子和常见风格因子的相关性总体相对较小。

(四)参数调整影响

周频、月频全市场选股方式下,调整因子计算的股票数量、收益的加权方式,以观察参数的潜在影响。
测算结果显示,参数调整后的因子IC、收益等特征相对一致,仍未出现明显的改进效果。



四、因子改进回测


(一)代理变量调整

直接以收益率或相对收益率作为代理变量的回测结果不够理想,本部分采取以“相关性程度”的方式构建因子。

(二)实证结果
月频全市场选股方式下, SIM_corr因子的IC均值为7.6%,IC胜率为74.8%,多空年化收益为25%,夏普比率为1.96,多头年化收益为14%。行业市值中性化后,因子的ICIR、IC胜率、夏普比等特征进一步增厚。
周频全市场选股方式下, SIM_corr因子的IC均值为6.8%,IC胜率为76.8%,多空年化收益为47%,夏普比率为3.24,多头年化收益为18%。

1.SIM_corr因子(月度)

进一步筛选因子值靠前的30只或50只股票等权构建多头组合,观察多头组合的表现情况。

2.SIM_corr因子(月度、中性化)

进一步筛选因子值靠前的30只或50只股票等权构建多头组合,观察多头组合的表现情况。

3.SIM_corr因子(周度)

4.SIM_corr因子(周度、中性化)

(三)因子拆解改进实证

已有学术论文中,根据市场收益与资产收益序列的符号将传统市场贝塔拆分为四个半贝塔,并实证说明了基于负市场收益与负资产收益序列协方差构建的半贝塔与资产未来收益显著正相关,基于负市场收益与正资产收益序列协方差构建的半贝塔与资产未来收益显著负相关。这一结论对本报告的启示在于:基于不同数值方向收益序列构建的相关系数,可能蕴含的信息量也存在差异。因此,本部分进一步将股票与相似股票的收益序列进行拆分。

测算显示,拆解之后的收益特征和拆解前基本一致。

(四)分域检验
本节将分析股票池的调整对于策略收益的影响。具体而言,本节分析因子在周频换仓周期下对于在沪深300、中证500和中证1000池子的敏感性。
测算结果显示,因子在中证1000股票池中的回测IC相对更高,多头组的区分度更加突出。


五、总结


研究背景:金融市场存在羊群效应,即股票之间存在一定领先滞后效应,当某只股票收益率较高时,会吸引投资者的关注,而这种关注会溢出到具有相似特征的股票上,即若相似股票在上一期获得较高收益时,预期该股票本期可获得高收益。通过挖掘股票之间的相似性信息,可以捕捉潜在的投资机会。
相似度刻画基本逻辑:结合近期学术成果,本报告从财务、市场特征等指标相关度出发,刻画相似股票的关联特征。我们最终筛选价格、市值、估值、盈利和投资等五个角度刻画股票之间的相关性。我们通过特征之间的欧几里得距离来衡量股票之间的相关性。具体而言,构建相似股票的收益率加权均值(SIM),收益的相对差值(RSIM)、“相关性程度”(CORR)作为因子。
回测结果:月频全市场选股方式下, SIM_corr因子的IC均值为7.6%,IC胜率为74.8%,多空年化收益为25%,夏普比率为1.96,多头年化收益为14%。行业市值中性化后,因子的ICIR、IC胜率、夏普比等特征进一步增厚。周频全市场选股方式下, SIM_corr因子的IC均值为6.8%,IC胜率为76.8%,多空年化收益为47%,夏普比率为3.24,多头年化收益为18%。
进一步检验:基于不同数值方向收益序列构建的相关系数,可能蕴含的信息量也存在差异,进一步将股票与相似股票的收益序列进行拆分,拆解之后的收益特征和拆解前基本一致。
分域检验:分析因子在周频换仓周期下对于在沪深300、中证500和中证1000池子的敏感性。测算结果显示,因子在中证1000股票池中的回测IC相对更高,多头组的区分度更加突出。


六、风险提示


本专题报告所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时可能存在失效风险。
本专题策略模型在市场结构及交易行为的改变时有可能存在策略失效风险。
因量化模型不同,本报告提出的观点可能与其他量化模型结论存在差异。

七、附录


参考 Barra CNE5 因子算法计算整理。

法律声明:
本微信号推送内容仅供广发证券股份有限公司(下称“广发证券”)客户参考,其他的任何读者在订阅本微信号前,请自行评估接收相关推送内容的适当性,广发证券不会因订阅本微信号的行为或者收到、阅读本微信号推送内容而视相关人员为客户。
完整的投资观点应以广发证券研究所发布的完整报告为准。完整报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性或完整性做出任何保证,报告内容亦仅供参考。
在任何情况下,本微信号所推送信息或所表述的意见并不构成对任何人的投资建议。除非法律法规有明确规定,在任何情况下广发证券不对因使用本微信号的内容而引致的任何损失承担任何责任。读者不应以本微信号推送内容取代其独立判断或仅根据本微信号推送内容做出决策。
本微信号推送内容仅反映广发证券研究人员于发出完整报告当日的判断,可随时更改且不予通告。
本微信号及其推送内容的版权归广发证券所有,广发证券对本微信号及其推送内容保留一切法律权利。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。



广发金融工程研究
定期发布团队最新研究成果及观点,欢迎交流!
 最新文章