一文看懂量化投资中的因子

文摘   2024-12-13 11:54   广东  
本文首发于公众号“蒙玺投资”。(点击↑↑上图查看更多


因子,就是能引起资产(股票、债券和商品等)涨跌的规律,对资产标的价格变动有解释的因素。从不同维度解释资产标的收益,就会有不同的因子。本质上看,因子是对投资行为的量化和数字化诠释。

一个好的因子,历史数据上,通常与股票收益率之间有稳定、持续、可以用经济学逻辑解释的关系。

如果说量化投资是日常随机更迭的天气,那因子就是最基础水热元素,随机组合决定了天气的阴晴雨雪。



所谓因子构造,就是用基础数据进行各种数学操作得到的、高级的,可以反映一定逻辑的表达形式。通俗来说,就是我们常说的因子挖掘。

因子的构造思路,决定了投资策略的有效性和可扩展性。想要了解因子构造,首先需要了解因子的分类和特点。

按因子的普适性,分为时序和截面两类:时序因子一般专一于同一类资产,截面因子一般作用于多种资产在同一时刻的表现,截面因子分为Alpha因子和风险因子。

风险因子和Alpha因子是一组相对的概念,两者最大区别在于是否能被市场所熟知。

风险因子,即系统因子或Beta,这部分因子可以用来解释系统部分带来的收益。风险因子是业界普通承认的通用性的一些因子,如规模、流动性、动量等。

业界普遍认为,风险因子和Alpha因子在横截面都可以解释资产标的的价格变动(涨与跌),只是在时间序列上,能持续带来稳定超额收益的因子称为Alpha因子;时间序列上波动较大、波动方向难以预测的因子则是风险因子。


Alpha因子与风险因子对比图


风险因子的前身一定是Alpha因子,当它被越来越多的人发现后,就变成一种系统性的可解释的行为,即风险因子。

因此,也有一种观点认为,与其区分Alpha因子还是风险因子,不如关注因子在一段时间内呈Alpha属性还是风险属性。Alpha因子交易的多了,可能会变成风险因子;风险因子长期没人关注,会变回Alpha因子。


按照因子对应的数据类型分类,有量价因子、基本面因子、另类因子

量价因子,主要基于市场的交易数据,如价格变动、交易量、波动率等。这类因子直接从市场行为中提取信息,反映了市场的即时供需关系和投资者情绪。

基本面因子,涉及公司的财务状况、经营效率、行业地位等基本面信息,这类因子从公司年报、季报中提取,反映了企业的内在价值和长期发展潜力。

另类因子,是指除了传统的量价因子和基本面因子之外的数据源,如社交媒体情绪、信用卡交易信息等。这类因子可帮助投资者捕捉传统数据中无法反映的市场信息。

量价因子、基本面因子和另类因子三者并非独立存在,而是相互补充,共同构成全面的市场分析框架。


按照因子对应的时间长短,有高频因子、中频因子和低频因子

高频因子,指基于证券高频或中高频数据(如分钟级或秒级数据)构造的技术因子,日内多次更新。通常反映股票或其他金融资产的价格变动、波动性、流动性、买卖压力等特征。

高频因子的核心优势在于因子拥挤度相对较低,具有更丰富和更高维度的样本,能够刻画更精细的市场行为;劣势在于数据处理较繁琐低效,因子逻辑易受投资者结构、交易规则变化的影响,以及容量比较小。

在日常工作中,宽客根据不同高频数据的不同频率和类型,构建各种高频因子。

中频因子,从中频数据中挖掘而来,通常1-5天更新一次。中频因子是构造范围最广阔的一大类因子,既可以利用高频的数据降频化,又可以利用基本面特征。由于门槛比较低,因子拥挤度比较高。中频因子的容量和调仓周期都是适中的。中低频量化策略对于硬件以及环境就没有高频量化这么高的要求。

低频因子,一般是事件驱动形成的,通常来说,低频因子与其他因子的相关性较低。

  • 高频因子一般是量价因子,中低频的因子范围比较广。高频因子和中低频相互转化,是一种常用的构造因子的方式,比如高频因子降频化,或者低频因子升频化,有时候可起到意想不到的效果

  • 因子频率越低,对手续费的敏感度也越低


根据构造因子的方式不同,分为两大主要流派:


即基于金融理论和直觉,由研究人员手动挖因子。

如宽客通过经典的动量因子来自对“过去表现好的股票未来可能继续表现良好”这一假设的验证。这种方法依赖于对市场规律的深刻理解,但易受主观偏见影响。

人工合成派最经典的案例,是worldquant(世坤投资)出版的101 Formulaic Alphas 《Alpha101因子》了。

We emphasize that the 101 alphas we present here are not “toy” alphas but real-life trading alphas used in production. In fact, 80 of these alphas are in production as of this writing. 

在这篇论文中公式化地给出了他们根据数据挖掘的方法构建的101个Alpha,强调里面80%的因子仍然行之有效,并被运用在实盘项目中。

很多宽客入门量化投资,就是从人工合成的101个因子开始的。


即利用机器学习算法从海量数据中自动生成因子。

如宽客通过神经网络或遗传算法自动筛选潜在因子。这种方法能发现传统分析难以挖掘的复杂关系,但可能存在过拟合风险、容易失效,需要严格的样本外测试。


事实上,宽客们的日常工作,就是利用各种渠道和方式,挖掘和发现Alpha因子。挖到因子后,如何判断它是一个优质的Alpha因子呢,这就涉及因子评价。



所谓因子评价,就是精准地评价因子的有效性。毕竟,因子的质量决定了投资策略的稳定性和收益性。


1)收益与显著性

因子收益是否显著(通过t检验或信息比率评估)。

因子超额收益的经济意义是否足够强。

IC(信息系数),以及IR(信息比率)等。


2)稳健性

因子在不同市场环境下的表现是否一致(时间、地域等维度)。

因子收益是否抗噪声干扰。


3)可交易性

因子是否具有足够的市场容量和低摩擦成本。

高频因子可能面临较大的交易成本侵蚀。


1)低相关性

不同因子间的相关性越低越好,以避免因子组合过度集中。通过相关系数矩阵或主成分分析来评估因子独立性。

很多团队都会有自己的因子库,只有满足一定条件的因子,才可以入选因子库。因子的质量和数量也是评价一个研究员水平高低的重要维度。


图片来源:知乎大白量化


2)组合收益稳定性

多因子组合是否能在不同市场周期中表现稳定。通常通过多因子模型中的加权回测来验证。


3)风险分散效果

不同因子的引入是否能有效降低组合风险(如方差或最大回撤)。


从发展历程看,如何用因子解释资产收益率,经历了从资本资产定价模型(CAPM),到Fama-French三因子到五因子模型,甚至到2016年诞生了六因子模型。



从最初看,资本资产定价模型(CAPM)是最早的因子模型。通过将资产收益率与市场组合的超额收益率进行回归,最早定义了单因子模型(只有市场收益率这一个因子)。

在实践中,单因子往往难以捕捉市场的多样性,因此,需要借助多因子模型来优化投资组合。


单因子模型、多因子模型拟合程度差异

左框图为CAPM模型,右框图为FF3因子模型


通常来说,多因子模型通过寻找那些和股票收益率最相关的影响因素,把这些因素用线性或者非线性的模式组合起来,刻画股票收益并以此选股。其核心思想在于市场影响因素多重、动态,总有一些因子在一定时间内发挥稳定作用。


多因子模型中的常见因子分类


多因子模型有两个核心概念:因子暴露(factor exposure)和因子收益率(factor return)。

因子暴露,又称因子载荷,指股票在因子(即描述股票某方面特征的因素)上的取值;因子收益率,指每单位因子暴露所承载的收益率。

因子暴露越高,因子收益率的变化导致股票预期收益率的变化也越大。

多因子选股模型的构建主要分为候选因子的选取、选股因子有效性的检验、有效但冗余因子的剔除、综合评分模型的建立和模型的评价及持续改进等五大步骤。

常见的构建多因子模型的方法有加权法、回归模型、机器学习方法等。

多因子模型结合了多个因子的优点,能够提升收益的持续性,同时,通过整合低相关性因子,也减少了组合的系统性风险。现代多因子模型甚至可以根据市场动态调整因子权重,提高策略的灵活性。

需要注意的是,多因子模型也有一定的局限:

  • 过拟合风险

多因子模型容易陷入历史数据拟合的陷阱。解决方案包括扩展样本外测试和引入正则化技术。

  •  因子衰退

因子效果可能随时间消失。需定期重新评估并引入新因子。

  • 实施难度

多因子模型的复杂性对计算和交易系统提出较高要求,需要具备较高的技术设施。



量化投资是借助数学模型、算法及计算机技术进行投资决策的一种交易方式,技术和因子都是决定策略成败的关键。很多量化机构和宽客,在实践中通常会面临精进技术还是迭代因子的选择。


以国际主流的高频策略为例,其交易核心在于速度。为了达到毫秒甚至纳秒内完成交易的速度要求,交易系统必须具备超低延迟的网络链接,保持算力和算法交易的优势。

这种“精进技术”的发展路线,好处是可以利用技术优势,捕捉市场上的交易机会,通过快速反映市场信息,为市场提供更及时的价格。

“精进技术”的最大缺点,就是要投入大量资金;如果系统故障或网络延迟,会有巨大的交易损失。


这是一种通过多个不同的因子来构建和优化投资组合的量化交易策略。重点考察宽客的策略能力和挖因子的水平。

这种“迭代因子”的路线,可以有效分散风险、超额来源多元。

由于构建和维护模型需要大量的数据、计算资源和专业知识,因此复杂性较高;可能存在过拟合风险(在因子选择和模型优化中,可能会过拟合历史数据,导致实际交易中模型表现较差):随着市场变化,不断迭代模型。


量化投资因子的构造、评价与使用是一个循序渐进、不断优化的过程。从因子分类的理论设计到多因子模型的实战运用,每一步都要求宽客对市场规律有深刻理解。对宽客而言,深入理解因子投资的逻辑不仅是迈向量化投资的第一步,也是一条需要不断迭代成长的征途。


本期文章转载自【蒙玺投资】

成立于2016年的蒙玺投资,是一家业内知名的量化私募机构。依托强大的数据挖掘、统计分析和软件开发能力,公司构建了覆盖多市场、多品种的量化资产管理平台。

目前,公司资管规模近70亿,员工80余人,其中投研团队近60人,具备世界顶尖高校的物理、数学、金融等多元化学科背景;公司核心团队来自海内外知名机构。


59家头部量化私募全名单、9号牌照、前20强曝光!龙旗科技、衍复投资长跑业绩突出!
“A500”的风终究吹向了私募!A500指增崭露头角!世纪前沿、茂源、蒙玺、黑翼等多家量化私募动向曝光!
AI量化投资时刻来临?百亿量化私募九坤、黑翼、世纪前沿、龙旗、因诺最新动向曝光!
陈小群、方新侠、章盟主、余哥等6大游资最新动向曝光!机器人、AI应用为布局重点!
高盛、大摩、小摩、瑞银、巴克莱银行等十大知名外资重仓股出炉!
葛卫东、陈发树、章盟主等十大“牛散”最新持仓出炉!江淮汽车、深康佳A均是牛散重仓股!
华为概念股全梳理:一图速览华为机器人、华为手机、华为鸿蒙、华为海思等核心概念股!



风险揭示:本平台无法保证文章内容的真实性、准确性及完整性,分析结论仅供参考,不构成任何投资建议。市场有风险,投资需谨慎。



私募排排网
查净值、查排名、查持仓,就上私募排排网,一个能给你带来价值的财经账号。
 最新文章