会议:开源一席谈
胡亮勇:请您描述一下统一的指数增强投资框架。
胡亮勇:能详细描述一下您从早期传统线性的多因子模型,到2020年完全转到机器学习模型的演变过程及心路历程吗?根据您的描述,当前的投研框架完全依赖机器学习方法去挖掘市场中非线性的规律,非线性与线性是一个互斥事件吗,为什么没有考虑将二者进行结合应用?
施荣盛:起初入行时,我们使用的也是传统的线性多因子模型,但是在实践过程中遇到诸多问题。比如:理论上,线性模型的理论基础是计量经济学,而计量经济学通常基于稀疏性假设,尽管稀疏性假设在计量经济学中的应用有其理论和实际的合理性,但在面对金融市场的复杂性时,这种假设往往与现实世界中的复杂关系不吻合。实践上,构建模型时为了确保模型的稳定性和解释能力,在组合因子时往往只能选择并纳入少量的关键因子,这样就使得有时在多因子模型中增加新因子变得异常困难。
期间,我们也尝试使用一些其他方法来解决此类问题,比如:使用主成分分析、稀疏正则化等降维和压缩方法选择重要的预测变量。后来也尝试Lasso回归、岭回归等技术,Lasso回归、岭回归等通过正则化方法处理高维数据问题,在不完全依赖稀疏性的情况下,能够有效选择重要因子,但是实践中发现这些技术的作用也是相对有限的,并没有实质性地解决我们的问题。
随着现代金融分析的发展,模型的建立越来越多地依赖于数据驱动的方法,而不仅仅是传统理论推导。大数据、机器学习算法允许我们在模型中纳入更多的因子,同时通过算法自动化地筛选和优化因子,减轻了稀疏性假设的限制。与此同时,机器学习模型在国内外一些量化机构也得到了成功的应用。结合理论与实践,我们在2020年初将研究重心转到了机器学习方向。
非线性与线性并不是互斥关系,它们在很多情况下可以同时存在于一个系统中,并且相互作用。市场中的某些规律可能是线性的,而另一些则是非线性的,单纯依赖线性或非线性方法可能都无法全面捕捉市场的复杂性,结合两者可以更全面地解释和预测市场行为。机器学习模型虽然主要用于捕捉非线性关系,但它们也能够识别并利用数据中的线性模式。比如:决策树模型可以通过多个节点组合出接近线性的分段函数。
施荣盛:在量化模型的构建中,因子的有效性和不断迭代是持续实现超额收益的核心,是我们平时最主要的工作内容。我们的因子挖掘、筛选、迭代方法依托于多年的量化投资实践与不断更新的技术手段。
首先,关于因子挖掘方面,我们早期的因子研发主要是基于经济理论和市场逻辑,无论是基本面因子还是量价因子,都是通过对公司基本面和市场行为的深刻理解进行开发。然而,随着因子池的逐渐扩展,传统因子开发方法面临着边际信息递减的问题。为了在广泛的数据中找到具有增量信息的因子,我们逐步引入了更为系统化和复杂的因子挖掘方法,如遍历算法、遗传规划以及深度学习等技术。目前,我们也尝试使用大语言模型开发一些基于文本等非结构数据的另类因子。
其次,关于因子筛选方面,我们早期主要采用两步筛选流程来构建因子池,第一步是单因子测试,初步筛选出的因子必须通过严格的单因子测试,以确保其在不同市场环境中的稳定性和有效性。针对非线性因子,我们首先将非线性因子进行各种变换,使其表现出线性特征,然后再使用传统的线性分析方法进行评估。第二步是相关性筛选,为了去除冗余的因子,我们会计算因子间的多种相关性,通过因子相关性分析剔除一些相关性较高的因子,以此两步来构建一个既具备多样性又能最大化信息增量的因子池。
特征筛选(因子筛选)本身是机器学习特征工程的重要环节,随着对机器学习模型研究和运用的深入,我们逐渐认识和认可业界广泛流传的一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此,为了从原始特征集(因子库)中挑选出对模型预测最具价值的特征,从而提升模型的性能和泛化能力,我们在数据预处理、特征提取、特征变换及特征选择等环节,逐步引入并采用了一些机器学习中特征工程方法。
最后,关于因子迭代方面,考虑到市场环境的动态性,因子的表现可能会随之产生波动,因此,因子的动态调整与迭代是确保模型保持活力并适应市场变化的关键步骤。我们首先关注的是对因子表现的持续跟踪,通过特定的指标监控因子失效的迹象。在持续监控和识别失效的基础上,我们将剔除那些不再具备有效性的因子。此外,因子迭代的核心在于持续发掘新的因子。通过引入新的数据源、市场信息、经济理论以及技术方法,能够探索和发现新的因子。我们始终高度关注对潜在因子的敏感性,并及时进行因子的挖掘、测试和验证,不断优化模型表现。
施荣盛:近年来,部分投资者尝试在特定的选股域(如沪深300、中证500等)内开发验证因子和构建模型,以期提高策略的精度和收益。然而,我们并没有在不同样本域内进行单独处理,而是选择在整个市场范围内进行筛选和测试。这种方法是基于多个关键考量,并带来了一些显著的优势。
首先,这种方法能够有效避免过拟合,确保因子的普适性。在博士研究期间,我发现顶级期刊上的实证研究通常具有一些共同特征,其中之一便是研究普遍采用更长的时间跨度和更广泛的样本域,这种方法能够降低过拟合的风险,确保因子的广泛适用性。在A股市场,如果将市场划分为不同的样本域进行因子和模型构建,可能会引发过拟合的问题。一个因子若仅在沪深300或中证500上表现优异,可能仅是由于某一特定时期的特定市场结构所致。通过在全市场范围内进行因子构建和验证,可以更好地确保因子的长期有效性,这种长期有效性对于构建稳健的投资策略至关重要。
其次,这种全市场处理的方法能够增强模型的稳健性,并降低操作复杂度。虽然机器学习模型在量化投资中的应用能够揭示市场中的复杂关系,但由于这些模型的决策过程缺乏透明性,常被批评为“黑盒子”。这种不透明性在实际操作中可能带来挑战,尤其是在模型经历阶段性回撤时,难以准确判断模型是否失效或是否需要调整。如果在多个选股域上使用不同的因子和不同模型,将大幅增加策略评估的难度和操作的复杂性。尤其在市场波动或某一选股域表现不佳时,难以快速、准确地识别出问题所在。
通过在全市场范围内进行因子筛选和模型构建,可以构建一个统一的投资框架。这个框架不仅能够减少因引入过多变量而导致的复杂性,还能在市场变化时基于统一标准对策略进行评估和调整。这样的投资框架不仅简化了操作流程,还提升了策略在不同市场环境中的一致性表现。
综上所述,在全市场范围内进行alpha因子筛选与模型构建,而不针对特定选股域进行特殊处理,有助于避免过拟合,确保因子和模型的普适性和长期有效性。同时,这种方法也增强了模型的稳健性,降低了操作复杂度。这样一个统一的框架,既能充分利用机器学习的强大能力,又能通过透明性和稳健性应对量化投资中的实际挑战。
施荣盛:在量化投资中,平衡策略透明度与模型复杂性是一个至关重要且富有挑战性的课题。尤其是在引入机器学习模型时,透明度问题变得更加突出。我们主要从以下几个方面深入考虑并优化这一平衡:
首先,因子的选择与分析必须以透明度为基础。在构建复杂的机器学习模型时,因子筛选依然应严格遵循透明、可解释的标准。并且会通过使用诸如SHAP值等工具,量化因子对模型的贡献,明确其在不同市场环境下的作用。这种方法使得即便在复杂模型中,我们仍然能够从因子层面部分理解模型决策过程,从而提升整体透明度。
其次,在模型开发与验证过程中,历史回溯与分段分析是确保模型透明度和稳健性的重要手段。我们通常会将历史数据划分为几个特殊的时间段,分析和评估模型在每个阶段的表现。如果模型的表现与预期不符,我们会深入探究问题根源,及时调整模型,确保其稳健性,并降低模型的“黑盒”属性。这种分段分析不仅能够揭示模型在不同市场环境中的表现差异,还可以帮助实际投资中对模型的使用和评估。
此外,采用统一的模型框架极大地提升了策略透明度与管理效率。在此框架下,不同的市场指数(如沪深300、中证500、也包括主题和行业等指数)使用相同的因子池和模型结构,尽管在不同市场环境中的表现可能有所差异。当某一基准指数(如沪深300)出现回撤时,通过比较同一框架下其他基准指数的表现,可以有效判断问题的来源。这种跨样本域比较分析不仅能够识别市场结构性差异,还能帮助发现导致模型回撤的特定因子或市场条件。在实际投资运作中,我们会通过每日的复盘,详细比较不同基准的指数增强模型表现,分析差异成因,并对策略进行及时调整。这一持续的监控与优化过程,不仅深化了对模型的理解,还能有效应对市场变化,降低模型“黑盒”性质带来的不确定性。
总体而言,虽然机器学习模型的复杂性在量化投资中不可避免,透明度与复杂性之间的平衡并非一蹴而就,而是一个需要持续优化的动态过程。但通过精细的因子筛选、历史分段分析、统一框架管理以及透明度工具的应用,我们能够显著降低模型的“黑盒”特性。通过这样的平衡策略,不仅可以充分发挥复杂模型的强大预测能力,还能确保投资策略的稳健性与可解释性,从而提升策略在实际应用中的可靠性。
传统的组合优化方法通常依赖于静态的约束条件和优化目标,这些条件一旦设定,通常在整个投资周期中保持不变。然而,市场是动态变化的,固定的约束条件在某些市场环境下可能会导致策略表现不佳。例如,在极端市场条件下,固定的风格和行业等约束可能无法适应市场的快速变化,导致超额收益下降,甚至增加回撤风险。
为了应对这些挑战,我们开发了动态优化策略,动态优化并不仅仅依赖于市场预期和历史数据,而是根据实时市场表现和模型的实际运作情况,对约束条件和优化目标进行调整。动态优化的核心逻辑在于:顺势而为,逆势收敛。在市场趋势较为明确、模型表现优异时,动态优化会适度放宽风险约束,使投资组合能够捕捉更多的收益机会;而在市场波动加剧、模型表现不佳时,动态优化则会收紧风险约束,保护组合免受更大损失。这种灵活调整的策略不仅能够提高组合的收益潜力,还能有效控制回撤风险。
以2024年年初的市场为例,面对一系列极端事件的冲击,市场波动性显著增加。这些事件对量化投资策略,尤其是依赖机器学习和深度学习的指数增强产品,带来了较大冲击。以安信量化精选沪深300增强为例,在1月底至2月初的市场调整中,产品超额经历了显著的回撤。特别在2月5日盘中交易中,由于产品的超额最大回撤触发了风控预设的阈值,基于动态优化策略的逻辑,产品自动提高了风险约束的严苛性。具体而言,组合优化策略提升了对成分股占比、风格暴露、行业暴露以及跟踪误差等一系列风险参数的约束,从而降低了组合的风险暴露。这一调整在随后的2月6日和7日市场进一步调整中,成功避免了更大幅度的超额回撤。然而,在2月8日及之后的市场反弹中,由于组合加强了风险约束条件,超额收益的修复速度有所滞后,这对产品全年表现产生了一定影响。尽管这次调整在反弹阶段表现平平,但从长远来看,动态优化策略通过在极端行情中有效降低组合的最大回撤,提升了组合的风险调整后收益。例如,我们的回测中,动态优化策略在2014年底和2021年底等极端市场环境中,均发挥了重要作用,有效降低了组合的最大回撤。
通过上述案例可以看出,动态优化策略在应对市场波动和控制投资组合风险方面具有显著优势。尽管某些调整可能会在短期内影响收益,但从长期视角来看,这种策略有助于提升投资组合的整体稳定性和风险调整后收益,尤其适用于当前市场波动性加剧、alpha获取难度增加的背景下,为投资者提供更为稳健超额收益的路径。
施荣盛:在管理投资组合时,我们并未采用这些策略,主要基于我们对量化投资的深刻理解和对市场长期规律的认识。我们认为,量化投资的本质在于利用概率优势和大数定律来捕捉市场定价错误,从而获取长期稳定的超额收益。
首先,对于择时策略,仅依靠量化方法来构建择时模型在理论上存在一定局限。量化投资的核心优势在于通过大规模数据样本进行统计推断,从而得出具有统计显著性的预测。然而,择时策略的样本数量通常较少,不符合大数定律的要求,这使得单纯依靠量化方法的择时模型在统计上可能缺乏可靠性和稳健性。
一个理想的择时策略可能需要量化分析与主观判断的有机结合。量化模型可以用于计算和跟踪市场中的各类相关指标,而当某些关键指标触发时,投资者再结合市场的宏观背景和主观判断来做出最终的决策。然而,这种方法难以进行系统性的历史回测,因此很难验证策略的长期有效性。
其次,关于行业和风格策略。押注行业和风格确实能够在短期内显著影响产品的表现。然而近几年政策和市场环境变幻莫测,市场风格切换也越来越频繁的背景下,我们认为这类信号难以被有效识别。同时,轮动策略存在过度拟合的风险和较低的胜率,主观上准确预测并持续做出正确的投资决策也具有很高的难度。从长期来看,市场风格和行业轮动充满不确定性,过度押注这些因素可能导致产品的波动性增加,甚至影响产品的整体表现。
在我们的投资组合管理中,我们将行业和风格作为需控制的变量,确保组合在行业分布和风格特征上保持相对平衡。由于市场风格和行业的动量效应,我们发现alpha模型在捕捉个股机会的过程中,自然也捕捉到了行业和风格的动量收益。为了有效获取这部分收益,我们设计了动态风险控制和优化策略,希望在风险约束和回撤控制的前提下实现稳健的超额收益。
综上,我们更倾向于通过稳健的alpha模型和精细化的风险管理来追求长期稳定的超额收益,减少对市场周期变化的过度依赖,从而降低可能带来的波动性风险。我们更加关注投资组合在长期内的一致性表现,力求在市场的不同阶段保持稳健的投资收益。
施荣盛:在评估管理产品的超额收益时,我们主要使用Brinson分解和Barra分解等方法来深入分析超额收益的来源。根据分析结果,选股收益是安信量化精选沪深300增强超额收益的最主要贡献来源。这表明,我们的alpha模型在个股选择上表现出较强的能力,能够有效整合和挖掘个股的基本面、市场情绪、技术指标等多维度信息,从中甄选出表现优异的个股。这部分收益占据了超额收益的绝大部分,是我们策略成功的核心驱动力。
如前面所述,尽管我们的策略设计并没有刻意利用行业和风格轮动的信号来增强收益,但从Brinson和Barra分解结果来看,行业和风格因素也对超额收益贡献了一定比例。这部分收益主要来源于市场风格和行业动量效应,alpha模型在捕捉个股机会的过程中也自然捕捉到了行业和风格的动量收益。此外,由于我们使用了动态优化策略,在市场顺势时会适度放宽风险约束,因此在不同时间段,行业和风格因素对超额收益也有一定的正面贡献,需要指出的是这些贡献在不同的市场环境下表现出一定的波动性。
历史上,产品也经历过一些超额回撤。回顾这些时期,我们发现超额回撤通常发生在市场风格急剧切换、极端市场环境等情况,当市场迅速从一种风格转向另一种风格、或者在市场出现极端波动或面临系统性风险、或者存在某些重大宏观经济事件冲击时,市场的相关性趋近于一致,个股的特质因素被压制,策略的选股优势难以发挥。在这种环境下,特质收益可能无法对超额收益做出正向贡献,甚至会出现负贡献。面对上述市场环境,我们主要通过动态优化策略来应对,我们会优先考虑控制回撤,将防守放在首位。这种策略的目标是在复杂和不确定的市场环境下,尽量减小回撤,保护投资组合的长期收益。
施荣盛:随着大语言模型的不断发展,在量化投资中的应用变得越来越广泛和深入。在我们的研究和投资过程中,大语言模型已经成为不可或缺的工具,具体在以下几个方面发挥着重要作用:
(1)大幅提升编程效率
大语言模型在编程方面的辅助作用极为显著。我们经常使用CodeGeeX和Baidu Comate等工具,这些工具利用大语言模型来提供代码自动补全、错误修正和代码优化等建议。在量化策略的开发过程中,这些工具不仅加快了编程速度,还减少了可能的错误,从而大大提高了整体开发效率。此外,在面对复杂的量化策略实现时,这些工具可以帮助快速生成框架代码,并能在不同语言之间进行高效转换,减少了手动编写代码的时间,使我们能够将更多精力放在策略的逻辑设计和优化上。
(2)加速机器学习模型的学习与开发应用
由于我本人并非机器学习专业科班出身,大语言模型的出现极大地帮助了我学习和应用最新的机器学习模型。通过大语言模型,我可以高效地阅读和理解相关的学术论文。当接触到复杂的开源代码库时,可以借助大语言模型来自动生成代码注释,甚至逐行解析代码的功能与意义。这不仅帮助我更快地理解复杂模型的实现细节,也提高了在实践中应用这些模型的效率。这种学习方式特别有助于快速掌握新兴的机器学习方法,并将其有效应用于量化策略的开发和优化过程中。
(3)拓展另类因子的发掘与探索
大语言模型具有强大的文本处理能力,特别是舆情情感分析能力,使得我们能够从非结构化数据中提取出有价值的另类因子。比如,使用大语言模型处理来自上市公司公告、分析师研报、财经新闻等海量文本数据,开发出一系列具有独特市场意义的另类因子,这些因子往往能够捕捉到传统因子难以捕捉的市场信息,具有独特的预测价值。
此外,大语言模型的多模态处理能力进一步扩展了量化投资的边界,尤其是在处理涉及语音、图像等多种数据类型的复杂市场信息时,能够为策略提供更全面的支持。
(全文结束)
风险提示:上述内容和意见仅作为客户服务信息,并非为投资者提供对市场走势、个股和基金进行投资决策的参考。本公司对这些信息的完整性和准确性不作任何保证,也不保证有关观点或分析判断不发生变化或更新,不代表本公司或者其他关联机构的正式观点。历史业绩不代表未来收益,基金投资需谨慎。
做「开源」的量化研究
to be a quant,to be open-minded.
更多交流,欢迎联系:
开源证券金融工程团队 | 魏建榕 张翔 傅开波 高鹏 苏俊豪 胡亮勇 王志豪 盛少成 苏良 何申昊 陈威 蒋韬
end
团队介绍
开源证券金融工程团队,致力于提供「原创、深度、讲逻辑、可验证」的量化研究。团队负责人:魏建榕,开源证券研究所副所长、金融工程首席分析师、金融产品研究中心负责人,复旦大学理论物理学博士,浙江大学金融硕士校外导师、复旦大学金融专硕校外导师、上海财经大学数学专硕业界导师。专注量化投资研究10余年,在实证行为金融学、市场微观结构等研究领域取得了多项原创性成果,在国际学术期刊发表论文7篇。系列代表研报《开源量化评论》、《市场微观结构》、《开源基金研究》,在业内有强烈反响。2023年获评金麒麟菁英分析师第1名、Wind金牌分析师第3名、水晶球分析师公募榜单第4名;2022年获评金牛分析师第5名、Wind最佳路演分析师。团队成员:魏建榕/张翔/傅开波/高鹏/苏俊豪/胡亮勇/王志豪/盛少成/苏良/何申昊/陈威/蒋韬。