本文深入探讨了如何通过融合大型语言模型(LLMs)来进化和优化基本面因子挖掘的统一框架。本文详细介绍了基本面因子挖掘的统一框架,包括因子生成、计算、验证和筛选的全过程。在因子生成阶段,采用了随机法、枚举法和领域知识法来构造因子结构,并通过限制复杂度和量纲的合法性来确保因子的简洁性和可解释性。因子计算阶段,报告提出了一个两层结构,自动处理因子的量纲、频率和公告期等问题,同时介绍了多种算子,包括元素、时序和横截面算子,以及它们的量纲规则。
本文深入探讨了如何通过融合大型语言模型(LLMs)来进化和优化基本面因子挖掘的统一框架。报告首先回顾了基本面因子挖掘的三种主要范式:传统的手动挖掘、基于算法的自动挖掘,以及最新的Human-AI交互算法。特别强调了Human-AI交互算法的优势,即结合了LLMs的能力,按照人类的指导进行因子挖掘,以生成大量可解释的因子。
本文详细介绍了基本面因子挖掘的统一框架,包括因子生成、计算、验证和筛选的全过程。在因子生成阶段,采用了随机法、枚举法和领域知识法来构造因子结构,并通过限制复杂度和量纲的合法性来确保因子的简洁性和可解释性。因子计算阶段,报告提出了一个两层结构,自动处理因子的量纲、频率和公告期等问题,同时介绍了多种算子,包括元素、时序和横截面算子,以及它们的量纲规则。
为了提高因子计算的效率,本文提出了使用Cython和流式计算技术的解决方案,显著减少了计算时间。在因子进化阶段,结合了遗传规划算法(GP)和LLMs,通过大模型分析因子的含义和规律,生成改进后的因子。报告还提供了LLMs进化因子的示例,展示了如何根据给定的IC指标和历史因子输出新的改进因子。
最后,通过模型回测对比,Factor Zoo的因子展示除了更加稳定的收益,将Factor Zoo 因子与OPENFE因子融合后,收益及稳定性均有所提升。
结论
本文在基本面因子挖掘统一框架的基础上,融入了LLMs进化模型,通过LLMs“理解”因子背后的含义以及逻辑,进化出更加符合人类要求的因子。
通过实际结果可以看出,在原有因子的基础上,LLMs提供了更多的可能性。
将Factor Zoo 的因子与Openfe的因子进行对比,可以看出,更加偏向基本面的Factor Zoo 因子结果明显更加稳定,将两者融合之后,收益和稳定性均有明显提升。
本报告中所有数据结果是基于历史统计结果的展示,未来有可能发生风格切换导致因子失效的风险。模型运行存在一定的随机性,初始化随机数种子会对结果产生影响,单次运行结果可能会有一定偏差。历史数据的区间选择会对结果产生一定的影响。模型参数的不同会影响最终结果。模型对计算资源要求较高,运算量不足会导致结果存在一定的欠拟合风险。本文所有模型结果均来自历史数据,模型存在统计误差,不保证模型未来的有效性,对投资不构成任何建议。
姚紫薇:金融工程及基金研究首席分析师。上海财经大学管理学硕士,厦门大学统计学学士,在基金研究、资产配置、产品设计、财富管理等领域均有长期深入研究。曾担任招商证券基金评价业务负责人,多次获得“新财富”金融工程方向前三(团队核心成员)
王超:南京大学粒子物理博士,曾担任基金公司研究员,券商研究员,有丰富的研究和投资经验,2021年加入中信建投,主要负责量化多因子选股。
证券研究报告名称:《“逐鹿”Alpha专题报告(二十三):融合LLMs进化的基本面因子挖掘统一框架》
对外发布时间:2024年11月6日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
近期热门视频
更多精彩视频,尽在中信建投证券研究视频号,欢迎关注~
免责声明