论文 | Alpha2: Discovering Logical Formulaic Alphas using Deep Reinforcement Learning
代码 | https://github.com/x35f/alpha2
一 本文简介
Alpha信号是交易策略的基础,它们将市场数据转化为可操作的信号。传统上,公式化alpha因其可解释性和易于分析而受到青睐,但自动生成这些alpha的现有方法(如遗传编程)存在计算速度慢、容易陷入局部最优等问题。最近的研究尝试使用深度强化学习(DRL)来发现alpha信号,但未能充分解决alpha相关性和有效性等关键问题。
本文提出了一种新的框架Alpha2,通过将alpha发现过程形式化为程序构建任务,利用DRL引导的搜索算法在搜索空间中探索,优化alpha以提高评估指标。该方法不仅关注alpha的性能,还强调其多样性和逻辑一致性。实验证明,Alpha2能够在真实股票市场中发现多样且有效的alpha信号,显著提升最终交易策略的表现。
二 背景知识
2.1 量化投资中的 Alpha 信号
量化投资依赖于 Alpha 信号将市场数据(如开盘价、收盘价等)转化为预测收益的指标,从而提供交易决策依据。Alpha 信号分为公式化 Alpha 和黑箱 Alpha:前者通过简单的数学表达式表示,易于解释和分析;后者则利用复杂的机器学习算法生成,尽管表达能力强,但容易过拟合且需要大量调参。
2.2 遗传编程(Genetic Programming, GP)
遗传编程是一种基于进化算法的技术,通过模拟自然选择过程,自动生成和优化计算机程序。GP 在量化投资中可以用来发现新的 Alpha 信号,通过随机生成初始种群、评估适应度、选择交叉和变异,逐步优化表达式。尽管 GP 具有灵活性和高自动化优势,但其对初始种群敏感、计算速度慢且容易陷入局部最优。
2.3 深度强化学习(Deep Reinforcement Learning, DRL)
深度强化学习结合了深度学习和强化学习的优势,通过神经网络估计状态值和策略,学习最优策略以最大化累积奖励。DRL 在复杂的决策任务中表现出色,如游戏 AI(AlphaGo)和自动驾驶。在量化投资中,DRL 可用于构建动态交易策略,适应不断变化的市场环境,尽管其训练复杂且面临市场随机性的挑战,但具有自适应能力强和长期优化的优点。
三 本文方法
本文提出了一种新颖的alpha发现框架,结合了深度强化学习(DRL)和蒙特卡罗树搜索(MCTS),以生成逻辑合理且相关性低的alpha。
3.1 alpha的公式化生成
alpha的发现过程被形式化为程序生成过程。具体而言,alpha程序由一系列指令组成,每条指令由操作符和操作数构成。操作符分为以下几类:
一元操作符:如取反、取绝对值等。 二元操作符:如加法、减法、乘法、除法等。 三元操作符:如条件选择(if-else)等。 指示符:如移动平均、标准差等。
操作数包括以下几类:
标量:如常数值。 矩阵:如开盘价、收盘价等市场数据。 寄存器:用于存储中间计算结果。 占位符:用于表示未确定的操作数。
通过这种形式化表示,可以有效地对搜索空间进行预剪枝,避免无效的计算组合。例如,通过维度分析,可以在生成过程中提前排除维度不一致的操作,从而大大减少搜索空间。
3.2 使用DRL指导的MCTS搜索
在本文中,DRL指导的蒙特卡罗树搜索(MCTS)是核心方法之一,用于在庞大的搜索空间中高效地发现高质量的alpha。该方法主要分为下面的步骤:
1. 状态表示
在alpha发现过程中,每一步生成的alpha程序都可以看作一个状态。具体而言,状态表示包括:
当前指令序列:已经生成的alpha程序指令序列。 剩余操作符和操作数集合:可供选择的操作符和操作数。
这种状态表示方式能够捕捉生成过程中的中间结果和下一步的选择空间,为后续的动作选择和价值估计提供基础。
2. 动作选择在每个状态下,DRL模型根据当前状态选择下一个动作。
3. 蒙特卡罗树搜索(MCTS)MCTS通过模拟和回溯来评估每个动作的潜在价值。
4. 价值估计和策略更新DRL模型通过模拟和回溯的结果,不断更新状态值函数和策略函数,从而提高搜索效率和精度。
通过上述步骤,DRL指导的MCTS搜索能够在庞大的搜索空间中高效地发现高质量的alpha。
3.3. 预剪枝和逻辑合理性
为了确保生成的alpha逻辑合理,本文在生成过程中引入了预剪枝机制。具体措施包括:
维度分析:在每一步操作之前,检查操作数的维度是否一致。例如,避免将开盘价与成交量相加,因为它们的维度不同。 规则约束:根据预定义的规则,提前排除不合理的操作组合。例如,避免连续使用多个高风险操作符。 通过这些预剪枝机制,可以大大减少搜索空间,提高生成效率和alpha的逻辑合理性。
四 实验分析
4.1 实验设置
数据集:实验使用了来自真实股票市场的数据,包括开盘价、收盘价、最高价、最低价和成交量等基本市场数据。数据集覆盖多个市场和时间段,以确保实验结果的普适性和鲁棒性。
基准方法:为了验证Alpha2的有效性,实验对比了多种基准方法,包括传统的遗传编程(GP)方法和几种常见的机器学习方法(如随机森林、支持向量机等)。
评价指标:实验主要使用以下评价指标来评估生成的alpha:
信息相关性(IC):alpha值与市场收益之间的平均皮尔逊相关系数。 排名IC:alpha值与市场收益排名之间的相关系数。 最大回撤(MDD):衡量alpha在交易策略中的最大损失。 换手率(TVR):衡量alpha在交易策略中的交易频率。 夏普比率:衡量alpha在交易策略中的风险调整后收益。
4.2 实验分析
实验结果表明,Alpha2框架在alpha发现中表现出显著的优越性,能够高效地生成高质量的alpha。这些alpha在信息相关性、多样性和交易策略表现上均优于传统方法,且在实际交易策略中显著提升了累计收益和稳定性,展示了其在实际应用中的巨大潜力。通过DRL指导的MCTS搜索,Alpha2不仅能发现高相关性的alpha,还能生成多样且稳健的alpha,有效降低交易策略风险并提高收益的稳定性。
五 总结展望
本文提出的Alpha2框架通过结合深度强化学习(DRL)和蒙特卡罗树搜索(MCTS),在alpha发现中展示了显著的优越性。实验结果表明,Alpha2能够高效生成高质量的alpha,这些alpha在信息相关性、多样性和交易策略表现上均优于传统方法,并在实际交易策略中显著提升了累计收益和稳定性。Alpha2框架不仅能发现高相关性的alpha,还能生成多样且稳健的alpha,有效降低交易策略风险并提高收益的稳定性。