排序学习对GRU选股模型的增强

文摘 2024-09-24 15:15 日本

一、超越传统GRU，融入注意力机制具有一定优势

二、排序学习介绍及选股效果

三、利用多个Epoch结果对抗过拟合

四、结合排序学习与多轮参数对抗过拟合方案的AGRU指数增强策略

五、总结

风险提示

摘要

■ 投资逻辑

融入注意力机制的GRU表现优异

目前神经网络主流的三类编码器RNN,CNN,Transformer在量化选股领域均表现出了较强的预测效果，如何能使各类编码器发挥自身优势并有效结合成为学术界不断尝试的领域。我们参考DA-RNN两阶段注意力机制的设计思路，避免该模型在实际应用中潜在的问题，将注意力机制改为特征层面的权重分配，与GRU结合后具有明显的优势，在绝大部分指标上超越原本GRU模型。

排序学习思想与A股实证效果

我们参考了推荐系统和搜索引擎中普遍使用的排序学习思想，认为其使用场景和量化截面选股策略具有高度相似性。探讨对比了包括ListWise和PairWise两大类排序学习损失函数，部分损失函数能借助NDCG指标提升多头组合表现，且部分因子相较于传统MSE回归模型有一定提升效果，我们将相对有效且相关性相对较低的损失函数进行等全合成，发现合成后的因子在各款及股票池中表现均有增强。所得因子在全A股票池中IC均值为13.82%，多头年化超额19.69%，多头信息比率2.98。

使用多个Epoch模型参数对抗过拟合

在传统训练过程中，我们倾向于早停后只使用最好轮次的模型参数用于预测。但其面临的一个严重问题在于，训练集和验证集所得最优结果并不一定在样本外同样最优，因此存在严重的过拟合倾向。此处我们考虑，神经网络梯度下降至全局最优点本身应该追求“模糊的正确”，使用早停后验证集表现最优的5轮结果进行预测并取均值能有效缓解上述情况，从而在样本外地稳健性更好。经过对比，使用此方法所得因子在各股票池中均有一定提升。

结合排序学习与多轮参数对抗过拟合方案的指数增强策略

最终，我们对上述改进所得因子构建指数增强策略。其中，沪深300指数增强策略年化超额收益达到16.60%，超额最大回撤为3.78%。中证500指增策略年化超额收益19.20%，超额最大回撤4.25%。中证1000指增策略年化超额收益29.81%，超额最大回撤8.04%。

风险提示

1、以上结果通过历史数据统计、建模和测算完成，在政策、市场环境发生变化时模型存在时效的风险。

2、策略通过一定的假设通过历史数据回测得到，当交易成本提高或其他条件改变时，可能导致策略收益下降甚至出现亏损。

正文

一、超越传统GRU，融入注意力机制具有一定优势

1.1 模型介绍

在目前主流的神经网络选股模型中，GRU作为一种RNN的变体，通过门控机制调节长短期记忆的保留，一定程度上解决了长时间序列特征数据的学习能力。而后续推出的不同编码器方式如TCN、Transformer等也在选股领域上有不错的效果。这三类也逐渐成为当下时序预测任务中主流的编码器方案。

如何将不同编码器的优势进行融合，起到增强的效果是学界和业界一直在探讨的问题。目前能看到的两类主流融合方式为：将RNN类编码器与注意力机制进行结合，典型代表如DA-RNN（Dual-stage Attention-based RNN），另一类为首先使用CNN进行局部特征捕捉，再结合RNN进行时序编码的方案，有多篇论文进行过相关尝试。本篇报告中，我们将重点放在前者，探讨DA-RNN模型的构建原理和测试效果。

该模型首先分成了Encoder和Decoder两部分，在两部分都结合了注意力机制，并通过RNN进行时间序列上的编码，最终得到目标预测信息。

模型的作者认为，当输入特征为多维度时，简单的RNN结构难以捕捉或选择最相关的输入特征进行预测。而Hubner et al(2010)指出，人类行为可以很好地被两阶段注意力机制所解释，在第一阶段，人类会首先选择一些初级刺激特征，而在第二阶段，会使用分类信息对第一阶段获取到的刺激特征进行解码。

因此，论文作者提出了两阶段注意力机制对上述过程进行模拟。首先在编码器部分，定义一个注意力机制捕捉不同时期的主要贡献特征。而在解码器中，定义一个时序注意力机制针对不同的时间步上的编码信息进行权重再分配。通过这种方式，DA-RNN既能选择最合适的输入特征又能捕捉更长周期的时序依赖关系。

在第一阶段中，对于给定的第k维特征

，构造一个由线性层，Tanh和Softmax构成的注意力机制：

其中h和s分别为RNN编码器中的隐藏层和神经元状态（此处需使用LSTM）。所得即为在t时刻第k个特征的相对重要性。进一步将所得α和原本特征x进行点乘，作为LSTM的输入：

此处f指代LSTM编码器，通过该方法，每个时间步的特征都会经过注意力给出的权重进行加权后再喂入LSTM得到了时序编码，进而起到了动态调整特征重要性的作用。

在第二阶段中，作者考虑到LSTM等RNN类模型依然无法解决较长时间周期的记忆衰减问题。引入时序注意力机制，对于某个特定时刻t，依据前一时刻所得隐藏层信息d和神经元s：

通过该方法所得即为整个时间序列数据中第t时刻编码特征的重要性。与编码器部分类似地，利用权重与原本隐藏层进行加权求和，并将其定义为context（c）：

最终将context和原本每个时间步的标签数据拼接并投喂给LSTM：

从而能够将不同时间段结合了重要性判断的编码特征投喂LSTM进行时序编码。需要注意的是，该模型结合了截面注意力和时序注意力，在编码器部分所获得隐藏层进一步传给了解码器。可以从本质上理解为一个时序注意力的精细化改进，将每一步的特征权重做了动态分配。

然而，在实际构建该模型的过程中，我们发现：

● 两阶段注意力对算力消耗极大，模型占用显存超出一般消费级显卡范围；

● 动态调整的特征加权在实际测试结果中并未展现出更好的预测表现；

● 解码器部分所需要输入的T-1个步长的预测标签数据若不经过降采样处理有极大可能会出现信息泄露，在实盘中将无法落地。若进行月度预测，需保证20天的间隔采样，则会导致样本数量过少，极大影响模型最终效果。原文作者用在分钟级数据中并只预测下一分钟的价格择避免了这一问题。

因此，我们结合DA-RNN模型的思路进行修改，同样使用注意力机制进行特征重要性的采样，不再每个时间步上利用实际预测标签进行时序编码，而是直接结合多步GRU后得到最终预测结果。

在数据预处理、训练方式和损失函数选取上，我们保持和前期报告《Alpha掘金十：机器学习全流程重构——细节对比与测试》中结果一致。但在输入特征数据中，为了避免特征本身可能对模型表现所造成的干扰，影响到对比准确性，我们使用原始日频量价数据进行投喂：

1.2 结合注意力机制的GRU在A股中的实证结果

与前期报告所选时间一致，我们使用较长的训练集进行训练，选股5个随机种子取平均避免随机性。首先在全A股票池中进行测试，因子效果如下：

可以看出，因子在多个指标中的表现均要优于原始的GRU模型，但收益部分提升幅度有限，在因子的收益稳定性层面有相对明显的提升。因子IC均值从14.4%提升至14.53%，多头信息比率由2.60提升至2.75，多空夏普比率由4.12提升至4.29。

进一步，我们观察两个模型在不同宽基指数股票池中的表现，发现AGRU的提升更多体现在大盘股上，在沪深300成分股中，因子的多头年化超额收益率从15.96%上升至17.24%，收益稳定性上也有所提升。

二、排序学习介绍及选股效果

2.1 排序学习各类算法原理介绍

在过往我们研究的模型中，一般均采用了MSE作为损失函数，使用回归模型进行训练，也是业界的普遍做法。不过，由于我们使用AI模型进行股票收益率预测主要目的在于截面选股，其本质在于准确预测不同股票间未来一段时间收益率的相对大小关系，对于收益率预测的绝对准确性其实是次要因素。因此，在本篇报告中我们参考搜索引擎和推荐系统中常用的排序学习（Learning To Rank, L2R）思路，在量化选股领域进行探索尝试。

排序学习的核心思想是希望能够通过机器学习的技术，解决排序问题。这类问题最早被搜索引擎用来进行搜索结果的排序，近些年随着各类短视频、社区等兴起，众多互联网公司的APP都会越来越多使用各类排序学习算法吸引用户注意力、提升用户点击率、留存率等。

一个经典的场景是，给定一个用户查询（query），返回一个或多个按顺序排列的相关文档（document），根据query与document之间的相关度进行排序。能展示在用户面前越靠前的结果如果相关性越高，则表明算法有较好的预测结果。

从下图中可以看出，与回归或分类不同的是，排序学习需要的数据集结构略有不同，针对每一个query，都会有一个完整的排序结果作为预测目标，最终模型输出的预测结果也为一整个query所有document的排序结果。而量化领域的数据结构天然适合进行排序学习，我们将每个交易日所有股票的收益率排序进行打包作为一个样本，从而能够套用排序学习的算法设计进行训练。

在具体的算法设计层面，排序学习又可分为以下三种：

● PointWise: 仅考虑单个document得分与预测标签的相关性，又可以进一步分为基于回归的、分类的和ordinal回归的算法。此类算法出现时间较早，相当于直接退化为了一般的回归或分类任务，且算法并未考虑文档之间的相对关系，效果一般。

● PairWise: 该方法将排序问题转换为两两文档对之间的排序判断，即假设有三只股票的完美排序为“B>C>A”，此类算法将会通过学习两两关系“B>C”、“B>A”和“C>A”来实现“B>C>A”的完整排序。常见的算法包括：Ranking SVM, RankBoost, RankNet, LambdaRank和LambdaMRT等。包括以下几种常见的损失函数设计

1)Hinge Loss:

该损失函数的设计思想在于，对于所有的i>j，使得两只股票的预测结果相对大小准确。

2) Logistic Loss(与RankNet等价):

该损失采用极大似然的思想建模排序概率，更加连续，且其设计思路重点在于对于noise label（错误标签）outliers的处理，同样会对于排序错误的样本对进行惩罚。

3）在实际情况中，我们往往更关注排序最高的样本的准确度。如搜索引擎的前几条结果，信息流式APP的前几页内容。在量化领域同样如此，由于绝大多数量化策略只会使用因子的多头部分买入相应标的构建组合，那么机器学习算法在多头组的准确性就变得更加重要。而排序学习中的NDCG思想恰恰是为了解决这一问题，首先我们定义DCG：

其中，G(x)=2^x-1代表排在j位置样本的得分。，代表随着排序位置靠后的折扣因子，即位置越靠后，该样本对最终损失函数的影响就越小。

若假设有5支股票的实际排序和模型预测排序结果如上表，则可得

此外，我们继续定义为完美排序下DCG的得分，则IDCG=45.64。由此，

即为考虑前K个样本排序准确性的衡量指标。通过该方法，我们可以使模型更加关注排序靠前样本的预测准确性。NDCG也成为众多损失函数会使用的关键指标。

4）在有了NDCG后，RankNet存在的问题就可以在一定程度上得到解决，我们可以定义如下因子Lambda表示两个document位置引起的评价指标的变化：

其中的Z就可以使用NDCG等指标，Lambda量化了待排序的document在下一次迭代时应该调整的方向和强度。

进一步我们可以定义Lambda NDCG损失函数：

其中：

此类损失函数同样可以解决由于优化排序指标不连续或曲线非凸而难以梯度优化的问题。

● ListWise:由于PointWise仅考虑两两之间的排序关系，对于全局的排序结果缺乏敏感度。ListWise可分为：直接根据评估指标的损失函数最小化，为解决NDCG等指标往往不可导的问题，就有了Soft Rank，SVM-map，AdaRank等损失函数设计；对于不依赖于评价指标的模型，主要有ListNet和ListMLE两类，前者是通过序列概率分布定义的，对于任意给定query q，ListNet都会先根据模型计算出的得分计算出一个序列概率分布：

，其中为documents的真实排序，同时根据标签值计算出一个序列概率分布，使用KL散度衡量两个分布的差异程度：

该函数具有凸性，可以使用梯度下降的方式进行训练。另外还有比较类似的ListMLE损失函数，直接优化P(π|s) ，此处不再详述。

2.2 排序学习各类算法在A股中的实证结果

在实证之前，为进一步直观感受排序学习损失函数与传统回归方法的差异，我们尝试通过以下案例进行对比：

此处我们假设共有未来一段时间实际收益率为-10%至10%之间均匀分布的11只股票，共有三种不同的预测结果：

● 预测1：部分临近股票之间的排序出现颠倒，但预测的数值相差结果都不大。

● 预测2：与真实股票收益率排序一致，但均比真实值高出10%。

● 预测3：第一只和最后一只股票预测结果颠倒，其余股票预测完全准确。

我们对以上三类预测结果分别计算MSE损失和排序学习损失函数（以PairWise HingeLoss为例），发现：

● 对于实际预测结果较差的预测3，MSE并未给出较大的损失，而对于排序完全准确只不过数据普遍偏高的预测2，MSE值反而较高。

● 而PairWise Hinge损失函数能准确对预测3给出较高的惩罚，且排序出现细微错误的预测1的损失值也高于预测2。

综上，考虑到与量化选股领域的实际相结合，本质是希望得到排序尽可能准确的信号，而非片面追求整体预测值的准确性。本篇报告我们将上述所有排序学习算法统一进行测试，与前文相同，我们使用原始的日频量价数据输入模型，使用五个随机种子求均值，统一使用AGRU模型作为Backbone，修改损失函数和数据投喂、处理方式等，从而实现L2R的排序效果。

此处我们首先展示所有不同排序学习算法在全A股票池中的预测效果：

可以看出，使用排序学习所得因子整体表现突出。部分因子在IC指标、多头收益表现和稳定性上超过传统使用MSE作为损失函数的训练结果。

● 不过，ListWise类损失函数相较于PairWise并未有明显提升，两类损失函数各有优劣。

● 部分使用结合了NDCG作为评价指标的损失函数在多头端表现出较高的收益稳定性，如LambdaNDCG2, ApproxNDCG和NeuralNDCG的多头信息比率和多头超额回撤均在所有损失函数中表现最优，而多空的收益水平就没有明显优势。

限于篇幅，此处仅展示几类损失函数在中证500和中证1000指数成分股中的预测效果，部分损失函数的所得因子相较于MSE具有一定优势。

排序学习各类损失函数在逻辑和结果上均具有一定优势，然而如何使用此类损失函数成为新的问题。若直接将其取代MSE，则可能导致模型过分追求排序结果，而股票间收益率的大小关系差异会被忽略，在后续进行指数增强组合优化时可能会受到影响。

因此，我们首先考虑多任务学习的方式，将排序和回归两个目标结合，使模型在两个方向同时学习，从而达到两者兼顾的效果。目前主流的多任务学习包括：硬参数共享、软参数共享、PLE等模式，通过不同的网络结构设计，将两个或多个具有一定差异性的任务作为一个模型的不同输出。

硬参数共享一般采用同一个Encoder层，而在最后的线性层对不同任务进行独立学习。PLE模式为腾讯某团对针对腾讯视频推荐系统所推出的渐进式多任务学习框架，包括了任务特定专家和共享专家的设计，门控机制来确定不同专家的动态权重，使得整个结构都更有灵活性。

我们对硬参数共享、PLE和GradNorm三种方案都分别进行了构建，将排序学习结果与回归结果作为两个任务，力图使模型能起到尽可能改进的效果。但经过多次测试，均未达到如Ma & Tan 2022中的显著改进效果，后续报告中我们将会在多任务学习领域进行深入探讨。此处，我们考虑尝试直接使用线性等权合成的方式，首先考察不同损失函数之间的相关性：

可以看出，PairWise的部分因子相关性较高，Hinge和Logistic（包括RankNet）两种模式没有明显差异。而Lambda NDCG能带来明显增量信息，与其他损失函数普遍相关性较低。ListWise的损失函数与回归相比，同样有较低的相关性水平，基本在0.8左右。

因此，最终我们筛选表现较好且差异性较大的三个排序学习损失函数（DCG Hinge Loss, Lambda NDCG2, Neural NDCG）与MSE所得因子值等权合成，最终得到结合了排序与回归学习之后的模型因子：

可以发现，在不同股票池中将回归与排序进行合成均能在一定程度提升最终效果。IC均值在中证1000成分股中为14.33%，多头年化超额收益率为21.87%，多头信息比率为2.78。

三、利用多个Epoch结果对抗过拟合

AI模型用于量化选股领域虽然普遍能获得较好的投资组合效果，但牺牲了可解释性的同时也由于更复杂的模型和更多的参数带来了过拟合的风险。如何对抗过拟合一直也是业界比较关心的问题，在本篇报告中，我们尝试介绍一种从细节着手改善过拟合可能性的方法。

一般而言，我们训练神经网络类模型时倾向于设置早停机制（early stop），一方面能够避免训练集损失一直下降而验证集损失不再下降导致的过拟合问题，另一方面也可以确定验证集最优结果用于作为模型最终的确定参数。

上图为我们用于演示验证集损失函数随训练轮数变化的趋势所构造的数据，一般规律为早期损失函数会持续下降，直到某轮后开始震荡甚至抬升，连续若干轮都难以下降至前期最低点后，我们一般取损失函数最低（有时也可以用其他Metrics）的轮数所对应模型参数用来对测试集数据进行预测。

然而使用此类方法其实面临几个问题：

● 随着训练的不断进行，模型可能会陷入局部最优点而非全局最优，从而导致模型参数并未完全训练到位就难以继续使损失函数下降。一般可以用学习率调节等方法一定程度上避免此类问题，本篇报告暂不涉及。

● 即便下降至全局最优点，模型也是依据训练集和验证集数据所得到的参数，此时得到的全局最优点并不一定同样是测试集中的全局最优，作为典型的时序预测类任务，量化场景下会面临市场环境变化等问题带来的全局最优失效问题。因此，取早停后验证集损失最小的epoch天然存在过拟合问题。

因此，我们考虑可以将表现最好的N个epoch所得模型参数全部提取，并通过取均值的方式来避免上述过拟合倾向。如下图中，我们将所有轮次所得损失排序，将最低的5个Epoch参数分别用于预测，并将最终因子值求均值作为最终结果。

为考虑结果稳健性，我们同样取5个随机种子求均值得到最终测试结果：

可以看出，在绝大多数指标上，选取5个Epoch求均值在收益和稳健性方面均要优于之前只取单轮结果的方案。以全A股票池为例，五轮取均值后，因子IC均值为14.34%，IC_IR为1.39，多头年化超额收益率为18.53%，多头信息比率2.77。

四、结合排序学习与多轮参数对抗过拟合方案的AGRU指数增强策略

由前文所述，我们在将回归MSE与三种排序学习损失函数结合后发现在各大宽基股票池中均有收益和稳定性提升效果，同时使用多轮模型参数取均值的方式同样能提升模型样本外表现稳健性。此处我们将上述方案与传统AGRU模型分别放入组合优化，构建指数增强策略。通过马科维茨的均值方差优化模型，对投资组合的跟踪误差进行限制，并控制个股偏离程度以减少策略波动水平，最大化预期超额收益率。

其中，f为模型的预测信号，w_{bench}为基准权重向量，tartget_TE为目标跟踪误差。

在本篇报告中，我们将年化跟踪误差控制为最大不能超过5%，并要求所有投资股票必须100%来自于指数成分股。使用优化器对投资组合权重进行优化，回测期为2015年2月1日至2023年12月31日，以每月第一个交易日的收盘价进行月频调仓，假定手续费率为单边千二（双边千四），在各宽基指数上的测试结果如下。

4.1 基于排序学习与多轮参数对抗过拟合的沪深300指增策略

可以发现，经过组合优化的控制后，策略表现进一步提升，以沪深300作为基准，年化超额收益率达到16.60%，超额最大回撤仅为3.78%。分年度来看，策略仅在2019和2023年超额收益未达到10%，其余年份均有较高的超额收益水平。

4.2 基于排序学习与多轮参数对抗过拟合的中证500指增策略

同样地，我们在中证500指数成分股进行指数增强策略的构建，策略的年化超额收益率达到19.20%，超额最大回撤为4.25%。

分年度来看，中证500指数增强策略稳定性略差于沪深300，但整体超额水平更高，超额收益率在2019和2023年较低，其余年份超额收益均在10%以上。

4.3 基于排序学习与多轮参数对抗过拟合的中证1000指增策略

最后，使用同样的方式我们构建了机器学习中证1000指数增强策略，策略的年化超额收益率达到29.81%，超额最大回撤为8.04%。

分年度来看，策略在中证1000上表现最为稳定，除2023年外，每一年的超额收益均在20%以上。

五、总结

在本篇报告中，我们首先探讨了不同神经网络编码器的融合方式以及对量化选股领域的影响，经过对比尝试发现两阶段注意力机制的DA-RNN在实践中存在诸多问题，为此我们使用了仅进行特征层面的注意力与GRU结合，得到模型AGRU所构建的选股因子表现亮眼。

其次，我们介绍了排序学习的基本思路和常见算法，将常见的所有损失函数统一使用AGRU作为Backbone进行训练并与MSE对比，发现部分损失函数所得模型表现较好，且与原模型相关性较低，通过合成可以进一步提升因子收益和稳定性水平。所得因子在全A股票池中IC均值为13.82%，多头年化超额19.69%，多头信息比率2.98。

此外，如何更有效地防止过拟合一直是大家关心的问题，我们考虑了传统训练早停后只使用最好轮次的模型参数用于预测可能存在的问题，将其修改为对最好5个Epoch的模型参数预测后取均值的方式，有效减缓了模型陷入过拟合的情况。因子的各方面绩效指标均相较于之前有所提升。

最终，我们对上述改进所得因子构建指增策略。其中，沪深300指数增强策略年化超额收益达到16.60%，超额最大回撤为3.78%。中证500指增策略年化超额收益19.20%，超额最大回撤4.25%。中证1000指增策略年化超额收益29.81%，超额最大回撤8.04%。

风险提示

1、以上结果通过历史数据统计、建模和测算完成，在政策、市场环境发生变化时模型存在时效的风险。

2、策略通过一定的假设通过历史数据回测得到，当交易成本提高或其他条件改变时，可能导致策略收益下降甚至出现亏损。

往期报告

主动量化系列

Alpha掘金系列

1.《Alpha掘金系列之十一：基于BERT-TextCNN的中证1000舆情增强策略》

2.《Alpha掘金系列之十：细节决定成败：人工智能选股全流程重构》

2.《Alpha掘金系列之九：基于多目标、多模型的机器学习指数增强策略》

3.《Alpha掘金系列之八：FinGPT对金融论坛数据情感的精准识别——沪深300另类舆情增强因子》