文献阅读荟-No.255-基于图结构的学习方法在股票走势预测中的应用:结合文本和关系数据

2024-06-19 10:01   广东  

论文:基于图结构的学习方法在股票走势预测中的应用:结合文本和关系数据

Chen Q, Robert C Y. Graph-based learning for stock movement prediction with textual and relational data[J]The Journal of Financial Data Science, 2022, 4(4) 152-166.

下载地址:

https://doi.org/10.3905/jfds.2022.1.104


01 引言
尽管研究表明股票价格波动且不平稳(Adam等,2016),但可以通过各种已知信息(如历史价格、宏观经济指标、金融新闻等)来共同解释其走势,目前大多数研究集中在数值指标的时间序列分析上。虽然这种方法简单高效,但未考虑市场情绪和市场驱动事件,而大多数理性的投资者正是基于这些因素进行交易。随着自然语言处理技术发展,更多近期研究开始使用文本数据进行股票走势预测。然而,这些研究假设所有股票都是独立的,并独立预测每只股票的价格走势,尽管Hou(2007)表明,一只股票的走势可以显著影响其他相关股票。
为了考虑股票之间的关联性,Guo等(2018)和Ye等(2021)将关系信息整合到传统的时间序列分析中,但仍未考虑到文本数据。Cheng等(2020)和Sawhney等(2020)通过构建网络结构将文本数据和一个预定义的关系图结合起来考虑。然而,股票之间的关系可以来自多个方面,例如价格关联(Campbell等,1993)、行业领域关联(Vardharaj和Fabozzi,2007)和供应链关联(Pandit等,2011)。本文将展示同时考虑多种关系可以提升预测表现。
为了填补上述研究空白,本文提出一个新的股票价格走势预测框架——多图循环网络(MGRN)。MGRN基于图结构共同学习金融新闻文本信息和各种关系数据,并通过其循环结构学习时间模式。本文展示了MGRN模型相较其他基准模型的表现,还通过交易回测展示策略现实场景中的盈利能力。

02 问题表述
股票走势预测可表述为一个二元分类任务。对于股票集合  中的某只股票  ,定义其在时间  和  之间的市场调整收益率  为:其中,  表示时间  时股票  的价格,  表示时间  时的市场指数,将股票  在时间  到  之间的股票走势预测任务的目标定义为:本文的目标是在回溯窗口  内,从新闻和股票之间的关联信息中预测股票走势  ,可以写成:其中,  表示股票  在  和  之间的所有新闻,  表示可训练的参数。  是股票集合  中的股票数量,  是从数据源  构建的图,  是从不同数据源构建的图的数量。

03 多图循环网络MGRN
MGRN模型的架构如图1所示,主要包含3部分:金融新闻编码器、图卷积网络和循环神经网络。
3.1 编码器结构
本文使用Universal Sentence Encoder(Cer等,2018)将每条新闻  转换为固定长度的嵌入向量  
与基于单一新闻的股票走势预测不同,基于图结构的网络在训练和预测时需要每个节点都有有效的嵌入向量。因此,需要选择一个合理的时间窗口,以确保大多数股票在此窗口内至少有一条新闻,避免使用过多的零向量作为节点。本文参考Kim等(2019)和Li等(2020)的做法,在聚合新闻时选择以一天为时间窗口。这意味着对于股票  和某一天  ,选择从  日市场收盘时间到  日市场收盘时间之间的所有关于  的新闻来获得其聚合嵌入向量。
Iyyer等(2015)和Wieting 等(2015)表明,简单的平均聚合可以达到与更复杂的循环结构模型(如 LSTM)相似甚至更好的性能,因此本文对股票  在  日的所有新闻嵌入向量取平均值,作为其聚合新闻嵌入向量  :其中,  是在  和  之间发生的关于  第  条新闻的嵌入向量。
3.2 图卷积注意结构
本文使用图  来建模股票关系。使用图的邻接矩阵  来表示  只股票之间的关系。元素  表示股票  和股票  之间关系的强度,设定  :
  • 用简单图表示的布尔关系:  ,如果股票  和  之间有连接,则将  设为1;否则,设为0;
  • 用加权图表示的连续关系:两只股票关系越重要,  就越大;
本文使用对称归一化对邻接矩阵进行归一化处理:其中,  是广义对角度矩阵,定义为:本文使用Kipf和Welling(2016)提出的GCN结构。对于第  天,构建新闻矩阵   。  层 GCN可以表示为: 其中  ,其中  表示第  层的输出特征数,  ,  是最终的输出,  表示激活函数,  表示第  层的权重矩阵。
给定  个图  及其邻接矩阵  ,为每个图分配一个独立的GCN。对于第  天,有  个图的输出  ,使用注意力机制(Vaswani 等,2017)将这些图的输出结合起来,以获得一个聚合的输出。定义可训练参数  和  ,计算图  的注意力系数  :然后聚合所有的  (  表示元素逐位相乘):最后,将图输出  与原始的每日新闻嵌入进行拼接(  ),这样做是为了确保能够捕捉到来自图结构和原始文本嵌入的信息。在第  天图层之后的最终输出为:3.3 循环网络结构
构建循环网络结构捕捉新闻中的时间模式。首先从第  天到第  天重复上述过程,将来自图结构的输出表示为  ,作为循环神经网络的输入。本文采用一个简单的多层循环神经网络结构(包含LSTM单元),最后一层接全连接层、softmax 层进行最终的预测。对于每只股票每天得到  表示股票价格第二天上涨的概率,而  则表示价格下跌的概率。本文使用Adam优化器训练MGRN网络,通过最小化二元交叉熵损失函数,表示为:其中,  是现实股价变动。

04 实证分析
4.1 数据集和图构建
金融新闻数据集
本文使用的数据集是Bloomberg News,每个条目包含时间戳(表示新闻发生的时间),股票代码(表示与该新闻相关的股票),以及新闻的标题。除了上述必要的信息外,还可以找到取值为-1、0 或+1的评分,以及与评分相关联的置信度,取值范围在0到100之间。这两个字段由Bloomberg的分类算法提供,将作为本文预测模型的基准之一。
值得注意的是,本文移除那些没有足够新闻的股票,只选择那些平均每天有超过2条新闻的股票,确保每日新闻向量不会有太多的零向量。经过筛选,股票池中股票在所有每日新闻向量中只有15%是零向量,这意味着对于给定的股票和日期,有85%的可能性至少有一条新闻。
股票价格数据图
本文获取了股票池中所有股票收盘价,同时获取了STOXX Europe 600指数收盘价,用于市场调整收益计算。本文使用这些股票价格来进行标注,并构建图。然而,注意到有些退市的股票在某个日期之后不再有价格数据,这使得无法正确计算它们的收益率。因此,在训练期间,本文移除了那些已退市的股票,最终股票池包含165支股票。
本文基于股票价格构建加权图  。对于所有股票,首先使用计算其市场调整收益率,得到向量  ,其中包含了从训练数据集第一天到最后一天的所有收益率。计算股票  和股票  之间的皮尔逊相关系数(Freedman等,2007),邻接矩阵  表示为:股票行业数据图
根据全球行业分类标准(GICS),每家公司都被分类到特定的行业部门,本文基于这些数据来构建一个行业图  。其邻接矩阵  定义如下:GICS行业数据有4个粒度:板块、行业组、行业、子行业,在本文的研究中,使用表现最佳的第三粒度——行业。
供应链数据图
本文使用来自Factset的供应链数据来构建供应链图。该数据集描述了不同公司之间的供应商-客户关系(SCR)。构建供应链图  ,邻接矩阵为:
本文依照深度学习研究惯例将数据集划分为训练集、验证集和测试集,回测滚动窗口设置为  天,并使用前瞻窗口  天来标注数据。GCN模型设置2层隐藏层,维度分别为128和64。RNN模型也有2层隐藏层,分别包含128和64个LSTM单元,使用Adam优化器训练模型,训练代数设置为10,批大小设置为32。
4.2 评估方案
本文参考已有的股票走势预测研究采用准确率来评估模型的性能,然而这种简单的指标并不能完全反映真实投资者的需求,因为投资者并不需要根据所有预测结果进行交易。投资者只在对预测更有信心时进行交易。换句话说,对具有更高概率的预测的准确性比对中等概率预测的准确性更为重要。因此,本文在评估指标中还包括“百分位准确率”。股票  在第  天的分数  定义为:对于每一天,选择当天分数的前  百分位和后  百分位的分数,其中  的取值范围在0到100之间。本文将基于这种选择计算得到的准确率表示为  。因此,整个测试集上的准确率为  。
本文还构建了简单多空交易策略,每个交易日对分数位于前  百分位的股票分配等权重的多头头寸,对分数位于后  百分位的股票分配等权重的空头头寸,这样多头头寸等于空头头寸使得策略没有市场暴露。使用年化收益率和夏普比率来评估策略表现。
4.3 基准模型
本文将比较MGRN模型与其他基准模型的表现,包括以下模型:
  • RAND:随机预测  ;
  • ARIMA:基于历史价格的自回归积分滑动平均模型;
  • BBG:Bloomberg News数据集提供的预测。
  • Mean-BERT:对由Devlin等(2018)提出的BERT模型进行微调,将其作为一个分类模型,使用股票  在第  天所有新闻的平均分数作为其  。
  • MAN-SF:由Sawhney等(2020)提出的股票走势预测框架。该模型结合了价格数据、新闻数据和关系数据来预测股票收益。
  • RNN:不包含任何图结构,与将邻接矩阵设置为单位矩阵的MGRN模型相同。
为了对不同图带来的改进进行详细分析,本文使用不同的图训练MGRN模型:
  • MGRN-Corr:使用收益相关性图  的MGRN模型。
  • MGRN-Sector:使用行业图  的MGRN模型。
  • MGRN-Supply:使用供应链图  的MGRN模型。
  • MGRN:完整的MGRN模型,同时使用三个图  、  和  。
4.4 实证结果
本文比较了单一图模型(MGRN-Corr、MGRN-Sector和MGRN-Supply)以及无图的基准模型(RNN),发现所有图都能帮助提升性能,特别是在最极端的分数(较小的  值)上表现更为显著。然而,很难确定哪种图表现最佳,因为每种图在不同百分位数下的最佳表现各不相同,这也表明不同图中的信息相对独立,将图组合在一起更加合理。研究发现,当同时使用所有三个图时,准确率显著提高(在  时提高了5%,在  时提高了3.5%)。这证明了模型能够同时从多个独立的图中吸收必要的信息,验证了结合不同来源的关系信息的有效性。
在某些情况下,添加图结构可能会导致比无图结构的RNN结果更差,例如,当  和  时,MGRN-Supply的表现比RNN差。然而,当与其他图结合使用时,结果比单独使用任何图都要好。这是因为错误通常来自于几只特定的股票,特别是当只有一个信息来源时。如果这个来源是错误的,可能会导致显著的错误。使用多个图结构的好处在于通过基于多个信息源做出决策,从而减少这些情况的影响。
表3展示了使用多空策略进行的交易模拟结果。可以确认MGRN模型优于其他模型,并且将图结合在一起是有益的。尽管有时彭博情感分数表现出更好的稳定性(夏普比率),MGRN模型仍然能提供最佳表现。这验证了在实际场景中使用MGRN模型的合理性。
4.5 定性分析
本文进一步研究展示MGRN模型如何帮助提升股票走势预测能力。以2018年12月6日的TLW LN股票为例。当天晚上注意到一条新闻:Tullow Oil董事长增持股票。这是一个积极的信号,表明了内部人士对公司的信心。基于这条新闻及其他信息,RNN模型(无任何关系信息)为这支股票给出了略微正向的评分0.025。然而,该股票在接下来的交易日下跌了-7.7%,与预测结果相反。
MGRN-Sector模型对同一预测的结果  为-0.107,这与RNN模型不同的唯一原因是来自其他相关股票的影响。同一个行业中,GLEN LN在RNN模型中具有最负面的评分,可以发现关于这家公司的大量负面新闻,例如Rosen Law Firm宣布对Glencore plc的股票进行调查。这些负面新闻导致了GLEN LN股票价格下跌了3.4%,潜在地导致了同一行业的负回报(-2.6%)。也可以从MGRN-Corr模型中观察到同样的现象,两只股票之间的相关性相对较高(0.56),但MGRN-Supply模型的预测仍然是错误的,因为这两只股票之间没有供应商和客户的关系。
这个例子清楚地展示了MGRN模型如何通过关系建模帮助提升预测结果,与传统的不包含关系建模的RNN模型相比,相关的股票可以通过图结构传递信息,模型可以基于股票自身信息和传递的信息做出决策。

05 结论
本文通过联合考虑新闻文本、多种基于图结构特征以及其中时间模式来预测股票走势,引入了多图循环网络(MGRN)来完成这一任务,通过实证分析和交易回测展示了模型结构的有效性。结果还证明,添加关系信息,尤其是来自多个来源的不同关系信息,可以更好地预测股票走势。后续计划在模型中加入更多类型的数据(如时间序列),以进一步提高预测的准确性。

讨论时刻:
    本文提出了一种新的股票走势预测框架——多图循环网络(MGRN),该架构允许将从金融新闻中提取的文本情感与从其他类型的金融数据中提取的多种关系信息结合起来,基于STOXX Europe 600 指数成分股数据证明该模型优于其他基准,同时展示了考虑多个来源的不同关系信息可以更好地预测股票走势,这可以作为未来的研究方向。



如果有好的建议,请留言给我们。

"大于研究"是华南理工大学经济与金融学院、金融工程研究中心于老师和学生对外分享研究成果和学习的心得的公众号。

对我们的研究感兴趣的可以联系fofscut@scut.edu.cn


大于研究
大于研究是华南理工大学金融工程研究中心的老师和学生对外分享研究成果和学习的心得的公众号。对我们的研究感兴趣的可以联系fofscut@scut.edu.cn。
 最新文章