做有用的科研|融合新闻情感的股票价格预测研究

文摘   2024-12-21 13:24   陕西  


在数字化浪潮席卷全球的今天,数据科学已成为推动社会进步和行业发展的关键力量。为了进一步促进教师队伍提升科研与社会服务能力,高质量反哺应用型人才培养,并助力区域、城市的数字化发展,数据科学学院推出“做有用的科研”系列专栏。本系列旨在报道分院教师队伍在行业洞察、政策解读、数据分析、案例研究以及人才培养等方面的研究成果和思考。通过“以研促教,以教促学”的策略,展现教师在科学研究、教育教学以及行业应用中的综合素养,为行业雇主的未来发展贡献智慧与力量。


作者简介


程茜,女,副教授,陕西师范大学数学专业硕士,青年统计学家协会理事,高级数字化管理师、大数据应用工程师。主要研究方向:文本数据挖掘。主持参加科研项目10余项,发表学术论文10余篇,多篇收入EI等检索,参与编写教材3部。参与证券分析师的价值分析、工业锅炉大气污染物高分辨率排放清单不确定性分析、长天思源-狗熊会算法联合研究项目等多项金融、环保行业数据分析类的产学项目。连续多年带领学生参加全国大学生数学建模竞赛和美国大学生数学建模竞赛,荣获多项省级以上奖励。

1

研究背景


股票是金融市场的重要部分,其交易与波动不仅反映地域经济发展,也体现国家经济发展状况。因此,股票市场的平稳对国家经济发展至关重要。然而,股价预测一直是股市中的高难度问题,研究者试图通过各种方法预测股票走向和资本流向,以制衡股市、平衡经济发展。但实际上,股价波动受多方面影响,如股民情感、企业发展、国家政策及世界经济政策等。在中国市场,股票市场受政策和市场规则制约,股民特别是散户多跟随政策投资,带有强烈个人情绪。由于政策和情绪难以控制,股民投资行为变得难以预测,导致股市乃至金融市场出现众多复杂现象。这些现象不仅难以解释,也增加了股市的不确定性,对经济发展带来挑战。

2

研究框架


图1 研究框架

3

理论基础


SnowNLP利用内在模型可以粗略计算出文本的Positive情感分值以达到量化文本信息的目的,更重要的是SnowNLP是专门针对中文开发的文本分析库,相比于例如TextBlob等专门针对英文的文本分析库有较高的分析精度。SnowNLP的操作步骤如图2所示:

图2 流程

利用朴素贝叶斯方法进行Positive的概率计算:

(公式1)

4

实证研究


1、样本选取

本研究参考了此领域研究的大量文献中所关注的影响股价的重要指标,包括MACD,RSI,ROC,KDJ,BRAR,BIAS,开盘价等历史研究者所关注的指标。结合本次对于股价趋势的研究,最终确定选用MACD,RSI,ROC,KDJ为股票的技术指标来进行本次研究。确定了股票的技术指标后,为了使本次研究更具有普遍性与参考性,决定选取白酒、医疗器械、光伏这三个行业领域具有代表性的某只股票近3年的股票数据来作为本次研究的股票部分的数据支撑。
除了股票的技术指标外,结合论题“融合新闻情感”,决定选用中国新闻网中通过行业关键词搜索的近3年的新闻标题及其正文数据作为本次研究的外界新闻文本数据支撑。

2、新闻文本情感打分

所获取新闻文本数据含有新闻标题、新闻文本内容。首先,对所选择的三类行业的股票相关新闻标题进行处理,将同一天内的所有新闻标题进行SnowNLP方法处理后分组聚合取其当天的平均分值结合该类股票当天的收盘价进行绘制,结果如下:

图3白酒新闻标题与收盘价分析

图4医疗器械新闻标题与收盘价分析

图5光伏新闻标题与收盘价分析

由图3-5可以看出对应行业当天的新闻标题情感分数从波动趋势来看对股票当天收盘价的涨跌有一定的影响,在多个区间内都出现了同步变化的趋势,说明新闻情感对于股票的收盘价有一定程度上的影响。
其次,对新闻文本正文而言,先利用Jieba分词的原理将正文部分进行分词处理,接着因为分词后词的长短不一,排除长度为1的词,再循环利用SnowNLP的方法对每一个词进行情感分值的打分,最终利用分组求和的方式得每一条的新闻标题与正文的平均情感分值。部分数据结果如下图所示:

表1 新闻标题与正文情感打分

为了验证正文情感与标题情感以及收盘价之间的关系是否一致,绘制了情感分值直方图与正文情感与收盘价之间的关系图来分析说明,如图所示:

图6白酒正文情感与标题情感以及收盘价分析

图7医疗器械正文情感与标题情感以及收盘价分析

图8光伏正文情感与标题情感以及收盘价分析

由图6-8分析可知,新闻标题的情感极性较为明显,而新闻正文内容的情感趋近于正态分布,说明标题与正文间存在一定程度上的偏差,但结合收盘价与正文情感分值的走势情况来看,正文情感分值的走势与收盘价的波动存在一定程度上的相关关系,对比前文中新闻标题与收盘价的走势关系,正文情感的走势更加贴近收盘价的波动,所以后续研究选取正文情感作为样本研究。

3、模型构建与预测

基于本次研究中的数据量小,以及数据维度较高,决定选用在数据量小,数据维度高表现较好的支持向量机模型进行研究。由于本次研究的因变量是连续型变量,所以采用的是支持向量机中的线性回归模型——SVR,通俗来讲SVR回归就是利用代价函数找到一个回归平面,让一个集合的所有数据到该平面的距离最近。SVR代价函数:
cost(x)=max(0,|d(x)-g(x)|-ε)
(公式2)

其中ε指回归平面的容忍值,以防止过拟合的情况出现,d(x)-g(x)指的是某个元素到回归平面的距离。利用支持向量机进行是否加入情感因素进行模型的训练,在进行上诉操作后得到的结果:

图9 白酒预测走势

图10医疗器械预测走势

图11光伏预测走势

通过图9-11预测结果走势可以看出,加入情感因素能够更加准确的预测股价的走势,并且能够更加精准的预测出股价的真实值。所用模型的预测精度如表2:

表2 模型预测精度对比

根据上表得到的结果,在量化了预测结果之后,可以发现支持向量机的预测精度较差,在白酒和医疗器械这两个行业得到的股票来看预测精度较低,但是对于光伏的股票预测精度在除支持向量机以外的模型中表现的特别好。而上述模型在加入情感影响后,其单个模型的预测精度几乎都得到了不同程度的上升,提升效果在1%-6%之间,进一步说明了加入情感影响之后会提高预测的精度。在融合新闻情感的股票价格预测中,新闻情感的影响确实起到了一定程度上的提升作用。

5

结论及展望


在股票预测领域中,预测指标与预测方法多种多样。但融合新闻文本作为指标进行研究在股票预测领域中的研究还较为缺乏。而在真实情况下,外界的新闻情感确实是可以影响某行业股票的价格走势的。通过本次研究,在融合了新闻情感因子以及多个模型的综合分析后,得出新闻情感数据在一定程度上影响着股票的价格走势。

参考文献

[1]陆楷诗.基于Word2Vec扩展LDA和优化SKM聚类的移动游戏中文舆情分析[D].东华大学,2021.
[2]杨秋云. 融合微博情感分析的股价预测模型研究[D].中南财经政法大学,2020.
[3]方园园. 基于文本挖掘与情感分析的网络舆情分析[D].安徽财经大学,2021.

END


供稿 | 程茜
排版 | 张飒涵
审核 | 马臻 李冰洁




欧亚数据科学学院
以开放的心态分享交流,连接你我他,在信息的海洋里汲取营养,共同成长
 最新文章