KDD 2024 | FNSPID：整合新闻与股价的大规模金融数据集

科技 2024-09-03 18:30 中国

点击名片

关注并星标

#TSer#

扫下方二维码，加入时序人学术星球

参与算法讨论，获取前沿资料

（230+篇专栏笔记，已有220+同学加入学习）

金融市场预测利用历史数据来预测未来股票价格和市场趋势。传统上，这些预测主要集中在定量分析因素（如股票价格、交易量、通货膨胀率和工业生产变化）的统计分析上。最近，大型语言模型的进步推动了将情感数据（特别是市场新闻）和数值因素相结合的综合性财务分析。然而，由于缺乏将定量和定性情感分析相结合的广泛数据集，这种方法经常受到限制。

本文介绍一篇来自 KDD 2024 的论文，研究者针对上述挑战，推出了一个大规模金融数据集——金融新闻与股票价格整合数据集（FNSPID）。研究者认为：（1）数据集的大小和质量显著提高了市场预测的准确性；（2）在基于 Transformer 的模型中，添加情感评分可以适度提高性能；（3）一种可以更新数据集的可重复程序。实验证明，FNSPID 在规模和多样性方面优于现有的股票市场数据集，并独特地融入了情感信息。

【论文标题】

FNSPID: A Comprehensive Financial News Dataset in Time Series

【论文地址】

https://arxiv.org/abs/2402.06698

【论文源码】

https://github.com/Zdong104/FNSPID_Financial_News_Dataset

论文背景

几十年来，时间序列回归模型一直是开发金融估值方法的基石。这种方法不仅在传统的金融模型中至关重要，而且在金融市场预测的人工智能领域也至关重要，该领域的特点是市场模式的复杂性和不可预测性。

传统的金融市场分析采用 Fama-French 三因子模型（FFM）和套利定价理论（APT），这两者都是资产定价的关键。这些模型使用线性回归来分析收益，但不关注特定的市场高点和低点。这两个模型对历史数据的依赖限制了它们在预测未来市场变化或金融危机等前所未有的事件方面的有效性。新兴的机器学习（ML）技术已显示出解决这些局限性的潜力。先前的研究证明了它们相对于传统模型的有效性。此外，国外也有研究强调将股票价格和新闻情绪整合到深度学习（DL）技术中进行股票市场预测的优越性。这些新兴方法利用长短期记忆（LSTM）、循环神经网络（RNN）和强化学习（RL）等模型，在把握市场走势的时机方面取得了显著改进，这是传统模型所缺乏的关键方面。

最近的研究强调了包括新闻、博客和社交媒体在内的情绪信息与股票市场趋势之间存在强烈的正相关关系。随着 OpenAI 开发的 ChatGPT 和 GPT-4 等先进大型语言模型（LLMs）的出现，这一背景下的情绪分析准确性得到了显著提高。

除了 GPT-4 的情绪分析外，LLMs 在金融领域还扮演着多种角色，包括强化学习（RL）和专门的金融 LLMs，如 FinGPT 和 FinRL。将数值数据整合到语言模型中是一个挑战，但嵌入股票价格和新闻数据的多模态模型提高了准确性。然而，这种方法可能无法优化通用的预训练 LLMs，因为仅使用情绪分数可能会导致信息丢失。同时，缺乏全面且综合的数据集极大地限制了研究进展，特别是在实施基于 Transformer 技术等更复杂模型方面，这些模型可以显著增强金融分析。

表1：时间序列金融分析现有数据集的比较

为了解决这些问题，研究者引入了金融新闻与股票价格整合数据集（FNSPID）。该数据集独特地将时间序列新闻和股票价格相结合，为金融市场分析提供了一个开创性的资源。

FNSPID属性与构建

FNSPID 是一个全面且多样化的数据集，包含了超过 30GB 的数据。如表2所示，展示了包含在该数据集中的时间序列股票价格数据的样本。

表2：股票数值数据

图1提供了对情绪数据的概览，包括URL、新闻标题、新闻文本、情感分数，以及通过四种不同方法总结的文章，这些多样化的数据点凸显了数据集的深度和广度。除了总结之外，研究者还扩大了分析范围，纳入了从 2024 年标普 500 指数中影响力最大的 50 只股票中精选的 50 个股票样本。这些样本被纳入情感标注批次中，共产生了 402,546 条带有情感分数的新闻条目。

图1：情感数据

总体来看，FNSPID 是一个精心策划的数值和情绪数据集合。研究者件将 FNSPID 主要部分的构建过程分为三大任务：描述所有情绪和数值信息（任务 1）、描述如何构建汇总情绪数据集（任务 2）、讨论如何构建量化情绪数据集（任务 3）。

研究者从多个金融新闻网站（如 NASDAQ ）收集了新闻数据。这些数据包括新闻标题、URL、新闻文本等。为了增强数据的完整性和多样性，研究者还整合了来自 Bloomberg、Reuters、Benzinga 和 Lenta 的旧数据。

收集到的原始数据包括股票价格、URL、新闻标题和新闻文本。研究者使用 Python 包 Sumy 中的四种方法（LexRank、Luhn、LSA和TextRank）对每篇文章进行摘要，以处理令牌限制和情感分析中的实用约束。

为了提高摘要与相关股票的相关性，论文中引入了一个加权模型，以更多地关注相关股票的信息。经过样本审查，研究者将摘要长度设置为3句话，以确保摘要简洁且包含有用信息。

为了将情感标签整合到输入中，研究者使用了 ChatGPT 进行情感分析。ChatGPT 对从 LSA 摘要器算法中得到的摘要进行情感评分，这些摘要压缩了新闻内容，为 ChatGPT 提供了简洁而全面的输入。

图 2：ChatGPT 提示示例

文中采用了从1到5的情感评分尺度，其中1代表负面情感，2是有些负面，3是中性，4是有些正面，5是正面。

图 3：情感分布

为了解决没有新闻信息的日期的数据缺失问题，研究者实施了指数衰减方法，从前一天有新闻的情感分数中外推缺失的情感因素，确保数据集的时间连续性。对于有多个新闻文章的日期，计算了平均情感分数，这代表了当天的整体情感，允许更细致准确地反映当天的市场情感。

实验分析

数量测试

在股票价格预测中，人们使用数值数据和情感信息作为输入来预测短期股票市场行为。不同的模型识别不同的数据模式，从而导致预测性能的差异。研究者使用 FNSPID 任务3进行实验分析，旨在研究新闻数量在模型中的有效性。

图4：实验流程

如图4所示，研究者对股票价格预测中的深度学习（DL）方法进行了比较，选择长短期记忆网络（LSTM）、循环神经网络（RNN）、卷积神经网络（CNN）和门控循环单元（GRU）作为主要模型，以验证 FNSPID 传统方法的性能。除此之外，研究者还尝试了金融预测中更新颖的方法：4层 Vanilla Transformer 和4层 TimesNet，它们都擅长时间序列预测。

在定性实验中，输入特征包括开盘价、收盘价和交易量作为基线输入特征。研究者使用50天的信息进行预测，预测未来3天的股票价格。此外，还进行了不同股票数量的训练实验：5只股票（n=11277）、25只股票（n=43192）和50只股票（n=127937）。每个训练集使用100个周期进行训练。在模型训练后，使用5只股票进行评估，其中从实验结果中剔除了一个异常值，并给出了平均值作为结果。

表3：通过50个训练周期的实验评估

实验结果：在所有6个模型中，从5只股票的训练到25只股票的训练，平均R²值提高了 6.29%。这些实验证明了 FNSPID 数据集的实际应用和鲁棒性，强调了其在金融建模和情感分析研究中的价值。一般来说，在趋势分析中，较大的训练数据集可以带来更好的金融股票预测性能，这是小数据集的一个局限性。

质量测试

使用与定量实验实验中相同的样本模型参数，基于 FNSPID 任务3中的情感和从 FNSPID 中解析出的实验数据集（使用TextBlob标注信息）来比较不同模型的训练性能。FNSPID 数据集任务2是 ChatGPT 标注的信息。Textblob 情感信息代表了情感评分标注中数学算法和小型 NLP 模型的结合。

从实验来看，表3部分A中的 FNSPID 数据集任务2对准确性的提升有正面影响。而表3部分B中的 Textblob 情感信息则对模型训练产生了负面影响。

从表3中发现，只有 Transformer 模型在包含情感信息的情况下对性能提升有正面影响，而 TimesNet 偶尔也有正面影响。可得出结论，其他模型在将情感信息整合到模型中时，并未很好地理解这些信息，而是将情感信息视为噪声。值得注意的是，在小数据集训练（仅5条新闻）时，LSTM 在训练中的表现优于 Transformer，但随着数据集规模的扩大，Transformer 在预测准确性上有了显著提高。

情感标注方法可能导致段落中的部分信息丢失，从而导致情感信息在股票价格预测中的表现不佳。先前的研究已经表明，财经新闻对股票价格有显著影响。然而，这里的实验仅揭示了模型性能的微小提升，这主要归因于两个主要因素：首先，模型本身已经具有较高的预测准确性，使得进一步改进变得具有挑战性；其次，新闻传播的潜在延迟可能推迟了其对股票价格的影响。

综上所述，基于 FNSPID 实验可以总结出以下三点：

数据集的质量和数量都极大地影响了股票价格的预测。
高质量的情感信息对基于 Transformer 的训练有正面影响。

在股票价格预测中，基于 Transformer 的模型超越了传统的时间序列模型以及像 TimesNet 这样的新方法。

关于FNSPID的应用

多模态模型训练

开发一个融合文本和数值输入的数据集对于创建多模态模型至关重要，特别是在时间序列股票市场预测中。这样的数据集可以通过利用不同类型数据之间的协同作用来提高模型的鲁棒性。此外，目前强化学习（RL）对顺序数据的依赖可以通过集成相关数据集来增强。这种方法可以显著增强RL算法，特别是在预测股票市场趋势方面。对于无法理解自然语言的小型且快速部署的模型，FNSPID任务3可以进行训练。

市场预测中的情感数据

评估情感数据对市场价格的影响可以从现代投资组合理论中得出见解。并行处理多只股票的新闻可以提炼市场预测并加强RL算法。

相关性分析

该数据集在分析情绪信息与股票价格之间的相关性方面起着关键作用，从而加深了我们对市场动态的理解。FNSPID提供了对齐的情绪-数值数据，这使得情绪标注更加准确，这在投资银行领域的量化分析中非常重要。除此之外，FNSPID还可以通过识别大衰退前新闻的模式来用于异常检测，从而有助于金融风险管理和异常走势预测。

金融生成式AI

鉴于FNSPID在数量上的优势，该数据集可以帮助优化大型语言模型（LLMs），以提高金融咨询性能，从而推动先进AI金融助理的开发。

总结

总体而言，FNSPID 是一个强大的工具，可以推动金融领域的研究和实践。它的创新之处在于将股票价格数据与新闻情感数据相结合，为理解和预测金融市场提供了新的视角。但 FNSPID 也存在一些局限性。比如网站政策的动态性可能带来潜在的约束，因为未来的变化可能也会影响数据集的可用性。

扫下方二维码，加入时序人学术星球

星球专注于时间序列领域的知识整理，前沿追踪

提供论文合集、视频课程、问答服务等资源

230+篇专栏笔记，已有220+小伙伴加入

价格随着内容丰富而上涨，早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论"，加入讨论组一起交流学习 🏃

往期推荐阅读

KDD 2024 | 检测并优化时序预测中的分布偏移问题

LSTM再升级！原作者携xLSTM回归，扩展LSTM到数十亿参数

KDD 2024 | ShapeFormer：多维时序分类中基于形状的Transformer

综述 | 可解释性人工智能（XAI）在金融时间序列预测中的应用

ICML 2024 | CaRiNG：在非可逆生成过程中学习时间因果表示

WWW 2024 | FCVAE：从频率角度重新审视 VAE 在无监督异常检测中的效果

ICLR 2024 | FTS-Diffusion：针对金融时序中不规则特征的生成学习

ICML 2024 | BayOTIDE：针对多变量不规则时间序列的高效插补算法

ICML 2024 | 时序异常检测应该如何设计有效的模型？

ICML 2024 | 探索“河流网络拓扑+GNN”在洪水预测任务中的有效性

ICML 2024 | 时间序列相关论文盘点（附原文源码）

KDD 2024 | UniST：清华推出首个通用城市时空预测模型，代码数据均已公开

综述 | 一文看懂生成式时序表示与时序大模型

CALF：用于长期时间序列预测的高效跨模态LLM微调框架

觉得不错，那就点个在看和赞吧

http://mp.weixin.qq.com/s?__biz=Mzg3NDUwNTM3MA==&mid=2247500935&idx=1&sn=0a796eaaa0756f5c3746661cac138c07

时序人

专注于时间序列领域下的科研、工业干货分享，紧跟AI+等领域的科技前沿

最新文章

无惧漂移！D3R方法可用于不稳定多元时间序列异常检测，SOTA提升11%

无需安装，一个文件本地运行大模型！

EffiCANet：基于卷积注意力的高效时间序列预测，显著降低计算成本

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

快速学会登上nature的热门算法，LSTM！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

填补空白！Salesforce 提出首个通用时序预测模型评测基准 GIFT-Eval

LSTM依然能打！原作者带队最新开源成果吊打Transformer和Mamba

涨点神器！100个即插即用缝合模块【合集下载】

清华与深大提出TimeBridge，有效处理长期时间序列预测中的非平稳性问题

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

一文解读：时序基础模型的缩放定律

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

最强总结，99个时间序列+时空数据的顶会创新！

正常时序转化为图像，进行高效且可解释的多元时序异常检测

NeurIPS 2024 | 时间序列相关论文盘点（附原文源码）

Time-MMD：首个涵盖9大主要数据领域的多域多模态时间序列数据集

华东师大团队首创！时间序列异常预测开启全新时序任务

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

快速学会登上nature的热门算法，LSTM！

如何处理多频段时序特征？这个Transformer变体显著提升预测效果

20场Kaggle机器学习比赛Top方案GrandMaster整理

PeFAD：边缘设备中高效的联邦异常检测框架

KDD 2024 | 数据驱动的分布偏移检测与自适应

NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架

KDD 2024 | 首个基于 Diffusion 的自监督时序表示方法

必看的11种主流注意力机制创新研究！(附代码）

港大智慧城市大模型 OpenCity 来袭! 时空预测是否将在 GPT 时代重塑？

KDD 2024 | RHiOTS：评估层级化时序预测算法的可靠性

博后招募 | 清华大学裴丹老师课题组招收时间序列博士后

这届审稿人是不是有毛病！？？？

时间序列预测中如何构建层级化的 Transformer 架构？

文末送书 | 豆瓣9.6，多语言版本全球发行，这本书为何这么受欢迎？

KDD 2024 | FNSPID：整合新闻与股价的大规模金融数据集

KDD 2024 | 检测并优化时序预测中的分布偏移问题

多模态融合，顶会超神了！

KDD 2024 | 时间序列相关论文盘点（附原文源码）

LSTM+Transformer=金融时序预测超高精准度！

LSTM又火了！最新52个创新思路+全部开源代码！

LSTM再升级！原作者携xLSTM回归，扩展LSTM到数十亿参数

发paper必备82个即插即用缝合模块！附下载

KDD 2024 | ShapeFormer：多维时序分类中基于形状的Transformer

综述 | 可解释性人工智能（XAI）在金融时间序列预测中的应用

文末送书 | AI for Science：一本书，洞察未来的科技生态！

AI顶会今年这情况，很严重，大家做好准备吧！

ICML 2024 | CaRiNG：在非可逆生成过程中学习时间因果表示

WWW 2024 | FCVAE：从频率角度重新审视 VAE 在无监督异常检测中的效果

清华第二届城市科学大会报名启动！文末赠送2个免费与会名额！

各位，请入局AI大模型，现在！立刻！马上！！

ICML 2024 | FlashST：一个简洁有效新范式，助力智慧城市时空预测

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉