Kaggle赛题解析：Jane Street实时量化挑战赛

学术 2024-10-15 16:46 北京

赛题名称：Jane Street Real-Time Market Data Forecasting
赛题类型：金融量化、时间序列
赛题任务：利用提供的时间序列数据（包含79个特征）来预测未来最多六个月的特定的响应

https://www.kaggle.com/competitions/jane-street-real-time-market-data-forecasting

unsetunset赛题背景unsetunset

金融市场的建模非常具有挑战性，因为它涉及到一些在其他类型的建模问题中不常见的特性。例如，金融市场的分布可能是重尾的（即极端值出现的概率高于正态分布），时间序列可能是非平稳的（即统计特性随时间变化），而且数据可能不满足许多统计方法所依赖的基本假设。此外，金融市场本质上是人类行为的体现，涉及大量个人和机构，他们随着技术进步、社会变化、经济和地缘政治问题的出现而不断变化，这进一步增加了建模的难度。

unsetunset赛题任务unsetunset

在这个挑战中，参赛者需要使用来自Jane Street生产系统的实时数据来构建模型。这些数据提供了对现代金融市场交易日常挑战的深入了解。竞赛组织者已经收集了一系列与他们运行自动化交易策略的市场相关的特征和响应器，并在数据中对一些特征和响应器进行了匿名化和轻度混淆处理，以保护公司的专有信息和竞争力。这些修改不会改变问题的本质，但确实为参赛者提供了一个有意义的挑战，展示了Jane Street的日常工作。

Jane Street在交易的各个方面进行了数十年的不懈创新，并构建了机器学习模型来辅助决策。这些模型帮助他们每天在全球200多个交易场所活跃交易数千种金融产品。虽然这个挑战只展示了Jane Street员工日常工作中的一小部分量化问题，但他们非常感兴趣地想看看Kaggle社区将如何接近这个挑战，并期待与参赛者就解决方案进行交流。

unsetunset评价指标unsetunset

在这个竞赛中，提交的模型将根据一个特定的评分函数进行评估，这个评分函数是样本加权零均值R平方分数（R2）。R2的计算公式如下：

其中：

是响应变量（responder_6）的真实值向量。
是预测值向量。
是样本权重向量。

这个公式衡量的是模型预测值与实际值之间的相关程度。R2分数越接近1，表示模型的预测越准确；如果R2分数接近0，表示模型的预测效果不比随机猜测好多少；而负的R2分数则表示模型的预测效果比随机猜测还要差。

在提交竞赛结果时，必须使用提供的评估API，这个API确保模型不会“窥视”未来数据，即模型不能使用未来的时间点的数据来进行预测。这样可以保证评估的公平性和模型的泛化能力。具体的提交流程和示例可以在官方提供的示例笔记本中找到更详细的说明。

unsetunset赛题数据分析unsetunset

竞赛数据集它包含了79个特征和9个响应变量的一系列时间序列数据，这些数据虽然匿名化，但代表了真实的市场数据。竞赛的目标是预测这些响应变量中的一个，即responder_6，预测未来最多六个月的数据。

竞赛分为两个阶段：

模型训练阶段：使用历史数据的测试集进行模型训练。这个测试集大约有450万行数据。
预测阶段：在提交截止后收集的测试集进行预测。预计这个测试集的大小与第一阶段的测试集差不多。

为了帮助你编写稳健的提交，我们会在模型训练阶段的最后几周扩展公共测试集，以包含更接近提交截止日期的数据。这个扩展的测试集上的预测不会被评分。

在预测阶段，评估API将从公共集的开始到私有集的结束提供测试数据。你必须在每个时间步进行预测，但在这个阶段，只有私有集上的预测会被评分。（如果你愿意，你可以在未评分的段落上预测0.0。）

文件和字段信息：

train.parquet：训练集，包含历史数据和返回值。为了方便，训练集被划分为十个部分。

date_id 和 time_id：整数值，按顺序排序，为数据提供时间结构，尽管time_id值之间的实际时间间隔可能不同。
symbol_id：标识一个独特的金融工具。
weight：用于计算评分函数的权重。
feature_{00...78}：匿名化市场数据。
responder_{0...8}：匿名化的响应变量，范围在-5到5之间。responder_6字段是你试图预测的。

test.parquet：一个模拟测试集，代表未看到测试集的结构。这个示例集展示了评估API提供的单个批次的数据，即来自单个date_id, time_id对的数据。测试集包含date_id、time_id、symbol_id、weight和feature_{00...78}等列。在这个竞赛中，你不会直接使用测试集或样本提交，因为评估API将获取/设置测试集和预测。
lags.parquet：responder_{0...8}的值被延迟一个date_id。评估API在date_id的第一个time_id上提供整个延迟响应变量。换句话说，所有前一天的响应变量将在继任日期的第一个时间步骤上提供。
sample_submission.csv：这个文件说明了你的模型应该做出的预测格式。
features.csv：与匿名特征相关的元数据。
responders.csv：与匿名响应变量相关的元数据。

{train/test}.parquet数据集中的每一行对应于一个符号（由symbol_id标识）和时间戳（由date_id和time_id表示）的唯一组合。你将获得多个响应变量，其中responder_6是唯一用于评分的响应变量。date_id列是一个整数，代表事件的日期，而time_id代表时间排序。需要注意的是，每个time_id之间的实际时间差异不一定一致。

symbol_id列包含加密标识符。每个symbol_id不一定出现在所有的time_id和date_id组合中。此外，新的symbol_id值可能会出现在未来的测试集中。

unsetunset赛题时间轴unsetunset

参赛截止日期：2025年1月6日，晚上11:59 UTC
最终提交截止日期：2025年1月13日，晚上11:59 UTC
竞赛结束日期：2025年7月12日

在最终提交截止日期之后，将会有定期的排行榜更新，以反映市场数据的更新，这些更新将应用于选定的笔记本。

# 学习大模型 & 讨论Kaggle #

△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+来自竞赛爱好者一起交流~

http://mp.weixin.qq.com/s?__biz=MzIwNDA5NDYzNA==&mid=2247507263&idx=1&sn=08fdc369d3c85949c8dfd4b89d5247ca

Coggle数据科学

Coggle全称Communication For Kaggle，专注数据科学领域竞赛相关资讯分享。

最新文章

CSIG挑战赛飞桨-工银瑞信赛道 baseline

小白学量化：ta时序库（43个量化特征）

用视觉搞定股票预测，CSIG挑战赛飞桨-工银瑞信赛道等你来战！

Kaggle赛题解析：第二届 AI数学奥赛挑战赛

Kaggle知识点：torch模型编译与加速

为梦想燃起来！香港中文大学（深圳）第二届神仙湖国际创新创业大赛报名正式启动！

Kaggle赛题解析：Jane Street实时量化挑战赛

Kaggle知识点：YOLO 11 安装与使用指南

GPT-4o AIDE智能体：Kaggle刷榜背后的真相

ACL 2024亮点：RAG技术进展与论文解析

行业落地分享：讯飞科研助手 SparkRA

Kaggle知识点：HistGradient Boosting

全球AI攻防挑战赛：金融场景凭证篡改检测 baseline

Kaggle Child Mind Institute赛题 Baseline （0.471 分）

全球AI攻防挑战赛：大模型生图安全疫苗注入 baseline

行业落地分享：文档解析与RAG应用落地

全球Deepfake攻防挑战赛：三等奖 Team VisionRush 方案与代码解析

小白学大模型：自定义信息抽取Agent

Kaggle赛题解析：CMI 体育损伤指数预测

小白学大模型：Structured Outputs格式化输出

ECCV'24创新工作《Grounding DINO：最强开集目标检测器！》

科大讯飞AI大赛：大模型图表问答挑战赛

行业落地案例：AI Agent 华为云技术实践

以代码为中心的Agent框架：TaskWeaver 原理、框架与使用案例

Kaggle 赛题解析：Eedi 多项选择理解

科大讯飞AI大赛：玉米雄穗识别挑战赛

小白学 RAG：Milvus 介绍与使用教程

行业落地分享：RAG难点与创新应用

为啥本科生都能发顶会，而博士一篇都没有？

科大讯飞AI大赛：人岗匹配挑战赛赛季3

Kaggle 赛题解析：预测MCTS游戏表现

大模型长文本处理技术与GLM-4-Plus评测

行业落地分享：好未来智能客服实践

科大讯飞AI大赛：RAG智能问答挑战赛

LSTPrompt：无需训练，大型语言模型如何变身时间序列预测高手？

小白学 RAG：GraphRAG概念、组成和流程

科大讯飞AI大赛：基于超声数据的多病种疾病预测挑战赛 baseline

行业落地分享：阿里知识图谱召回与实践

语义分割未来：Segment Anything 原理与使用案例

2024“大运河杯”数据开发大赛：城市治理 baseline

行业落地分享：大模型与工业知识图谱

Kaggle 赛题总结：USPTO 布尔专利检索

科大讯飞AI大赛：中文成语释义与解析挑战赛 baseline

火热报名中｜跨境合规AI全球挑战赛，40万奖金等你来瓜分！

小白学大模型：L-Eval 长文本评测

行业落地分享：大模型 RAG 汽车应用实践

Kaggle 知识点：知识蒸馏的三种方法

科大讯飞AI大赛：大模型图文匹配识别挑战赛 baseline

小白学 NLP：KeyBERT提取中英文关键词

行业落地分享：阿里1688 Agent应用实践

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉