在线学术报告 | 朱进博士：强化学习的变量选择方法

学术 2024-11-02 07:03 广东

引导关注

摘要

In real-world applications of reinforcement learning, it is often challenging to obtain a state representation that is parsimonious and satisfies the Markov property without prior knowledge. Consequently, it is common practice to construct a state which is larger than necessary, e.g., by concatenating measurements over contiguous time points. However, needlessly increasing the dimension of the state can slow learning and obfuscate the learned policy. We introduce the notion of a minimal sufficient state in a Markov decision process (MDP) as the smallest subvector of the original state under which the process remains an MDP and shares the same optimal policy as the original process. We propose a novel sequential knockoffs (SEEK) algorithm that estimates the minimal sufficient state in a system with high-dimensional complex nonlinear dynamics. In large samples, the proposed method controls the false discovery rate, and selects all sufficient variables with probability approaching one. As the method is agnostic to the reinforcement learning algorithm being applied, it benefits downstream tasks such as policy optimization. Empirical experiments verify theoretical results and show the proposed approach outperforms several competing methods in terms of variable selection accuracy and regret.

嘉宾介绍

朱进，伦敦政治经济学院博士后，于中山大学获得博士学位。主要研究领域包括强化学习和高维数据分析，相关成果发表在 PNAS、JASA、JMLR、ICML、AISTATS 等期刊和会议。

狗熊会线上学术报告厅向数据科学及相关领域的学者及从业者开放，非常期待各位熊粉报名或推荐报告人。相关事宜，请联系：常莹，ying.chang@clubear.org。

http://mp.weixin.qq.com/s?__biz=MzA5MjEyMTYwMg==&mid=2650294235&idx=1&sn=fcd9f6f24b751d4b029acb37f3d172aa

狗熊会

狗熊会，统计学第二课堂！传播统计学知识，培养统计学人才，推动统计学在产业中的应用！

最新文章

非稀疏回归模型的结构化迭代划分方法及其在生物数据分析中的应用

狗熊会在线实习 | 基金业绩的影响因素分析

狗熊会线上学术报告·博士生论坛 | 张妍：加权关键词共现网络的潜在空间模型及其在统计学知识发现中的应用型

【最后一天】狗熊会在线实习 | 地图POI数据的获取与应用

狗熊会线上学术报告·博士生论坛 | 余柏辰：港口门机抓斗的异常摆动检测的几何模型

大赛通知 | 第五届全国研究生工业与经济金融大数据建模与计算大赛

新书推荐 |《统计学习(R语言版)》——开启数据科学的钥匙

上海财经大学统计与管理学院面向全球诚聘英才（Faculty Recruitment，2025）

语音聊天客户响应预测的理论驱动深度学习方法

狗熊会在线实习 | 地图POI数据的获取与应用

在线学术报告 | 朱进博士：强化学习的变量选择方法

【最后一天】狗熊会在线实习 | 智慧零售领域中用户画像的搭建与应用

在线学术报告 | 齐正灵助理教授：一个用于混杂部分可观测马尔可夫决策过程的策略梯度方法

在线学术报告 | 刚博文助理教授：用合成统计量来整合推断结果

新书推荐 |《统计学习(R语言版)》——开启数据科学的钥匙

狗熊会在线实习 | 智慧零售领域中用户画像的搭建与应用

数据分析从入门到精通，狗熊学习卡上线啦!

高维半监督学习的最优和安全估计

武汉大学数据科学专业硕士（专业代码：1453S1）诚邀您报名

狗熊会在线实习 | 智慧零售领域中用户画像的搭建与应用

在线学术报告 | 孙科博士：双边市场中 A/B 测试的最优设计

【最后一天】狗熊会在线实习 | 深度学习进阶：肺部医疗影像识别

武汉大学数据科学专业硕士（专业代码：1453S1）诚邀您报名

在线学术报告 | 梁哲教授：航空智能决策

狗熊会案例教学线上研讨｜吴纯杰：一流线上线下混合课程的建设和设计——以上财《数理统计》为例

数据分析从入门到精通，狗熊学习卡上线啦!

会议预告｜首都消费脉动（第2期）：北京市线下中小微消费市场季度观察

狗熊会案例教学线上研讨｜吴纯杰：一流线上线下混合课程的建设和设计——以上财《数理统计》为例

狗熊会在线实习项目《网络结构数据分析与应用科研提升》顺利结项

《你必备的大模型高效应用与开发》直播先导课

针对高维混合型数据的稀疏聚类方法研究

狗熊会在线实习 | 深度学习进阶：肺部医疗影像识别

在线学术报告 | 朱俊贤博士：最优子集选择问题的多项式算法

【最后一天】狗熊会在线实习 | 深度学习进阶：车牌定位与车型识别

AI助力提升工作效率：《你必备的大模型高效应用与开发》工作坊

【最后一天】数据科学应用职业技能证书(初级)考试服务项目招募(2024年10月)

狗熊会案例教学线上研讨｜李丰：大数据计算与预测课程设计

精品案例 | 强化学习中的时序差分法

狗熊会案例教学线上研讨｜李丰：大数据计算与预测课程设计

基于迁移学习的多源高斯图模型联合估计

北京市民十一假期钱花哪儿了？

数据科学应用职业技能证书(初级)考试服务项目招募(2024年10月)

强化学习中的统计推断——假设检验篇（上）

狗熊会在线实习 | 深度学习进阶：车牌定位与车型识别

在线学术报告 | 杨在教授： Toeplitz协方差矩阵的Carathéodory-Fejér定理与信号谱分析

【最后一天】狗熊会在线实习 | Python进阶：大模型与Python数据分析

在线学术报告 | 孙强副教授：用统计学让AI变得可信

在线学术报告 | 李木易教授：基于多维谱方法的弱向量自回归模型的拟合优度检验

精品案例 | 强化学习中的蒙特卡罗方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉