在线学术报告 | 汪佳依助理教授：离线强化学习中状态行为平衡权重的预测

学术教育 2024-11-23 07:04 广东

引导关注

摘要

Offline policy evaluation (OPE) is considered a fundamental and challenging problem in reinforcement learning (RL). This talk focuses on the value estimation of a target policy based on pre-collected data generated from a possibly different policy, under the framework of infinite-horizon Markov decision processes. Motivated by the recently developed marginal importance sampling method in RL and the covariate balancing idea in causal inference, we propose a novel estimator with approximately projected state-action balancing weights for the policy value estimation. We obtain the convergence rate of these weights and show that the proposed value estimator is semi-parametric efficient under technical conditions. In terms of asymptotics, our results scale with both the number of trajectories and the number of decision points at each trajectory. As such, consistency can still be achieved with a limited number of subjects when the number of decision points diverges. In addition, we develop a necessary and sufficient condition for establishing the well-posedness of the Bellman operator in the off-policy setting, which characterizes the difficulty of OPE and may be of independent interest. Numerical experiments demonstrate the promising performance of our proposed estimator.

嘉宾介绍

I am an Assistant Professor in the Department of Mathematical Sciences at the University of Texas at Dallas. I obtaied my Ph.D. degree in the Department of Statistics at Texas A&M University(TAMU). Prior to TAMU, I received a B.S. in Statistics from Zhejiang University in 2017. I am broadly interested in methodology and theory in nonparametric statistics and machine learning. My recent research focuses on reinforcement learning, functional data and matrix completion.

狗熊会线上学术报告厅向数据科学及相关领域的学者及从业者开放，非常期待各位熊粉报名或推荐报告人。相关事宜，请联系：常莹，ying.chang@clubear.org。

数据分析从入门到精通，狗熊学习卡助您一臂之力！69元/年，狗熊会所有视频课程无限看，代码轻松学。欢迎小伙伴们扫码购入~

http://mp.weixin.qq.com/s?__biz=MzA5MjEyMTYwMg==&mid=2650294525&idx=1&sn=150f72803f2485f8d79bf66357b93d36

狗熊会

狗熊会，统计学第二课堂！传播统计学知识，培养统计学人才，推动统计学在产业中的应用！

最新文章

第三轮会议通知|全国工业统计学教学研究会成立四十周年纪念会暨2024年学术年会

离散化近似误差及其应用

第三轮会议通知|全国工业统计学教学研究会成立四十周年纪念会暨2024年学术年会

狗熊会在线实习 | 深度学习进阶：基于谱图的方言语音识别

在线学术报告 | 汪佳依助理教授：离线强化学习中状态行为平衡权重的预测

【最后一天】狗熊会在线实习 | 基于行研报告文本的企业创新研究

狗熊会线上学术报告·博士生论坛 | 林子谦：带有填补二值协变量的回归统计推断及其在情绪识别中的应用

精彩推文集锦

狗熊会精品案例库

精品案例 | 点评类商户销量分析

广义新类识别任务

【最后一天】数据科学应用职业技能证书(初级)考试服务项目招募(2024年11月)

【上新】狗熊会在线实习 | 基于行研报告文本的企业创新研究

在线学术报告 | 骆威研究员：通过数据增强确定聚类的数量

【最后一天】狗熊会在线实习 | 基金业绩的影响因素分析

会议通知 | “统计与数据科学”青年研究者工作坊第11期：统计学交叉学科研究经验分享

在线学术报告 | 王藤耀教授：异质缺失模式下高维数据中的变点分析

数智工作坊第20期——Evaluatology: 评价科学与工程理论

会议通知 | “统计与数据科学”青年研究者工作坊第10期：数据科学前沿方法在生物医学领域的应用

东南大学统计与数据科学学院（筹）金加顺课题组招收博士和博士后

会议通知 | “统计与数据科学”青年研究者工作坊第9期：网络与空间数据分析前沿进展

数据科学应用职业技能证书(初级)考试服务项目招募(2024年11月)

会议通知 | “统计与数据科学”青年研究者工作坊第8期：数据科学前沿方法与应用

非稀疏回归模型的结构化迭代划分方法及其在生物数据分析中的应用

狗熊会在线实习 | 基金业绩的影响因素分析

狗熊会线上学术报告·博士生论坛 | 张妍：加权关键词共现网络的潜在空间模型及其在统计学知识发现中的应用型

【最后一天】狗熊会在线实习 | 地图POI数据的获取与应用

狗熊会线上学术报告·博士生论坛 | 余柏辰：港口门机抓斗的异常摆动检测的几何模型

大赛通知 | 第五届全国研究生工业与经济金融大数据建模与计算大赛

新书推荐 |《统计学习(R语言版)》——开启数据科学的钥匙

上海财经大学统计与管理学院面向全球诚聘英才（Faculty Recruitment，2025）

语音聊天客户响应预测的理论驱动深度学习方法

狗熊会在线实习 | 地图POI数据的获取与应用

在线学术报告 | 朱进博士：强化学习的变量选择方法

【最后一天】狗熊会在线实习 | 智慧零售领域中用户画像的搭建与应用

在线学术报告 | 齐正灵助理教授：一个用于混杂部分可观测马尔可夫决策过程的策略梯度方法

在线学术报告 | 刚博文助理教授：用合成统计量来整合推断结果

新书推荐 |《统计学习(R语言版)》——开启数据科学的钥匙

狗熊会在线实习 | 智慧零售领域中用户画像的搭建与应用

数据分析从入门到精通，狗熊学习卡上线啦!

高维半监督学习的最优和安全估计

武汉大学数据科学专业硕士（专业代码：1453S1）诚邀您报名

狗熊会在线实习 | 智慧零售领域中用户画像的搭建与应用

在线学术报告 | 孙科博士：双边市场中 A/B 测试的最优设计

【最后一天】狗熊会在线实习 | 深度学习进阶：肺部医疗影像识别

武汉大学数据科学专业硕士（专业代码：1453S1）诚邀您报名

在线学术报告 | 梁哲教授：航空智能决策

狗熊会案例教学线上研讨｜吴纯杰：一流线上线下混合课程的建设和设计——以上财《数理统计》为例

数据分析从入门到精通，狗熊学习卡上线啦!

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉