8月18日9:00，Junshan Zhang教授介绍热启动强化学习相关研究

文摘 2023-08-15 16:00 广东

AUGUST

9:00-10:00

针对强化学习（Reinforcement Learning，RL）较高的采样复杂度和计算负荷的问题，热启动强化学习（Warm-Start RL）正成为一种有前途的新范式。热启动强化学习的基本思想是通过离线训练初始策略来加速在线学习。目前，热启动强化学习已成功应用于AlphaZero和ChatGPT，这些应用展示了热启动策略在加速在线学习方面的巨大潜力。为了深入理解热启动强化学习，研究量化函数逼近误差对热启动强化学习次优差距的影响是至关重要的。

第九期 IEEE TNSE 杰出讲座系列活动，我们有幸邀请到加州大学戴维斯分校的Junshan Zhang教授介绍热启动强化学习，并分享他在这个领域内的相关研究成果与有趣发现。

执行主席

Executive Chair

黄建伟

香港中文大学（深圳）校长讲座教授、协理副校长

AIRS 副院长兼群体智能中心主任

IEEE TNSE 主编

IEEE Fellow

AAIA Fellow

报告嘉宾

Speaker

Junshan Zhang

加州大学戴维斯分校电子与计算机工程系教授

IEEE Fellow

Junshan Zhang，加州大学戴维斯分校电子与计算机工程系教授，2000年于普渡大学获得博士学位，2000 年至 2021 年于亚利桑那州立大学任教。他的研究方向涉及信息网络和数据科学，包括边缘计算人工智能、强化学习、持续学习、网络优化与控制、博弈论，以及这些技术在互联和自动驾驶汽车、5G 及更高技术、无线网络、物联网 (IoT) 和智能电网中的应用。Junshan Zhang教授是 IEEE 会士，2005 年荣获 ONR 青年研究员奖，2003 年荣获 NSF 职业奖，2016 年荣获 IEEE 无线通信技术委员会认可奖。他的论文曾获得多项奖项，包括WiOPT 2018最佳学生论文、ACM SIGMETRICS/IFIP Performance 2016 Kenneth C. Sevcik杰出学生论文奖、IEEE INFOCOM 2009和IEEE INFOCOM 2014最佳论文亚军奖、IEEE ICC 2008和2017最佳论文奖。基于他的研究成果，他于2015年共同创立了Smartiply公司，这是一家边缘计算初创公司，为物联网应用提供增强的网络连接和嵌入式人工智能。

报告介绍

Topic & Abstract

Warm-Start Reinforcement Learning: From Function Approximation Error to Sub-optimality Gap

Conventional reinforcement learning (RL) techniques face the formidable challenge of high sample complexity and intensive computation load, which hinders RL's applicability in real-world tasks. To tackle this challenge, Warm-Start RL is emerging as a promising new paradigm, with the basic idea being to accelerate online learning by starting with an initial policy trained offline. Indeed, owing to the knowledge transfer from an initial policy, Warm-Start RL has been successfully applied in AlphaZero and ChatGPT, demonstrating its great potential to speed up online learning. Despite these remarkable successes, a fundamental understanding of Warm-Start RL is lacking. The primary objective of this study is to quantify the impact of function approximation errors on the sub-optimality gap for Warm-Start RL. We consider the widely used ‘Actor-Critic’ method for RL. For the unbiased case, we give sufficient conditions on the question ‘how good the warm-start policy needs to be’ to achieve fast convergence. For the biased case, our findings reveal that a ‘good’ warm-start policy (obtained by offline training) may be insufficient, and bias reduction in online learning also plays an essential role to lower the suboptimality gap. We then investigate bias reduction using adaptive ensemble learning and planning.

活动时间

2023年8月18日（周五） 9:00-10:00

参与方式

本次活动设多个直播渠道，观众可通过以下任一渠道观看直播。

本期活动指导单位

深圳市科学技术协会

AIRS-TNSE 联合杰出讲座系列

AIRS-TNSE Joint Distinguished Seminar Series

IEEE Transactions on Network Science and Engineering（简称 IEEE TNSE）是位于 JCR 1 区的网络科学领域顶级期刊，致力于探讨网络科学的理论和应用，以及构成网络系统中各元素之间的相互联系。IEEE TNSE 被 SCIE 数据库收录，位于 JCR 1 区，2022年影响因子为6.6。

AIRS-TNSE 联合杰出讲座系列由 IEEE TNSE 期刊和深圳市人工智能与机器人研究院（AIRS）联合主办，香港中文大学（深圳）、网络通信与经济学实验室（NCEL）、IEEE 联合支持。该系列活动旨在汇聚网络科学与工程领域的国际顶级专家学者分享前沿科技成果。

*特别鸣谢成锦提供相关内容

最新文章

基于年龄奖励机制: 提升信息的新鲜度

利用大语言模型进行差分隐私数据生成

以隐贝叶斯推理解释上下文学习

基于多主体动态博弈视角的深度神经网络训练优化

2024年夏季网络通信与经济学实验室（NCEL）研讨会

解耦知识蒸馏

如何激励去中心化系统的资源池化？

通过数据交易提升在线算法决策的公平性

模型间博弈提升大语言模型输出易读性

借助大语言模型评估文本信息

大语言模型挑战众包工人

基于联合选址和可修复库存模型的城市电车换电服务的规模化布局与运营研究

面向生产环境的大语言模型联邦学习

Galaxy：面向边缘大模型协同推理的分布式边缘智能系统

能量感知年龄优化：基于能量采集的多源更新网络系统中的AoI分析

差分隐私联邦学习中用户选择和隐私补偿机制设计

活动回顾｜李葆春教授：实证联邦学习的数据隐私保护

活动回顾｜文勇刚教授：GPU数据中心大规模深度学习负载调度

差分隐私在机器学习中的实施

联邦遗忘学习概述

神经网络中的特征学习

基于大语言模型的电力系统通用人工智能展望：理论与应用

离线强化学习概述

竞合：数据共享在电子商务中的新策略

众筹中的策略性定价与信息披露

联邦学习在无线网络中的异构用户自适应采样优化算法

对抗性机器学习中的博弈论

大语言模型的机制设计

如何让同行评审更加科学

联邦学习与模型服务提供共存：一种模型训练和模型推理联合优化方法

网络通信与经济实验室（NCEL）2023研讨会暨成立十五周年团建活动回顾

活动回顾 | 牛志升教授：突发流量下节能服务的最佳休眠策略

车对车通信下的信息机制设计

活动回顾 | 香港中文大学（深圳）深圳市群体智能驱动的低碳能源网络重点实验室揭牌仪式暨启动会成功举办

考虑数据新鲜度的移动群智感知激励机制

预测策略性储能行为

边缘内容缓存与分享的经济分析

隐私资源：如何在差分隐私联邦学习中合理分配

2023年夏季网络通信与经济学实验室（NCEL）研讨会

香港中文大学（深圳）黄建伟教授招聘博士生、博士后！

8月18日9:00，Junshan Zhang教授介绍热启动强化学习相关研究

喜讯 | IEEE TNSE 2022年度影响因子攀升至6.6！

喜讯 | 理工学院12位教授获Research.com评为其学术领域内2023顶尖科学家

当数据源耦合时，我们如何优化信息新鲜度？

高精度地图众包中高效车辆选择的轨迹穿透表征

基于模型分解训练的异构多模态联邦学习

基于排序特征学习的多智能体少样本感知

能源区块链系统中提升交易吞吐量的机制设计

基于众包数据标注的联邦学习激励机制设计

【讲座通知】Insights from the Editor-in-Chief: My Recent Experiences

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉