王常虹,余旭东,王震等 | 基于集成后继表征的离线到在线任务泛化

文摘科技 2024-12-14 12:00 北京

研究团队

王常虹，余旭东：哈尔滨工业大学航天学院

白辰甲，张乔生：上海人工智能实验室

王震：西北工业大学光电与智能研究院

文章下载

Changhong WANG, Xudong YU, Chenjia BAI, Qiaosheng ZHANG & Zhen WANG. Ensemble successor representations for task generalization in oﬄine-to-online reinforcement learning. Sci China Inf Sci, 2024, 67(7): 172203, doi: 10.1007/s11432-023-4028-1

研究意义

在人工智能领域，强化学习（RL）是一种让智能体通过与环境的交互学习如何做出决策的方法。然而，当环境变化或需要快速适应新任务时，传统的RL方法往往需要大量的在线交互和探索，这在现实世界中可能代价昂贵或不可行。本研究通过提出一种新颖的离线到在线强化学习方法，有效解决了这一难题，为智能体在多变环境中的快速适应和决策提供了新的可能性。

本文工作

本文首先分析了现有方法在离线到在线任务泛化中的局限性，尤其是它们利用离线数据和在线微调时的不足。我们提出了一种基于集成后继表征（ESR-O2O）的新方法，该方法通过以下步骤实现任务泛化：首先利用离线数据集获得代表环境状态转移的后继表征，同时初始化策略和价值函数，并采用集成架构增强后继表征的多样性。在线微调阶段，固定后继表征，仅更新与新任务相关的奖励部分，以快速适应新任务。通过理论分析和实验验证，我们的方法在不同覆盖率的离线数据集上展现了有效性和鲁棒性，对于离线数据分布偏移和奖励函数变化也有更强的适应性。

本文的创新点如下：

(1) 集成后继表示：引入了集成的后继表征来捕获环境的多模态动态，增强了从离线数据集中学习的能力。

(2) 在线微调的鲁棒性：在在线微调阶段表现出对离线数据分布的鲁棒性，即使在数据覆盖率较低的情况下也能快速适应新任务。

(3) 理论分析：不仅提出了算法框架，还提供了对在线微调过程中性能界限的理论分析，为算法的稳定性和有效性提供了理论支撑。

实验结果

我们的实验在多个具有不同奖励差距的环境中进行，包括迷宫导航任务和复杂的机器人运动任务。实验结果表明：

(1) 在离线学习阶段，我们的方法在不同的数据集上均展现出了优越的性能，与现有的离线RL算法相比，具有更低的回报方差和更高的稳定性。

(2) 在在线微调阶段，即使在面临大奖励差距的情况下，我们的方法也能有效地学习新任务，并显著提高策略的性能。

(3) 通过与多个基线方法的比较，我们的方法在任务泛化方面表现出色，无论是在小奖励差距还是大奖励差距的场景中，都能实现快速且有效的适应。

中国科学信息科学

《中国科学：信息科学》及其英文版《Science China Information Sciences》的宣传平台。

最新文章

朱若澜,李晨,李学龙等 | 自主水下航行器多分支网络光学导引定位方法

SCIS专题 | 多模态大模型（英文版）

武汉大学马佳义团队 | 基于多重感受野交融网络的偏振三维重建

尤肖虎院士观点 | When AI meets sustainable 6G

赵志甲,贺威,陈俊龙等 | 考虑输入约束和全局预设性能的两自由度直升机系统自适应神经网络控制

山东大学余国先团队 | 个性化联邦小样本节点分类：基于参数解耦与节点增强的联邦学习

SCIS会议 | 第58次《中国科学：信息科学》前沿学术沙龙

钱锋院士观点 | 人工智能赋能的化工新材料设计

《中国科学：信息科学》祝您新年快乐！

张翠娟,纪良浩,李华青等 | 事件触发和优先经验回放的多智能体系统最优一致控制

张笑钦,范登平,肖国宝等 | COMPrompter：多提示重构SAM的伪装目标检测

申晨,Jun Tanimoto,王震等 | 退出机制促进亲社会惩罚，但非一劳永逸的解决方案

2024年第12期目录 | SCIENCE CHINA Information Sciences

征稿启事 | 大规模智能体系统的平均场博弈与控制：从理论到实践（英文版）

东南大学虞文武团队 | 求解大规模混合整数规划问题的分布式算法架构

中科大李厚强&字节跳动联合团队 | DocPedia：高分辨率多模态文档大模型

征稿启事 | 太赫兹无线通信技术创新与应用专题（英文版）

张晏,冀中,庞彦伟,韩军功,李学龙 | 模态专家协调的多模态大模型参数高效微调方法

《中国科学: 信息科学》2024年第12期目录

中科大陈恩红团队 | Woodpecker: 多模态大语言模型的幻觉缓解方法

电子科技大学白天,肖鸣宇 | 超图上最大独立集问题的精确算法

左明成,巩敦卫 | 深度嵌入适应度评估分配策略的约束多目标进化优化方法

张笑钦,黄自玮,郑晶晶等 | DcnnGrasp：采用自适应学习方式的抓取手势识别

OCRBench：多模态大模型中隐藏的OCR奥秘

华为吴建军, 孙黎, 王东晖等 | 面向6G网络的内生安全架构和关键技术思考

王巍院士团队 | 面向多源自主导航的智能学习方法研究

党吉圣,郑慧诚,赖剑煌等 | 基于逐帧和逐段时空交互记忆网络的高效视频目标分割

王常虹,余旭东,王震等 | 基于集成后继表征的离线到在线任务泛化

上海交通大学&苏州实验室联合团队 | ChemDFM-X：跨模态化学材料大模型

大连理工大学赵楠等 | 智能通感一体化综述

华中师范大学杨宗凯团队 | COMET：用于数学题目生成的教育领域多模态模型

重庆邮电大学胡林,刘锡炎,齐倩等 | 可重构智能表面辅助多用户NOMA网络鲁棒安全资源分配

RISTA前沿大讲堂 | 可编程超表面赋能感知与通信-空军工程大学许河秀教授

丁瑞森,杨飞生,潘泉,等 | 混合攻击下基于带宽感知型事件触发机制的负荷频率控制

李群,肖甫,Bir Bhanu等 | PS-CoT-Adapter：先计划后求解的科学问答任务解决方法

姜霞,孙健,陈杰等 | 求解非光滑优化问题的随机重排采样近似梯度算法

24个领域97万条指令！MMInstruct：具备丰富多样性的高质量多模态指令调优数据集

北京大学刘譞哲金鑫等 | 万卡深度学习集群中的高效GPU共享系统

招聘科技期刊编辑 |《中国科学》杂志社

西南交通大学庞琦珂, 马征, 唐小虎 | 新一代非易失性存储器下的LDPC硬译码算法

林达华,乔宇,代季峰联合团队 | 我们距离GPT-4V还有多远？使用开源套件弥合与商用多模态模型的差距

中国科学院自动化所程龙团队 | 动态系统辅助机器人学习周期性操作技能

吴小太,唐漾等 | 驻留时间信息不可用的半马尔可夫跳跃线性系统的稳定性分析与镇定

贾茹茹,宗小峰,王庆 | 具有多领导者和乘性噪声的高阶多智能体系统时变编队跟踪控制

山东科技大学张焕水团队 | 基于最优控制的优化方法

【活动通知】庆祝中华人民共和国成立75周年暨共绘AI大模型创新蓝图峰会

东南大学孙伟锋课题组 | P型沟道氮化镓晶体管的衬底偏置效应研究

SCIS会议 | 第57次《中国科学：信息科学》前沿学术沙龙

吕思宇,吴臻,熊捷 | 混合随机系统的零和脉冲博弈

《中国科学: 信息科学》2024年第11期目录

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉