首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
【重磅】阿尔伯塔大学提出“Stream-X”强化学习新范式,无需经验重放、目标网络或批量更新。
文摘
2024-11-29 15:43
新加坡
转载自:机器之心
https://mp.weixin.qq.com/s/5w8zl0Wf2DKfaNJz7iKuMw
自然智能(Natural intelligence)过程就像一条连续的流,可以实时地感知、行动和学习。流式学习是 Q 学习和 TD 等经典强化学习 (RL) 算法的运作方式,它通过使用最新样本而不存储样本来模仿自然学习。这种方法也非常适合资源受限、通信受限和隐私敏感的应用程序。
然而,在深度强化学习中,学习器(learners )几乎总是使用批量更新和重放缓冲区,这种方式使得它们在计算上很昂贵,并且与流式学习不兼容。
研究认为批量深度强化学习之所以普遍,是因为它的样本效率高。流式深度强化学习存在样本效率问题,经常出现不稳定和学习失败的情况。这一现象称为流式障碍。
就像下图展示的,流式强化学习需要从即时单个样本进行更新,而无需存储过去的样本,而批量强化学习则依赖于存储在重放缓冲区中的过去样本的批量更新。
为了解决流式障碍,本文来自阿尔伯塔大学等机构的研究者提出了 stream-x 算法,这是第一类深度强化学习算法,用于克服预测和控制流式障碍,并匹配批量强化学习的样本效率。
论文地址:https://openreview.net/pdf?id=yqQJGTDGXN
项目地址:https://github.com/mohmdelsayed/streaming-drl
论文标题:Deep Reinforcement Learning Without Experience Replay, Target Networks, or Batch Updates
论文作者还提供了 stream-x 算法的最小实现(大约 150 行代码),感兴趣的读者可以参考原项目。
本文证明了 stream-x 算法能够克服流式障碍。
在电力消耗预测任务、MuJoCo Gym、DM Control Suite、MinAtar 和 Atari 2600 上的结果证明,该方法能够作为现成的解决方案,克服流式障碍,提供以前无法通过流式方法实现的结果,甚至超越批量 RL 的性能。特别是,stream AC 算法在一些复杂的环境中达到了已知的最佳性能。
如下所示,经典的流方法(例如 Classic Q )和批处理 RL 方法的流式版本(例如 PPO1)由于流式障碍而表现不佳。相比之下, stream-x 算法(例如 stream Q )克服了流式障碍,并与批处理 RL 算法竞争,证明了其稳定性和鲁棒性。
这项研究得到了强化学习之父 Richard Sutton 的转发和评论:
「最初的强化学习(RL)算法受自然学习的启发,是在线且增量式的 —— 也就是说,它们是以流的方式进行学习的,每当新的经验增量发生时就学习,然后将其丢弃,永不再次处理。
流式算法简单而优雅,但在深度学习中,RL 的首次重大成功并非来自流式算法。相反,像 DQN(深度 Q 网络)这样的方法将经验流切割成单独的转换(transitions),然后以任意批次进行存储和采样。随后的一系列工作遵循、扩展并完善了这种批量方法,发展出异步和离线强化学习,而流式方法却停滞不前,无法在流行的深度学习领域中取得良好效果。
直到现在,阿尔伯塔大学的研究人员已经证明,在 Atari 和 Mujoco 任务上,流式强化学习(Streaming RL) 算法可以与 DQN 一样有效。
在我看来,他们似乎是第一批熟悉流式强化学习算法的研究人员,认真地解决深度强化学习问题,而不受批量导向的软件和批量导向的监督学习思维方式的过度影响。」
还有网友表示,流式算法确实塑造了强化学习的格局。
方法介绍
本文通过引入流式深度强化学习方法 ——Stream TD (λ)、Stream Q (λ) 和 Stream AC (λ),这些统称为 stream-x 算法,并利用资格迹,来解决流式障碍问题。
该方法无需使用重放缓冲区、批量更新或目标网络,即可从最新的经验中进行学习。与普遍认知相反,本文证明了流式深度强化学习可以是稳定的,并且在样本效率上可与批量强化学习相当。
由于流式学习方法在使用样本后必须将其丢弃,因此可能会导致样本效率低下。为此,本文提出了两种技术来提高流式学习方法的样本效率:1)稀疏初始化,2)资格迹。
算法 1 展示了本文提出的稀疏初始化技术 — SparseInit。此稀疏初始化方案可用于全连接层和卷积层。
算法 3 展示了如何构建一个优化器,该优化器使用有效步长这一条件来控制更新大小。
下面为 stream-x 算法伪代码。为了提高算法可读性,作者使用了以下颜色编码:紫色表示层归一化,蓝色表示观测规一化,橙色表示奖励缩放,青色表示步长缩放,棕色表示稀疏初始化。
实验结果
为了演示 Stream-x 算法的有效性,该研究首先展示了在不同环境中经典方法失败的流式障碍,而 Stream-x 算法克服了这一障碍,并且与其他批处理方法性能相当。
克服流式障碍
流式深度强化学习方法经常会遇到不稳定和学习失败的情况,称为流式障碍。图 2 显示了三个不同的具有挑战性的基准测试任务中的流障碍:MuJoCo、DM Control 和 Atari。
Stream-x 算法的样本效率
该研究通过比较不同算法的学习曲线来研究 stream-x 方法的样本效率。图 3 显示了不同深度 RL 方法在四个连续控制 MuJoCo 任务上的性能。
图 4 展示了流 Q (0.8) 与其对应经典方法以及 DQN1 和 DQN 在 MinAtar 任务上的性能。
Stream-x 算法在扩展运行中的稳定性
接下来,研究团队探究了 Stream-x 算法在长时间运行时的稳定性,以有效地揭示方法是否可以长时间运行而不出现任何问题。实验结果如下图 5 所示:
图 6 显示了不同智能体在总共经历 2 亿帧的 Atari 游戏上的性能:
深度强化学习实验室
【开源开放、共享共进】强化学习社区\x26amp;实验室,分享推动DeepRL技术落地与社区发展,社区 deeprlhub.com
最新文章
NeurIPS 2024 | DACER:扩散模型与在线强化学习强强联合创造新SOTA!
清华团队提出RL专用神经网络优化器,性能位居榜首
【第二弹】强化微调,用少量样本训练专家模型
【清华大学】当鲁棒控制遇到强化学习:零和博弈视角的非线性拓展
【重磅】阿尔伯塔大学提出“Stream-X”强化学习新范式,无需经验重放、目标网络或批量更新。
强化学习之父Sutton万字采访:炮轰深度学习只是瞬时学习,持续学习才是智能突破的关键
开放式物理RL环境空间,智能体零样本解决未见过人类设计环境!
控制系统可控性检验理论的变革:从模型驱动到数据驱动
【图灵奖得主Yoshua Bengio】提出强化学习新策略, 解决策略KL正则化漏洞问题。
【NeurlPS2024分享】北航提出“结构信息原理指导的高效智能体探索”(末尾附开源代码)
【Nature重磅】AlphaChip,谷歌用强化学习设计多代TPU芯片速度超越人类,开源预训练代码
【清华北大腾讯等】联合综述OpenAI o1背后的自博弈(Self-Play)方法原理与技术细节
【重磅发布】OpenAI o1模型(草莓)问世,五级AGI再突破!使用「强化学习」再立大功。
【Nature重磅】RL教父Rich. S. Sutton提出持续反向传播算法,Mujoco中效果良好,深度学习还不如浅层网络?
【清华大学】李升波教授团队总结“强化学习和模型预测控制的区别与联系”
【顶会速递】RLC2024—128篇Accept论文汇总
【首届RL领域会议】Barto、Sutton、Sliver师徒3代,7篇杰出论文奖,独有论文评审机制公布。
【重磅头条】Agent Q智能体发布,利用自我对弈和强化学习, 实现自我纠正和自主改进!
【人物观点】RLHF 只是勉强 RL,前OpenAI大牛Andrej Karpathy全面解读与AlphaGo区别
【滴滴实习生招聘】强化学习项目落地(有转正机会)
【重磅快讯】强化学习大牛John Schulman离职OpenAI, 曾开发PPO|TRPO等, 领导OpenAI强化学习团队!
【重磅最新】OpenAI为RL设计出新的奖励机制
【字节招聘】强化学习智能体研究员
【顶会速递】清华大学提出“利用强化学习破解火箭回收过程的控制难题”
【粉丝福利】抽奖赠书《GPT图解:大模型是怎样构建的》
【重磅最新】OpenAI机密五级AGI路线图曝光!GPT-4仍处L1,智能体是核心!
【腾讯招聘】游戏AI强化学习算法研究员
从文字模型到世界模型!Meta新研究让AI Agent理解物理世界
【重磅开源】LeCun新作Puppeteer=基于强化学习+数据驱动+视觉全身人形控制方法
【好书力荐】大规模语言模型与强化学习:从理论到实践(文末抽奖赠送5本)
【最新综述!】「大模型+强化学习」详解四条主流技术路线
【今日头条招聘】机器人强化学习研究员(2024届优先)
【书籍推荐】《ChatGPT原理与应用开发》+代码,B站播放超30万。文末抽奖赠送X(>5)本
重磅 | 南栖仙策发布强化学习工业决策软件REVIVE 1.0
【开放源码】强化学习经典教材《RL for Sequential Decision and Optimal Control》
【腾讯招聘】强化学习岗位汇总
【吴恩达来信】AI智能体的黎明时刻
【LSTM之父Schmidhuber总结博客】利用循环世界模型和人工好奇心进行强化学习和规划
Richard Sutton ||智能决策器通用模型的探索
顶会最新速递@ ICLR2024,强化学习领域约301篇Accept论文汇总整理,附原文与交流群
【Nature重磅】DeepMind数学模型AlphaGeometry,做对25道几何题,GPT-4惨败得0分
【重磅推荐】盘古Agent,华为诺亚让智能体学会结构化推理,解决和适应复杂工作!
2023计算机科学7项重大突破!「P与NP」50年经典难题,大模型密集涌现上榜
论文分享| AAAI 2024 北航开源社交机器人行为对抗仿真计算平台SIASM,高效提升网络行为对抗能力
【真伪鉴别】OpenAI内幕文件惊人曝出,Q*疑能破解加密!是否具有元认知能力?
新书《面向工业控制的强化学习理论与方法》
【书籍推荐】清华大学李升波教授撰写《面向工业控制的强化学习理论与方法》
OpenAI神秘Q*项目解密!诞生30+年「Q学习」算法引全球网友终极猜想
【官方公布】2023中国科学院院士、中国工程院增选当选院士名单公布
【重磅最新】DeepMind发布"AGI 的六个层次及原则:实现 AGI 道路上的最近进展"!
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉