流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

科技 2024-11-29 14:15 北京

机器之心报道

机器之心编辑部

自然智能（Natural intelligence）过程就像一条连续的流，可以实时地感知、行动和学习。流式学习是 Q 学习和 TD 等经典强化学习 (RL) 算法的运作方式，它通过使用最新样本而不存储样本来模仿自然学习。这种方法也非常适合资源受限、通信受限和隐私敏感的应用程序。

然而，在深度强化学习中，学习器（learners ）几乎总是使用批量更新和重放缓冲区，这种方式使得它们在计算上很昂贵，并且与流式学习不兼容。

研究认为批量深度强化学习之所以普遍，是因为它的样本效率高。流式深度强化学习存在样本效率问题，经常出现不稳定和学习失败的情况。这一现象称为流式障碍。

就像下图展示的，流式强化学习需要从即时单个样本进行更新，而无需存储过去的样本，而批量强化学习则依赖于存储在重放缓冲区中的过去样本的批量更新。

为了解决流式障碍，本文来自阿尔伯塔大学等机构的研究者提出了 stream-x 算法，这是第一类深度强化学习算法，用于克服预测和控制流式障碍，并匹配批量强化学习的样本效率。

论文地址：https://openreview.net/pdf?id=yqQJGTDGXN
项目地址：https://github.com/mohmdelsayed/streaming-drl
论文标题：Deep Reinforcement Learning Without Experience Replay, Target Networks, or Batch Updates

论文作者还提供了 stream-x 算法的最小实现（大约 150 行代码），感兴趣的读者可以参考原项目。

本文证明了 stream-x 算法能够克服流式障碍。

在电力消耗预测任务、MuJoCo Gym、DM Control Suite、MinAtar 和 Atari 2600 上的结果证明，该方法能够作为现成的解决方案，克服流式障碍，提供以前无法通过流式方法实现的结果，甚至超越批量 RL 的性能。特别是，stream AC 算法在一些复杂的环境中达到了已知的最佳性能。

如下所示，经典的流方法（例如 Classic Q ）和批处理 RL 方法的流式版本（例如 PPO1）由于流式障碍而表现不佳。相比之下， stream-x 算法（例如 stream Q ）克服了流式障碍，并与批处理 RL 算法竞争，证明了其稳定性和鲁棒性。

这项研究得到了强化学习之父 Richard Sutton 的转发和评论：

「最初的强化学习（RL）算法受自然学习的启发，是在线且增量式的 —— 也就是说，它们是以流的方式进行学习的，每当新的经验增量发生时就学习，然后将其丢弃，永不再次处理。

流式算法简单而优雅，但在深度学习中，RL 的首次重大成功并非来自流式算法。相反，像 DQN（深度 Q 网络）这样的方法将经验流切割成单独的转换（transitions），然后以任意批次进行存储和采样。随后的一系列工作遵循、扩展并完善了这种批量方法，发展出异步和离线强化学习，而流式方法却停滞不前，无法在流行的深度学习领域中取得良好效果。

直到现在，阿尔伯塔大学的研究人员已经证明，在 Atari 和 Mujoco 任务上，流式强化学习（Streaming RL）算法可以与 DQN 一样有效。

在我看来，他们似乎是第一批熟悉流式强化学习算法的研究人员，认真地解决深度强化学习问题，而不受批量导向的软件和批量导向的监督学习思维方式的过度影响。」

还有网友表示，流式算法确实塑造了强化学习的格局。

方法介绍

本文通过引入流式深度强化学习方法 ——Stream TD (λ)、Stream Q (λ) 和 Stream AC (λ)，这些统称为 stream-x 算法，并利用资格迹，来解决流式障碍问题。

该方法无需使用重放缓冲区、批量更新或目标网络，即可从最新的经验中进行学习。与普遍认知相反，本文证明了流式深度强化学习可以是稳定的，并且在样本效率上可与批量强化学习相当。

由于流式学习方法在使用样本后必须将其丢弃，因此可能会导致样本效率低下。为此，本文提出了两种技术来提高流式学习方法的样本效率：1）稀疏初始化，2）资格迹。

算法 1 展示了本文提出的稀疏初始化技术 — SparseInit。此稀疏初始化方案可用于全连接层和卷积层。

算法 3 展示了如何构建一个优化器，该优化器使用有效步长这一条件来控制更新大小。

下面为 stream-x 算法伪代码。为了提高算法可读性，作者使用了以下颜色编码：紫色表示层归一化，蓝色表示观测规一化，橙色表示奖励缩放，青色表示步长缩放，棕色表示稀疏初始化。

实验结果

为了演示 Stream-x 算法的有效性，该研究首先展示了在不同环境中经典方法失败的流式障碍，而 Stream-x 算法克服了这一障碍，并且与其他批处理方法性能相当。

克服流式障碍

流式深度强化学习方法经常会遇到不稳定和学习失败的情况，称为流式障碍。图 2 显示了三个不同的具有挑战性的基准测试任务中的流障碍：MuJoCo、DM Control 和 Atari。

Stream-x 算法的样本效率

该研究通过比较不同算法的学习曲线来研究 stream-x 方法的样本效率。图 3 显示了不同深度 RL 方法在四个连续控制 MuJoCo 任务上的性能。

图 4 展示了流 Q (0.8) 与其对应经典方法以及 DQN1 和 DQN 在 MinAtar 任务上的性能。

Stream-x 算法在扩展运行中的稳定性

接下来，研究团队探究了 Stream-x 算法在长时间运行时的稳定性，以有效地揭示方法是否可以长时间运行而不出现任何问题。实验结果如下图 5 所示：

图 6 显示了不同智能体在总共经历 2 亿帧的 Atari 游戏上的性能：

感兴趣的读者可以阅读论文原文，了解更多研究内容。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650944916&idx=2&sn=36b06f1d4297f5ab10b7497dc42e717b

机器之心

专业的人工智能媒体和产业服务平台

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

Ilya 「Scaling What」的答案会是程序性知识吗？

关于计算机视觉中的自回归模型，这篇综述一网打尽了

ChatGPT 发布后这两年，该关注什么？机器之心打包了24个主题350多篇高质量文章

三名高中生，为近百年的分形定理带来了新证明

陶哲轩：通义千问QwQ奥数真厉害，开源大模型顶流

GPT-5涌现能力可预测？UC伯克利仅使用当前模型检查点预测未来模型

多模态慢思考：分解原子步骤以解决复杂数学推理

「瞄准」o1：国内大模型厂商的技术思路有何不同？过度推理成通病？

AI现场发了2万红包，打开了大模型Act时代

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

斯坦福吴佳俊扩散自蒸馏来了！突破文生图身份保留挑战

算法系统协同优化，vivo与港中文推出BlueLM-V-3B，手机秒变多模态AI专家

上百万智能体在OASIS模拟平台上玩推特，AI玩社交媒体和真人有多像？

向量数据库的中场战事：长期主义者Zilliz如何全球突围

世界首次！智源研究院实现数字孪生心脏电功能超实时仿真

rebuttal真的有用！这篇ICLR论文，所有审稿人都加了2分，直接跃升排名第9

12%计算量就能媲美原模型，Adobe、罗切斯特大学等提出YOPO剪枝技术

LLM破局泛化诊断难题，MSSP刊登北航PHM实验室健康管理大模型交叉研究

刚刚，Ilya的Seq2Seq、Ian的GAN获NeurIPS时间检验奖

Scaling Law 撞墙？复旦团队大模型推理新思路：Two-Player架构打破自我反思瓶颈

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度

HuggingFace工程师亲授：如何在Transformer中实现最好的位置编码

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文本

Sora就这么泄露了三小时，网友调侃Altman急拔网线，艺术家们也在抗议被「白嫖」

创业一年半，胖了30斤，AI大佬感叹：还是回谷歌好

吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型

陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、近零开销

「毕昇一号」DNA活字存储喷墨打印机来了，低成本、高效率、全自动的DNA存储

撞墙还是新起点？自回归模型在图像领域展现出Scaling潜力

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

更新了！带Agent的Cursor太疯狂了

小学二年级数学水平，跟着这篇博客也能理解LLM运行原理

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

智能体竟能自行组建通信网络，还能自创协议提升通信效率

AI版周扒皮！打字速度慢、鼠标超30秒未动，就被AI「警告」，Karpathy下场评论

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉