NeurIPS 2024 | 结构信息原理指导的高效智能体探索

创业 2024-10-16 08:22 北京

本文介绍来自北京航空航天大学彭浩老师团队发表在NeurlPS 2024上的一篇文章“Effective Exploration Based on the Structural Information Principles”。为了解决当前基于传统信息论的探索方法由于忽略状态-动作空间内在结构而导致效率低下的问题，作者提出了一种基于结构信息原理的探索框架，即SI2E。
SI2E通过定义结构互信息，提出一种新的状态动作表征原则，捕捉状态-动作对之间的动态关系，构建最优编码树。通过分析状态-动作对之间的价值差异，定义策略条件结构熵，构造内在奖励机制，实现对于状态-动作空间更为有效的覆盖。在MiniGrid、MetaWorld和DeepMind Control Suite等测试环境中，SI2E在最终性能与采样效率等方面的表现遥遥领先，最大提升幅度分别达到了37.63%和60.25%。‍‍‍

论文名称：
Effective Exploration Based on the Structural Information Principles
论文链接：
https://penghao-bdsc.github.io/papers/Effective%20Exploration%20Based%20on%20the%20Structural%20Information%20Principles.pdf
代码链接：
https://github.com/SELGroup/SI2E

一、引言

在强化学习（RL）领域，智能体探索和利用行为之间平衡至关重要，尤其在高维度观测和稀疏奖励的场景中。最近，基于传统信息论的探索方法在自监督设置中最大化对于状态空间与动作空间的覆盖，以优化智能体策略并减轻次优结果的风险。然而，上述方法存在两个挑战，目前尚未解决：

挑战1：传统最大熵策略容易受到价值分布影响，导致偏向于低值状态的不平衡探索

为减轻这一问题，该团队引入了以策略值为条件的高维结构熵。基于对状态-动作对的价值估计解析层次化社区结构，并依据智能体探索行为定义内在奖励，构建奖励塑形机制，在最大化整个状态-动作空间的覆盖的基础上，避免对于低值社区的无效覆盖。

挑战2：当前的结构信息研究存在单一变量限制，并未涉及对多变量之间的关系建模

在这项工作中，作者提出了结构互信息的概念，首次实现对于多变量之间结构相似性的度量，进一步提出对于状态-动作对的表征原则，在捕捉环境动态信息的同时，避免无效的观测干扰。

图1说明了一个简单的六状态马尔可夫决策过程 (MDP)，其中包含四个动作。如图例所示，蓝线和红线的不同密度代表不同的动作，导致状态转换，旨在返回初始状态。实线特别表示动作和。状态和之间的转换被视为冗余，因为它们不利于实现有效返回的主要目标。

因此，状态-动作对和具有较低的策略值。最大化状态-动作香农熵的策略将涵盖所有可能的转换（蓝色）。相反，整合固有状态-动作空间结构的最大熵策略会将这些冗余的状态-动作对划分为顶点子社区，并最小化该子社区的熵以避免不必要地访问它。同时，它最大化了状态-动作熵，从而最大限度地覆盖了更有可能在简化的五状态 MDP 中促成期望结果的转换（红色）。

结构互信息

该团队解决了现有结构信息原理中普遍存在的单变量约束，并引入了结构互信息的概念，以便在SI2E 框架内进行后续的状态-动作表示学习。

给定随机变量对 (X,Y) ， |X|=|Y|=n ，构造一个带权无向二分图来表示 X 和 Y 变量间的联合分布，同时限制该图上的编码树为二层近似二叉结构，并得到最优的近似二叉树：

最优近似二叉树中的每个中间节点对应一个包含单一顶点 x 与单一顶点 y 的子集，从而在变量 X 与 Y 之间建立一个一一匹配结构。对于中从左到右排序的第 i 个中间节点标记为，在对应的子集中 x 和 y 顶点分别被标记为和。

为了准确定义结构互信息，需要考虑不同划分结构下两个变量的联合熵。作者引入一个应用于的转换算子，以系统地遍历这些变量的所有潜在一对一匹配结构，从而提供对于结构相似性的全面度量。给定一个整数参数，该算子生成一个新的二层近似二叉树。

下图给出了一个对于上述过程的直观解释。

结构互信息定义：

结构互信息与传统互信息之间的关系：

二、SI2E框架设计

所提出SI2E框架的详细设计如下图所示，主要包含状态动作表征与智能体探索模块。

2.1 状态动作表征

2.1.1 结构互信息原理

为了有效地学习与环境动态信息相关的状态-动作表示，作者提出了一种创新的表征原则，该原则最大化了与后续状态的结构互信息，并最小化了与当前状态的结构互信息。

在该阶段，作者利用编码器和将当前观察值和表示为状态和，并生成对于元组的潜在表示。通过构建无向二部图和，作者分析与当前状态和随后状态的联合分布。

通过计算互信息和，作者基于信息瓶颈(IB)，提出了一种表征原则，旨在最小化同时最大化。当与之间的联合分布呈一一对应时，它们的互信息达到最大值，这表明每个值都有唯一值与之对应，反之亦然。因此，结构互信息可以被认为是获取动态相关状态-行为表示的理想学习目标。

2.1.2 表征学习目标

在研究中，由于直接最小化存在计算挑战，作者提出了一个变分上界，将最小化转化为最小化和。通过利用一个可行的解码器来近似的边缘分布，得出了的一个上界。

同时，为了降低条件熵，作者引入了一个预测目标，通过解码器来近似条件概率。同时，为了有效优化，作者最大化其下界。通过使用一个替代解码器来近似条件概率，得到了的一个下界。

2.2 最大结构熵探索

作者设计了一个独特的内在奖励机制，以解决传统熵策略中对低价值状态的不平衡探索的挑战。具体来说，基于策略函数生成了状态-动作空间的层次化社区结构，并依据智能体访问概率定义价值条件结构熵，实现更为有效的最大化覆盖探索。

2.2.1 分层状态-动作结构

作者从智能体与环境的交互历史中提取状态-动作对，形成一个完整的图，其中反映了智能体策略引起的价值关系。在这个图中，任意两个顶点和通过一条无向边连接，其权重由状态-动作对和的策略值差异确定。通过最小化图的二维结构熵，生成了二层最优编码树。该树描述了状态-动作顶点之间的分层社区结构，根节点涵盖所有顶点，每个中间节点对应于一个子社区，其中的顶点共享相似的策略值。

2.2.2 值条件结构熵

为了衡量智能体探索在状态-动作空间中的覆盖程度，作者构建了一个额外的分布图，与原图共享相同的顶点集。对于所有状态-动作对，给定正的访问概率，作者证明了该加权、无向、连通图的存在性，其中每个顶点的度数与其访问概率成正比。

在图中，状态-动作顶点集合为，状态-动作子社区集合为。与这些集合的访问概率分布相关联的香农熵分别表示为和，其中等同于整个状态-动作空间的香农熵。在二层状态-动作社区内，定义了的结构熵。理论证明了结构熵和香农熵之间存在如下关系：

其中，是的一个变分下界。因此，在确保整个状态-动作空间最大覆盖的同时，缓解了状态-动作子社区之间不均匀覆盖的问题。通过识别智能体策略引起的分层状态-动作结构，SI2E实现了更为有效的最大覆盖探索，确保了其探索优势。

2.2.3 评估和内在奖励

在面对直接获取访问概率的不可行性时，作者研究采用了k-NN熵估计器来估计条件结构熵下界，以评估状态-动作空间的覆盖程度。通过使用这个估计器得到的结果，可以定义内在奖励，并结合外部任务奖励，训练强化学习智能体来解决目标任务。

三、实验与评估

为了验证该框架的性能优势，作者在MiniGrid、MetaWorld和DMControl等环境中进行了一系列综合性的对比实验。

3.1 MiniGrid实验对比

在MiniGrid基准测试中，作者评估了SI2E在导航任务中的表现，这些任务旨在在稀疏奖励环境中实现目标。该设置是部分可观察的，智能体接收到周围网格的7×7×3嵌入而不是整个网格环境。作者采用A2C智能体作为基准，并将香农熵和基于价值的状态熵（VCSE）作为对比。实验结果显示，在各种导航任务中，包括带障碍物的导航、长期导航以及带障碍物的长期导航，如表1所示，SI2E在最终性能和样本效率方面表现出显著改善。

3.2 MetaWorld实验对比

作者进一步在MetaWorld基准测试中的视觉操作任务上评估SI2E框架，该基准测试由于其庞大的状态空间而提出了探索性挑战。作者选择DrQv2算法作为基础RL方法。采用相同的摄像头配置，并将奖励标准化为1。同时，表1中总结了所有探索方法在六个MetaWorld任务中的成功率和所需步骤，从而证明了SI2E的性能优势。

3.3 DMControl实验对比

此外，该团队在DMControl套件中的连续控制任务中对SI2E框架进行了评估，同样选用了DrQv2算法作为基础智能体，该算法基于像素观察进行操作。为了更全面地比较，引入了MADE作为状态-动作探索基线。通过评估六个连续控制任务中所有探索方法的表现并记录在表2中，观察结果显示，SI2E显著提高了每个DMControl任务的平均集奖励。

下图中对比了SI2E和最佳基线的样本效率。这些结果不仅展示了SI2E在获取与动态相关的状态-动作表示方面的有效性，还突显了其激励智能体探索状态-动作空间的潜力。

为了更好地理解SI2E框架的合理性和优势，下图提供了SI2E表征结果与探索行为的可视化实验：(a) 基于结构互信息原理的表示学习可视化，(b) 通过最大化价值条件结构熵实现智能体探索的可视化。

3.4 消融实验

通过对MetaWorld和DMControl任务进行消融实验，作者专注于研究SI2E框架中嵌入原则和内在奖励机制这两个关键组成部分的影响。关注了两个不同变体：(i) SI2E-DB，利用DB瓶颈来学习状态-动作表示，(ii) SI2E-VCSE，采用最先进的VCSE方法来计算内在奖励。结果显示，如下图所示，SI2E在最终性能和样本效率方面均优于所有变体，这表明这些关键组件在赋予SI2E卓越能力方面起着重要作用。

五、结论及展望

作者提出了一种基于结构信息原理的新型智能体探索框架SI2E。该框架定义了结构互信息，以有效捕获与环境动态相关的状态-动作表示。它最大化了以价值为条件的高维结构熵，以增强对于整个状态-动作空间更为有效的覆盖。同时，建立了SI2E与传统信息论探索方法之间的理论联系，凸显了该框架的合理性和优势。通过广泛的对比评估，与最先进的探索方法相比，SI2E显著提高了最终性能和取样效率。作者未来的工作包括扩展编码树的高度和实验环境的范围。作者的目标是让SI2E在强化学习中保持一个强大和适应性强的工具，特别适合高维和稀疏奖励的环境。

篇幅原因，我们在本文中省略了诸多细节，更多细节可以在论文中找到。感谢阅读！

llustration From IconScout By Kawalan Studio

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650514392&idx=2&sn=bbaacfad0ea8391c644f1fad1ee60951

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉