NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

科技 2024-12-17 20:13 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

论文一作为之江实验室研究专家、香港中文大学在职博士李蓝青，指导老师为香港中文大学计算机科学与工程系王平安 (Pheng Ann Heng) 教授。同济大学硕士生张海为共同第一作者，指导老师赵君峤教授为论文通讯作者。

现如今，以 GPT 为代表的大语言模型正深刻影响人们的生产与生活，但在处理很多专业性和复杂程度较高的问题时仍然面临挑战。在诸如药物发现、自动驾驶等复杂场景中，AI 的自主决策能力是解决问题的关键，而如何进行决策大模型的高效训练目前仍然是开放性的难题。

强化学习（RL）作为一种经典的时序决策模型的训练方法，势必成为决策大模型训练及微调的核心技术之一。而由于任务和数据的复杂性，我们希望模型在训练时能摆脱传统强化学习与环境在线交互的方式，实现在海量历史数据中进行离线、多任务的高效学习，这一新范式被称为「离线元强化学习」（Offline Meta-RL）。

近期，围绕离线元强化学习，来自之江实验室、香港中文大学、同济大学等单位的研究团队提出了全新算法 UNICORN。该方法基于信息论，首次系统性地提出了一套关于强化学习中任务表示学习（task representation learning）的理论框架 UNICORN（UNIfied Information Theoretic Framework of Context-Based Offline Meta-ReiNforcement Learning），将现有主流方法利用一个基于任务表征的通用互信息优化目标进行了统一，并凭借理论创新和全面的实验验证，成为离线及元强化学习领域的重要里程碑，被人工智能三大顶级会议 NeurIPS 2024 接收为 Spotlight 文章（中稿率 2.08%）。

论文标题：Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning
论文链接：https://openreview.net/pdf?id=QFUsZvw9mx
项目地址：https://github.com/betray12138/UNICORN

问题背景

在经典强化学习中，智能体（agent）通过与外部环境实时交互来收集反馈，在不断试错（trial-and-error）中积累经验进行学习。然而在诸如自动驾驶、疾病治疗等现实场景中，试错带来的风险往往是无法承受的，从而使人们开始关注如何摆脱与环境的在线交互，仅从历史数据中进行学习，这一新范式被称为「离线强化学习」（offline RL）。

另一方面，复杂多变的真实场景使得智能体处理多任务能力的必要性与日俱增，这种使智能体像人类一样同时学习多种技能并进行举一反三的范式被称作「元强化学习」（meta-RL）。

离线强化学习和元强化学习作为强化学习的两个分支，有着各自独特的优势。前者由于摆脱了与环境的在线交互，可以重复利用历史数据进行训练，具有高安全性、高样本效率的特点；而后者聚焦多任务及迁移学习，在泛化能力方面表现突出，两者优势互补。

于是在 2021 年前后，人们开始尝试结合两种范式来训练更加强大的智能体，其中主流的一类方法被称为「基于语境的离线元强化学习」（Context-Based Offline Meta-RL，COMRL)，其核心思想是将当前任务的表征作为额外的状态信息，训练一个适用于任意任务 / 环境的通用策略（universal policy）:

在该框架下，如何学习鲁棒、有效的任务表征 Z 成为核心问题，而其中最重要的挑战是语境偏移（context shift）。由于智能体的训练数据是离线也就是固定分布的，但在测试时面临的任务语境未知且多变，导致训练和测试集间可能在状态 - 动作（state-action）维度或者任务维度上存在巨大分布偏移，这对于模型的鲁棒性、泛化性提出了极高要求。

针对上述问题，现有主流方法例如 FOCAL［1］、CORRO［2］和 CSRO［3］陆续提出了多种优化目标，利用度量学习（metric learning）、对比学习（contrastive learning）等思想进行任务表征学习：

FOCAL

CORRO

CSRO

然而，现有方法主要聚焦于对损失函数的经验性改进，缺乏针对任务表示学习尤其是语境偏移的系统性理论支持和设计指导。

基于信息论的统一理论框架 UNICORN

UNICORN 的核心创新在于借助信息论，从数学定义、因果关系分解、中心定理三个层面依次递进，首次系统性地定义和解构了 COMRL 中的任务表示学习这一问题，并通过严格理论证明将现有方法的优化目标进行了统一，由此提出并验证了两种新的算法实现，以启迪未来更多新方法的设计。

1. 任务表示学习的数学定义

由于在 COMRL 中，数据覆盖多个任务，假设这些任务采样于一个特定的任务分布，我们将遵从该分布的任务变量定义为随机变量，与之对应的数据样本和任务表示变量分别定义为、，则三者构成如下马尔可夫链：

任务表示学习的数学定义：COMRL 中的任务表示学习意在找到一个数据相对于任务变量的充分统计量（sufficient statistics）。

2. 因果关系分解

在 COMRL 中，原则上，任务变量与进行采样的行为策略（behavior policy）应该相互独立。我们发现如果将数据样本看作包含状态、动作、奖励的四元组 (s, a, s’, r)，则其中前两项（s, a）的分布主要与行为策略相关，而在给定 s、a 的情况下，s’、r 的分布完全由任务本身的奖励函数及状态转移函数所决定。基于此，我们可以对上述马尔可夫链进行如下拆解：

该分解反映了由 s’, r 构成的 X_t 包含了与任务变量、的绝大部分因果关系，而由 s, a 构成的 X_b 由于与行为策略高度相关，含有大量虚假相关性（spurious correlation）。同时在数学上，我们发现该因果关系分解正好可以对应如下的互信息分解：

基于上述分析，我们将右边第一项命名为主因果关系（primary causality），第二项称为次因果关系（lesser causality）。

3. 中心定理

本文从数学上严格证明了如下不等式（中心定理）：

该中心定理引申出 2 个重要结论，为未来 COMRL 领域的新方法设计指明了道路：

主因果关系作为不等式下界，虽不包含虚假相关性，但缺失部分因果相关性；而主因果关系与次因果关系之和作为上界，在囊括全部因果相关性的同时引入了虚假相关性。因此，理论上，一个有且仅包含全部因果相关性的「最优优化目标」应该介于两者之间，而 I (Z; M) 刚好满足这一要求。基于上述观察，我们提出 I (Z; M) 应该作为任务表示学习优化目标的金标准（ground truth），其天然具有对于语境偏移的鲁棒性。
现有主流方法本质都是在优化 I (Z; M) 的一个近似，例如 FOCAL、CORRO、CSRO 分别优化的是其上界、下界和两者的线性插值。因此，找到更好的 I (Z; M) 近似方法将成为 COMRL 领域未来发展的关键方向。

基于上述洞察，为了展示 UNICORN 框架的指导意义，通过对 I (Z; M) 的近似，我们提出了两种新的算法实现：

有监督 UNICORN：将 I (Z; M) 的求解近似为离散化的分类问题

自监督 UNICORN：将 I (Z; M) 的求解近似为数据重建（生成式）+ 度量学习（对比式）

实验结果

UNICORN 的广泛适用性和鲁棒性

为了证明 UNICORN 理论框架的普适性，我们在多种机器人连续控制任务的相关设定下对新提出的两种方法进行了广泛的实验验证：

1. Behavior IID/OOD (训练集与测试集的行为策略采样于相同分布 / 不同分布)

结论：UNICORN 算法在同分布测试集上性能媲美 SoTA，在分布外测试集上性能显著优于现有其他方法。

2. 不同质量的数据集表现

结论：UNICORN 算法（尤其无监督版本）在不同质量的数据集上的性能均达到 SoTA。

3. 不同模型架构的可迁移性（应用于 Decision Transformer（DT）的测试结果）

结论：UNICORN 算法在 MLP/Decision Transformer 架构上相比现有方法均呈现明显优势，可以作为即插即用的模块广泛应用于其他 RL 算法中。

4. 对于分布外任务的泛化性

图左为分布外任务的构造方式：以 Ant-Dir 为例，训练任务的目标方向采样自第二、三象限，测试任务分布于第一、四象限，两者完全不重叠。图右为测试结果：自监督 UNICORN 为唯一取得正向小样本迁移（positive few-shot transfer）的算法。

结论：利用无监督 UNICORN 中的自编码器进行 domain randomization 和 model-based RL，可以将智能体的能力外推至分布外的任务，这一点是现有其他方法都无法做到的。

UNICORN 的未来展望

为拓展决策大模型的能力边界提供理论基础

UNICORN 为离线元强化学习提供了统一理论基础和算法设计准则，对于决策大模型的大规模离线、多任务预训练及微调，从而进一步拓展决策大模型的能力边界具有指导意义。该技术有助于解决药物设计、精准医疗、具身智能等前沿领域面临的 AI 模型的泛化性、多目标优化、样本利用率等挑战，同时，团队也在探索将 UNICORN 框架进一步推广到在线强化学习等更多场景中。

参考文献：

［1］. Lanqing Li, Rui Yang, and Dijun Luo. Focal: Efficient fully-offline meta-reinforcement learning via distance metric learning and behavior regularization. ICLR 2021.

［2］. Haoqi Yuan and Zongqing Lu. Robust task representations for offline meta-reinforcement learning via contrastive learning. ICML 2022.

［3］.Yunkai Gao, et al. Context shift reduction for offline meta-reinforcement learning. NeurIPS 2023.

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉