率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

科技 2024-11-16 13:08 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本论文作者杨睿是中国科学技术大学 2019 级硕博连读生，师从王杰教授、李斌教授，主要研究方向为强化学习、自动驾驶等。他曾以第一作者在 NeurIPS、KDD 等顶级期刊与会议上发表论文两篇，曾获滴滴精英实习生（16/1000+）。

近日，中科大王杰教授团队 (MIRA Lab) 针对离线强化学习数据集存在多类数据损坏这一复杂的实际问题，提出了一种鲁棒的变分贝叶斯推断方法，有效地提升了智能决策模型的鲁棒性，为机器人控制、自动驾驶等领域的鲁棒学习奠定了重要基础。论文发表在 CCF-A 类人工智能顶级会议 Neural Information Processing Systems（NeurIPS 2024）。

论文地址：https://arxiv.org/abs/2411.00465
代码地址：https://github.com/MIRALab-USTC/RL-TRACER

引言

在机器人控制领域，离线强化学习正逐渐成为提升智能体决策和控制能力的关键技术。然而，在实际应用中，离线数据集常常由于传感器故障、恶意攻击等原因而遭受不同程度的损坏。这些损坏可能表现为随机噪声、对抗攻击或其他形式的数据扰动，影响数据集中的状态、动作、奖励和转移动态等关键元素。经典离线强化学习算法往往假设数据集是干净、完好无损的，因此在面对数据损坏时，机器学习到的策略通常趋向于损坏数据中的策略，进而导致机器在干净环境下的部署时性能显著下降。

尽管研究者在鲁棒离线强化学习领域已经取得了一些进展，如一些方法尝试通过增强测试期间的鲁棒性来缓解噪声或对抗攻击的影响，但它们大多在干净数据集上训练智能体模型，以防御测试环境中可能出现的噪声和攻击，缺乏对训练用离线数据集存在损坏的应对方案。而针对离线数据损坏的鲁棒强化学习方法则只关注某一特定类别的数据存在损坏，如状态数据、或转移动态数据存在部分损坏，他们无法有效应对数据集中多个元素同时受损的复杂情况。

为了针对性地解决这些现有算法的局限性，我们提出了一种鲁棒的变分贝叶斯推断方法（TRACER），有效地增强了离线强化学习算法在面临各类数据损坏时的鲁棒性。TRACER 的优势如下所示：

1. 据我们所知，TRACER 首次将贝叶斯推断引入到抗损坏的离线强化学习中。通过将所有离线数据作为观测值，TRACER 捕捉了由各类损坏数据所导致的动作价值函数中的不确定性。

2. 通过引入基于熵的不确定性度量，TRACER 能够区分损坏数据和干净数据，从而调控并减弱损坏数据对智能体模型训练的影响，以增强鲁棒性。

3. 我们在机器人控制（MuJoCo）和自动驾驶（CARLA）仿真环境中进行了系统性地测试，验证了 TRACER 在各类离线数据损坏、单类离线数据损坏的场景中均显著提升了智能体的鲁棒性，超出了多个现有的 SOTA 方法。

1. 方法介绍

1.1 动机

考虑到（1）多种类型的损毁会向数据集的所有元素引入较高的不确定性，（2）每个元素与累积奖励（即动作值、Q 值）之间存在明确的相关性关系（见图 1 中的虚线），因此使用多种受损数据估计累积奖励函数（即动作值函数）会引入很高的不确定性。

图 1. 决策过程的概率图模型。实线连接的节点表示数据集中的数据，而虚线连接的 Q 值（即动作值、累积回报）不属于数据集。

为了处理这类由多种数据损毁（即状态、动作、奖励、状态转移数据受损）导致的高不确定性问题，基于图 2 所示的概率图模型，我们提出利用数据集中的所有元素作为观测数据。我们旨在利用这些观测数据与累积奖励之间的高度相关性，来准确地识别动作值函数的不确定性。

1.2 基于受损数据的贝叶斯推断

我们提出使用离线数据集的所有元素作为观测值，利用数据之间的相关性同时解决不确定性问题。具体地，基于离线数据集中动作价值与四个元素（即状态、动作、奖励、下一状态）之间的关系，我们分别使用各个元素作为观测数据，通过引入变分贝叶斯推理框架，我们最大化动作值函数的后验分布，从而推导出各个元素对应的基于最大化证据下界 (ELBO) 的损失函数。基于对动作价值函数的后验分布的拟合，我们能有效地将数据损坏建模为动作值函数中的不确定性。

1.3 基于熵的不确定性度量

为了进一步应对各类数据损坏带来的挑战，我们思考如何利用不确定性进一步增强鲁棒性。鉴于我们的目标是提高在干净环境中的智能体性能，我们提出减少损坏数据的影响，重点是使用干净数据来训练智能体。因此，我们提供了一个两步计划：（1）区分损坏数据和干净数据；（2）调控与损坏数据相关的损失，减少其影响，从而提升在干净环境中的表现。

对于（1），由于损坏数据通常会造成比干净数据更高的不确定性和动作价值分布熵，因此我们提出通过估计动作值分布的熵，来量化损坏数据和干净数据引入的不确定性。

对于 (2)，我们使用分布熵指数的倒数来加权我们提出的 ELBO 损失函数。因此，在学习过程中，TRACER 能够通过调控与损坏数据相关的损失来减弱其影响，并同时专注于最小化与干净数据相关的损失，以增强在干净环境中的鲁棒性和性能。

1.4 算法架构

图 2. TRACER 算法框架图。

2. 实验介绍

为了模拟数据受损的情形，我们对数据集的部分数据加入随机噪声或对抗攻击来构建损坏数据。在我们的实验中，我们对 30% 的单类数据进行损坏。因此，在所有类型的数据都有损坏时，整个离线数据集中，损坏数据占约的规模。

各类数据均受损

所有类型数据元素均存在损坏的部分实验结果见表 1，TRACER 在所有控制环境中均获得了较为明显的性能提升，提升幅度达 + 21.1%，这一结果展现了 TRACER 对大规模、各类数据损坏的强鲁棒性。

表 1. 离线数据集的所有类型元素均存在随机损坏（random）或对抗损坏（advers）时，我们的方法 TRACER 在所有环境中都获得了最高的平均得分。

单类数据受损

单种类型数据元素存在损坏的部分实验结果见表 2 和表 3。在单类数据损坏中，TRACER 于 24 个实验设置里实现 16 组最优性能，可见 TRACER 面向小规模、单类数据损坏的问题也能有效地增强鲁棒性。

表 2. 单类元素存在随机损坏时，我们的方法 TRACER 在 8 个实验设置中获得了最高的平均得分。

表 3. 单类元素存在对抗损坏时，我们的方法 TRACER 在 8 个实验设置中获得了最高的平均得分。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943246&idx=5&sn=df98b858a3b225424551f1b3d463b644

机器之心

专业的人工智能媒体和产业服务平台

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

刚刚，谷歌宣布35岁Keras之父Francois Chollet离职

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

WHALE来了，南大周志华团队做出更强泛化的世界模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉