华东师范大学|通过对基于 LLM 的具身模型的对抗性攻击探索决策鲁棒性(ACM MM 2024)

文摘   2024-11-15 14:44   北京  


具身智能因其强调增强智能主体的感知和互动而日益受到关注,尤其是具身智能机器人与大模型融合可以进一步提高系统的智能水平,但同时也带来了新的挑战:攻击者可以操纵提示生成无关或恶意的输出,从而攻击操纵机器人执行不安全行为。因此,评估具身智能机器人面向该类对抗攻击的决策鲁棒性以确保系统能够稳健地执行任务至关重要。

传统大模型越狱攻击主要聚焦文本生成的价值观对齐等进而探究LLM在输出内容安全层面的鲁棒性,这类鲁棒性评估不能直接用于具身智能环境,原因如下:在具身智能场景中,不仅需要理解文本指令,还需根据指令在特定环境中执行任务,这涉及与环境的实时交互、物体识别、动作执行等多个复杂环节。因此具身智能对抗性鲁棒性评估不仅要考虑LLM价值观层面的攻击,还要考虑与机器人实际任务执行相关的攻击,从而确保具身智能机器人在面对各种攻击时,都能保持稳定的性能和安全性。这种复杂性带来了具身智能LLM鲁棒性评估的第二个挑战:缺乏适用的多模态数据集。在具身智能LLM中,所需数据不仅需要涵盖有害文本,还需要输入图像,更需要涉及文本与图像之间的深度交互与融合。该挑战使得现有的数据集难以直接适配这一特定场景,从而限制了具身智能LLM的进一步发展和应用。

为了解决这两个关键问题,我们首先分目标攻击和无目标攻击构建了具身场景下的多模态数据集EIRAD(图1):前者模拟攻击者有明确目标的情况,比如被操纵进行危险任务或攻击人类;后者使具身智能系统输出与预期任务不一致的、随机的或无意义的内容,致其无法正常工作从而影响智能系统的可靠性和可用性。攻击算法流程如图2。   

图1 EIRAD多模态数据集的创建过程


图2 攻击算法


表1给出了主要评估对比结果,数据表明在具身智能机器人不同类型攻击情境下,本文算法能够有效提高攻击成功率同时降低训练成本。本文实验也同时表明:具身场景下的模型在面临对抗性攻击时表现出较低的决策层鲁棒性,为具身智能机器人的鲁棒性研究提供了重要的参考和实验依据。

表1 主实验结果   


论文信息


本篇论文作者为华东师范大学的刘舒媛、陈嘉伟(共同一作)、北京航空航天大学的阮受炜、清华大学的苏航、华东师范大学的殷赵霞(通讯作者)。

Shuyuan Liu†, Jiawei Chen†, Shouwei Ruan, Hang Su, Zhaoxia Yin*. Exploring the Robustness of Decision-Level Through Adversarial Attacks on LLM-Based Embodied Models. In Proceedings of the 32nd ACM International Conference on Multimedia (MM24). [DOI: 10.1145/3664647.3680616]

代码和数据集下载:https://edu-yinzhaoxia.github.io/publications/


华东师范大学(985、上海)殷赵霞教授课题组诚招AI安全方向博士后、博士生和研究生,欢迎邮件联系:zxyin[AT]cee.ecnu.edu.cn


华东师范大学硕博招生通知:https://yjszs.ecnu.edu.cn/


课题组主页:https://faculty.ecnu.edu.cn/_s15/yzx/main.psp    


供稿:刘舒媛、陈嘉伟





隐者联盟
本公众号主要推介多媒体、人工智能、信息安全等方面的最新研究进展,愿与同行携手,共同推动科学研究向前发展。
 最新文章