华东师范大学｜通过对基于 LLM 的具身模型的对抗性攻击探索决策鲁棒性（ACM MM 2024）

文摘 2024-11-15 14:44 北京

具身智能因其强调增强智能主体的感知和互动而日益受到关注，尤其是具身智能机器人与大模型融合可以进一步提高系统的智能水平，但同时也带来了新的挑战：攻击者可以操纵提示生成无关或恶意的输出，从而攻击操纵机器人执行不安全行为。因此，评估具身智能机器人面向该类对抗攻击的决策鲁棒性以确保系统能够稳健地执行任务至关重要。

传统大模型越狱攻击主要聚焦文本生成的价值观对齐等进而探究LLM在输出内容安全层面的鲁棒性，这类鲁棒性评估不能直接用于具身智能环境，原因如下：在具身智能场景中，不仅需要理解文本指令，还需根据指令在特定环境中执行任务，这涉及与环境的实时交互、物体识别、动作执行等多个复杂环节。因此具身智能对抗性鲁棒性评估不仅要考虑LLM价值观层面的攻击，还要考虑与机器人实际任务执行相关的攻击，从而确保具身智能机器人在面对各种攻击时，都能保持稳定的性能和安全性。这种复杂性带来了具身智能LLM鲁棒性评估的第二个挑战：缺乏适用的多模态数据集。在具身智能LLM中，所需数据不仅需要涵盖有害文本，还需要输入图像，更需要涉及文本与图像之间的深度交互与融合。该挑战使得现有的数据集难以直接适配这一特定场景，从而限制了具身智能LLM的进一步发展和应用。

为了解决这两个关键问题，我们首先分目标攻击和无目标攻击构建了具身场景下的多模态数据集EIRAD（图1）：前者模拟攻击者有明确目标的情况，比如被操纵进行危险任务或攻击人类；后者使具身智能系统输出与预期任务不一致的、随机的或无意义的内容，致其无法正常工作从而影响智能系统的可靠性和可用性。攻击算法流程如图2。

图1 EIRAD多模态数据集的创建过程

图2 攻击算法

表1给出了主要评估对比结果，数据表明在具身智能机器人不同类型攻击情境下，本文算法能够有效提高攻击成功率同时降低训练成本。本文实验也同时表明：具身场景下的模型在面临对抗性攻击时表现出较低的决策层鲁棒性，为具身智能机器人的鲁棒性研究提供了重要的参考和实验依据。

表1 主实验结果

论文信息

本篇论文作者为华东师范大学的刘舒媛、陈嘉伟（共同一作）、北京航空航天大学的阮受炜、清华大学的苏航、华东师范大学的殷赵霞（通讯作者）。

Shuyuan Liu†, Jiawei Chen†, Shouwei Ruan, Hang Su, Zhaoxia Yin*. Exploring the Robustness of Decision-Level Through Adversarial Attacks on LLM-Based Embodied Models. In Proceedings of the 32nd ACM International Conference on Multimedia (MM24). [DOI: 10.1145/3664647.3680616]

代码和数据集下载：https://edu-yinzhaoxia.github.io/publications/

华东师范大学（985、上海）殷赵霞教授课题组诚招AI安全方向博士后、博士生和研究生，欢迎邮件联系：zxyin[AT]cee.ecnu.edu.cn

华东师范大学硕博招生通知：https://yjszs.ecnu.edu.cn/

课题组主页：https://faculty.ecnu.edu.cn/_s15/yzx/main.psp

供稿：刘舒媛、陈嘉伟

http://mp.weixin.qq.com/s?__biz=Mzg4MjU4OTU0MA==&mid=2247512149&idx=1&sn=73ae75b74e6cd536b97b78e78ab39cc2

隐者联盟

本公众号主要推介多媒体、人工智能、信息安全等方面的最新研究进展，愿与同行携手，共同推动科学研究向前发展。

香港浸会大学&英伟达 | Geometry Cloak：保护版权图像被 3D 重建（NeurIPS 2024）

宁波大学｜通过事件触发的隐蔽后门攻击（ICME 2024）

海南大学&中国科学院大学 | 基于翘曲的可溯源可逆对抗样本（IJIS 2024）

中国农业大学｜对抗重构框架下的少样本领域自适应隐写文本检测（ECAI 2024 Poster+Spotlight Talk）

合肥工业大学｜基于联盟区块链的车联网去中心化信任管理方案（IEEE TITS 2024）

中山大学｜基于多视角不一致衡量的视频人脸伪造检测与定位（TDSC 2024）

香港大学&齐鲁工业大学|基于可靠性视角的深度伪造检测综述（ACM Computing Surveys 2024）

华东师范大学｜通过对基于 LLM 的具身模型的对抗性攻击探索决策鲁棒性（ACM MM 2024）

中山大学｜基于模板增强提取网络的鲁棒图像同步水印方法（TCSVT 2024）

长沙理工大学&台湾云林科技大学｜基于双分支卷积抑制纹理网络的人脸伪造检测（TCSS 2024）

清华大学&广州大学| 基于HEVC视频流选择加密的安全性研究（TOMM2024)

深圳大学｜基于深度块匹配和成对排序学习的图像复制-移动篡改检测（TIP 2024）

中国海洋大学｜基于频率知识融合的人脸鉴伪（NeurIPS 2024）

暨南大学｜一种用于语义通信的隐写框架（TCSVT 2024）

北京大学｜基于多模态大语言模型的可解释图像篡改检测定位（arXiv 2024）

福州大学｜基于边界特征引导的图像篡改定位（TCSVT 2024)

香港城市大学｜TELLER：可信任的虚假新闻检测框架（ACL 2024）

华中科技大学｜重新思考针对人脸识别系统的目标攻击与无目标攻击（ACM MM 2024）

齐鲁工业大学&大湾区大学&深圳大学 | GenFace: 大规模细粒度人脸深度伪造基准（TIFS 2024）

南京航空航天大学｜抗合谋攻击的隐私保护数据库指纹机制（IEEE TIFS 2024）

南京信息工程大学｜高效且安全的量子安全两方标量积协议及其在保密矩阵乘法上的应用（TCSI 2023）

河南师范大学&南京航空航天大学&江西财经大学｜通过可追溯对抗样本实现图像隐私和版权的双重保护（TCSVT 2024）

复旦大学｜通过深度生成模型实现载体可分离的固定神经网络隐写术（ACM MM 2024）

中国农业大学｜基于大语言模型的生成式文本隐写方法（ACM MM 2024）

重庆邮电大学&南京航空航天大学｜高效且自适应的安全跨领域推荐（ESWA 2024）

合肥工业大学｜基于扩散模型的生成式鲁棒图像隐写 (ACM MM 2024)

北京航空航天大学&新加坡国立大学｜LanEvil: 基于环境幻觉的车道检测模型鲁棒性研究（ACM MM 2024）

长沙理工大学&湖南大学｜基于细粒度特征和噪声不一致性的人脸伪造检测算法（TAI 2024）

四川大学｜可抵抗基于CNN和传统隐写分析的免疫隐写通用框架 (TIFS 2024)

【极简综述第二期30】多模态人脸反欺诈

合肥工业大学｜安全且灵活的通配符询问 (IEEE TIFS 2024)

专题征文 | 面向数字图像的人工智能安全《中国图象图形学报》

深圳大学｜通过学习相邻特征关系和自对抗构建本质的鲁棒隐写分析器（TIFS 2024）

复旦大学｜通过Stable Diffusion建立隐蔽传输信道（TIFS 2024）

哈尔滨工业大学 | 一种即插即用地缓解梯度逆向攻击的方法（TPAMI 2024）

中国电信研究院&南方科技大学| 应对联合攻击检测的 La-SoftMoE CLIP

【极简综述第二期29】生成式图像水印

复旦大学｜基于预训练模型和可学习prompt的图像篡改定位方法 (ACM MM 2024)

【极简综述第二期28】扩散模型水印

复旦大学｜基于手工设计滤波器的AI生成图像溯源（ACM MM 2024）

南洋理工大学&齐鲁工业大学｜基于人脸关键点感知水印的主动深度伪造检测技术（ACM MM 2024）

【极简综述第二期27】大模型生成内容溯源技术

中科院信工所｜基于真实人脸视频自然一致性表征学习的深度伪造检测（ECCV 2024）

【极简综述第二期26】深度感知哈希

上海交通大学&海南大学|一种用于提升鲁棒性的无载体隐写通用框架（TCSVT2024)

桂林电子科技大学｜DP-PartFIM：基于差分隐私和分区技术的频繁项集挖掘算法（TETC 2024）

复旦大学｜用于深度模型交易的可撤销后门（ECAI 2024）

浙江理工大学｜边缘计算数据安全保护研究综述（网络空间安全科学学报 2024）

中国科学院自动化研究所&澳门科技大学｜用于灵活模态人脸活体检测的CLIP（ACM MM 2024）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉