LLM2D
理解并缓解针对具身AI的策略可执行越狱攻击
POEX: Understanding and Mitigating Policy Executable Jailbreak Attacks against Embodied AI
作者: Xuancun Lu, Zhengxian Huang, Xinfeng Li, Xiaoyu ji, Wenyuan Xu
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2412.16633v2

摘要

arXiv:2412.16633v2 宣告类型: 替换-交叉引用 摘要:由于将LLM集成为规划模块,体感AI系统正在迅速发展,这些模块能够将复杂的指令转换为可执行的策略。然而,LLM容易受到囚笼攻击的影响,这可以生成恶意内容。本文探讨了将传统LLM囚笼攻击应用于体感AI系统背后的有效性和合理性。我们的目标是回答三个问题:(1)传统的LLM囚笼攻击是否适用于体感AI系统?(2)如果没有,会出现哪些挑战?(3)我们如何防御体感AI的囚笼攻击?为此,我们首先使用新构建的数据集Harmful-RLbench对现有的基于LLM的体感AI系统进行了度量。我们的研究确认,传统的LLM囚笼攻击直接应用于体感AI系统不适用,并识别出两个独特的挑战。首先,有害文本不一定构成有害策略。其次,即使可以生成有害策略,这些策略也不一定能在体感AI系统中被执行,这限制了潜在风险。为了促进更全面的安全分析,我们细化并引入了POEX,这是一种新颖的红队框架,优化敌对方的后缀以诱导体感AI系统中的有害但可执行的策略。POEX的设计采用了敌对方约束、策略评估器和后缀优化,以确保策略成功执行的同时逃避体感AI系统内部的安全检测。使用Harmful-RLbench在真实世界机器人臂和模拟器上进行的实验展示了其有效性,特别是在突出安全漏洞和模型间高迁移性方面。最后,我们提出了基于提示和基于模型的防御措施,实现了85%的成功率以缓解攻击,并增强体感AI系统的安全意识。我们的发现强调了在关键应用中确保体感AI安全部署的紧迫需求。