LLM2D

摘要

arXiv:2412.16633v2 宣告类型: 替换-交叉引用摘要：由于将LLM集成为规划模块，体感AI系统正在迅速发展，这些模块能够将复杂的指令转换为可执行的策略。然而，LLM容易受到囚笼攻击的影响，这可以生成恶意内容。本文探讨了将传统LLM囚笼攻击应用于体感AI系统背后的有效性和合理性。我们的目标是回答三个问题：（1）传统的LLM囚笼攻击是否适用于体感AI系统？（2）如果没有，会出现哪些挑战？（3）我们如何防御体感AI的囚笼攻击？为此，我们首先使用新构建的数据集Harmful-RLbench对现有的基于LLM的体感AI系统进行了度量。我们的研究确认，传统的LLM囚笼攻击直接应用于体感AI系统不适用，并识别出两个独特的挑战。首先，有害文本不一定构成有害策略。其次，即使可以生成有害策略，这些策略也不一定能在体感AI系统中被执行，这限制了潜在风险。为了促进更全面的安全分析，我们细化并引入了POEX，这是一种新颖的红队框架，优化敌对方的后缀以诱导体感AI系统中的有害但可执行的策略。POEX的设计采用了敌对方约束、策略评估器和后缀优化，以确保策略成功执行的同时逃避体感AI系统内部的安全检测。使用Harmful-RLbench在真实世界机器人臂和模拟器上进行的实验展示了其有效性，特别是在突出安全漏洞和模型间高迁移性方面。最后，我们提出了基于提示和基于模型的防御措施，实现了85%的成功率以缓解攻击，并增强体感AI系统的安全意识。我们的发现强调了在关键应用中确保体感AI安全部署的紧迫需求。