LLM2D
我们能信任配备了物理体的代理吗?探索针对基于体态LLM的决策系统的情感后门攻击
Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems
作者: Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang, Yixuan Wang, Qi Alfred Chen, Qi Zhu
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2405.20774v3

摘要

arXiv:2405.20774v3 宣告类型: 替换交叉 摘要:大语言模型(LLMs)在具身人工智能的实际决策任务中展现出了显著的潜力,尤其是在利用其固有的常识和推理能力进行微调后,特别是在针对特定应用进行调整时。然而,这一微调过程引入了重大的安全和隐私漏洞,尤其是在安全关键的网络物理系统中。在本文中,我们提出了针对基于LLM的决策系统(BALD)的首次全面后门攻击框架,系统地探索了攻击面和触发机制。具体来说,我们提出了三种不同的攻击机制:词汇注入、场景操纵和知识注入,针对LLM基于决策管道中的各种组件。我们在自主驾驶和家用机器人任务中对代表性的LLM(GPT-3.5、LLaMA2、PaLM2)进行了广泛的实验,展示了我们的后门触发器在各种攻击渠道中的有效性和隐蔽性,包括车辆朝障碍加速和机器人将刀具放在床上的情况。我们的词汇和知识注入攻击在多个模型和数据集上几乎实现了100%的成功率,同时只需要有限的系统访问权限。我们的场景操纵攻击的成功率超过65%,最高可达90%,并且不需要任何运行时系统入侵。我们还评估了这些攻击对防御的鲁棒性,展示了它们的弹性。这项研究揭示了具身LLM系统的重大安全漏洞,并强调了迫切需要保护这些系统以降低潜在风险。