LLM2D

摘要

arXiv:2405.20774v3 宣告类型: 替换交叉摘要：大语言模型（LLMs）在具身人工智能的实际决策任务中展现出了显著的潜力，尤其是在利用其固有的常识和推理能力进行微调后，特别是在针对特定应用进行调整时。然而，这一微调过程引入了重大的安全和隐私漏洞，尤其是在安全关键的网络物理系统中。在本文中，我们提出了针对基于LLM的决策系统（BALD）的首次全面后门攻击框架，系统地探索了攻击面和触发机制。具体来说，我们提出了三种不同的攻击机制：词汇注入、场景操纵和知识注入，针对LLM基于决策管道中的各种组件。我们在自主驾驶和家用机器人任务中对代表性的LLM（GPT-3.5、LLaMA2、PaLM2）进行了广泛的实验，展示了我们的后门触发器在各种攻击渠道中的有效性和隐蔽性，包括车辆朝障碍加速和机器人将刀具放在床上的情况。我们的词汇和知识注入攻击在多个模型和数据集上几乎实现了100%的成功率，同时只需要有限的系统访问权限。我们的场景操纵攻击的成功率超过65%，最高可达90%，并且不需要任何运行时系统入侵。我们还评估了这些攻击对防御的鲁棒性，展示了它们的弹性。这项研究揭示了具身LLM系统的重大安全漏洞，并强调了迫切需要保护这些系统以降低潜在风险。