LLM2D

摘要

大型语言模型 (LLM) 在具身人工智能的现实世界决策任务中展现出巨大潜力，尤其是在针对特定应用进行微调时，可以利用其固有的常识和推理能力。然而，这种微调过程引入了相当大的安全漏洞，尤其是在安全至关重要的网络物理系统中。在这项工作中，我们针对具身人工智能中基于 LLM 的决策系统提出了第一个全面的后门攻击框架 (BALD)，系统地探索了攻击面和触发机制。具体而言，我们提出了三种不同的攻击机制：词语注入、场景操控和知识注入，针对基于 LLM 的决策管道中的各个组件。我们在自动驾驶和家用机器人任务中对代表性的 LLM（GPT-3.5、LLaMA2、PaLM2）进行了广泛的实验，证明了我们的后门触发器在各种攻击渠道中的有效性和隐蔽性，例如车辆加速驶向障碍物以及机器人将刀具放在床上。我们的词语和知识注入攻击在多个模型和数据集上实现了近 100% 的成功率，而只需要有限的系统访问权限。我们的场景操控攻击的成功率超过 65%，最高可达 90%，并且不需要任何运行时系统入侵。我们还评估了这些攻击对防御的鲁棒性，揭示了它们的弹性。我们的研究结果突出了具身 LLM 系统中的关键安全漏洞，并强调了迫切需要保护这些系统以减轻潜在风险。