摘要
大型语言模型 (LLM) 在具身人工智能的现实世界决策任务中展现出巨大潜力,尤其是在针对特定应用进行微调时,可以利用其固有的常识和推理能力。然而,这种微调过程引入了相当大的安全漏洞,尤其是在安全至关重要的网络物理系统中。在这项工作中,我们针对具身人工智能中基于 LLM 的决策系统提出了第一个全面的后门攻击框架 (BALD),系统地探索了攻击面和触发机制。具体而言,我们提出了三种不同的攻击机制:词语注入、场景操控和知识注入,针对基于 LLM 的决策管道中的各个组件。我们在自动驾驶和家用机器人任务中对代表性的 LLM(GPT-3.5、LLaMA2、PaLM2)进行了广泛的实验,证明了我们的后门触发器在各种攻击渠道中的有效性和隐蔽性,例如车辆加速驶向障碍物以及机器人将刀具放在床上。我们的词语和知识注入攻击在多个模型和数据集上实现了近 100% 的成功率,而只需要有限的系统访问权限。我们的场景操控攻击的成功率超过 65%,最高可达 90%,并且不需要任何运行时系统入侵。我们还评估了这些攻击对防御的鲁棒性,揭示了它们的弹性。我们的研究结果突出了具身 LLM 系统中的关键安全漏洞,并强调了迫切需要保护这些系统以减轻潜在风险。