摘要
arXiv:2407.20242v4 公告类型: replace-cross
摘要:具身AI表示将AI集成到物理实体中的系统。大型语言模型(LLM),因其强大的语言理解能力,已被广泛应用于具身AI,通过促进复杂的任务规划。然而,仍然存在一个关键的安全问题:这些具身LLM是否会执行有害行为?为应对这一问题,我们提出了BadRobot,这是一种新型攻击范式,旨在通过典型的基于语音的用户-系统交互使具身LLM违反安全和伦理约束。具体而言,利用了三种漏洞来实现这种类型的攻击:(i)在机器人系统中操纵LLM;(ii)语言输出与物理动作之间的对齐不一致;(iii)由于世界知识的缺陷引起的无意危险行为。此外,我们构建了一个包含各种恶意物理动作查询的基准,以评估BadRobot的攻击性能。基于此基准,针对现有知名具身LLM框架(如Voxposer、Code as Policies和ProgPrompt)进行了大量实验,证明了BadRobot的有效性。