LLM2D

摘要

arXiv:2407.20242v4 公告类型: replace-cross 摘要：具身AI表示将AI集成到物理实体中的系统。大型语言模型（LLM），因其强大的语言理解能力，已被广泛应用于具身AI，通过促进复杂的任务规划。然而，仍然存在一个关键的安全问题：这些具身LLM是否会执行有害行为？为应对这一问题，我们提出了BadRobot，这是一种新型攻击范式，旨在通过典型的基于语音的用户-系统交互使具身LLM违反安全和伦理约束。具体而言，利用了三种漏洞来实现这种类型的攻击：（i）在机器人系统中操纵LLM；（ii）语言输出与物理动作之间的对齐不一致；（iii）由于世界知识的缺陷引起的无意危险行为。此外，我们构建了一个包含各种恶意物理动作查询的基准，以评估BadRobot的攻击性能。基于此基准，针对现有知名具身LLM框架（如Voxposer、Code as Policies和ProgPrompt）进行了大量实验，证明了BadRobot的有效性。