LLM2D

摘要

arXiv:2407.20242v4 透露类型: 替换-交叉摘要：具身AI代表了一种将AI集成到物理实体中的系统。大规模语言模型（LLM），表现出强大的语言理解能力，已被广泛应用于具身AI中，通过促进复杂的任务规划。然而，一个关键的安全问题仍然被忽视：这些具身LLM是否会实施有害行为？为应对这一问题，我们引入了BadRobot，这是一种新的攻击范式，旨在通过典型的基于语音的用户-系统交互使具身LLM违反安全和伦理约束。具体而言，为了实现这种类型的攻击，利用了以下三种脆弱性：（i）在机器人系统中操控LLM，（ii）语言输出与物理动作之间的不一致，以及（iii）由于世界知识的缺陷导致的无意中的危险行为。此外，我们构建了一个包含各种恶意物理动作查询的基准集，以评估BadRobot的攻击性能。基于此基准集，对现有突出的具身LLM框架（例如Voxposer、Code as Policies和ProgPrompt）进行的广泛实验证明了BadRobot的有效性。