摘要
arXiv:2407.20242v4 透露类型: 替换-交叉
摘要:具身AI代表了一种将AI集成到物理实体中的系统。大规模语言模型(LLM),表现出强大的语言理解能力,已被广泛应用于具身AI中,通过促进复杂的任务规划。然而,一个关键的安全问题仍然被忽视:这些具身LLM是否会实施有害行为?为应对这一问题,我们引入了BadRobot,这是一种新的攻击范式,旨在通过典型的基于语音的用户-系统交互使具身LLM违反安全和伦理约束。具体而言,为了实现这种类型的攻击,利用了以下三种脆弱性:(i)在机器人系统中操控LLM,(ii)语言输出与物理动作之间的不一致,以及(iii)由于世界知识的缺陷导致的无意中的危险行为。此外,我们构建了一个包含各种恶意物理动作查询的基准集,以评估BadRobot的攻击性能。基于此基准集,对现有突出的具身LLM框架(例如Voxposer、Code as Policies和ProgPrompt)进行的广泛实验证明了BadRobot的有效性。