摘要
具身人工智能代表着将人工智能集成到物理实体中的系统,使它们能够感知并与其周围环境交互。大型语言模型(LLM)表现出强大的语言理解能力,已广泛应用于具身人工智能,以促进复杂的任务规划。然而,一个关键的安全问题被忽视了:这些具身 LLM 会不会犯下有害行为?针对这个问题,我们引入了 BadRobot,一种新颖的攻击范式,旨在通过典型的语音交互使具身 LLM 违反安全和道德约束。具体而言,利用了三种漏洞来实现这种攻击:(i)操纵机器人系统中的 LLM,(ii)语言输出与物理动作之间的错位,以及(iii)由于世界知识缺陷导致的无意有害行为。此外,我们构建了各种恶意物理动作查询的基准,以评估 BadRobot 的攻击性能。基于此基准,针对现有突出具身 LLM 框架(例如,Voxposer、Code as Policies 和 ProgPrompt)的大量实验表明了 BadRobot 的有效性。警告:本文包含有害的人工智能生成的语言和攻击性行为。