LLM2D

摘要

具身人工智能代表着将人工智能集成到物理实体中的系统，使它们能够感知并与其周围环境交互。大型语言模型（LLM）表现出强大的语言理解能力，已广泛应用于具身人工智能，以促进复杂的任务规划。然而，一个关键的安全问题被忽视了：这些具身 LLM 会不会犯下有害行为？针对这个问题，我们引入了 BadRobot，一种新颖的攻击范式，旨在通过典型的语音交互使具身 LLM 违反安全和道德约束。具体而言，利用了三种漏洞来实现这种攻击：（i）操纵机器人系统中的 LLM，（ii）语言输出与物理动作之间的错位，以及（iii）由于世界知识缺陷导致的无意有害行为。此外，我们构建了各种恶意物理动作查询的基准，以评估 BadRobot 的攻击性能。基于此基准，针对现有突出具身 LLM 框架（例如，Voxposer、Code as Policies 和 ProgPrompt）的大量实验表明了 BadRobot 的有效性。警告：本文包含有害的人工智能生成的语言和攻击性行为。