LLM2D
BadRobot: 在物理世界中破解具身的LLMs
BadRobot: Jailbreaking Embodied LLMs in the Physical World
作者: Hangtao Zhang, Chenyu Zhu, Xianlong Wang, Ziqi Zhou, Changgan Yin, Minghui Li, Lulu Xue, Yichen Wang, Shengshan Hu, Aishan Liu, Peijin Guo, Leo Yu Zhang
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2407.20242v4

摘要

arXiv:2407.20242v4 公告类型: replace-cross 摘要:具身AI表示将AI集成到物理实体中的系统。大型语言模型(LLM),因其强大的语言理解能力,已被广泛应用于具身AI,通过促进复杂的任务规划。然而,仍然存在一个关键的安全问题:这些具身LLM是否会执行有害行为?为应对这一问题,我们提出了BadRobot,这是一种新型攻击范式,旨在通过典型的基于语音的用户-系统交互使具身LLM违反安全和伦理约束。具体而言,利用了三种漏洞来实现这种类型的攻击:(i)在机器人系统中操纵LLM;(ii)语言输出与物理动作之间的对齐不一致;(iii)由于世界知识的缺陷引起的无意危险行为。此外,我们构建了一个包含各种恶意物理动作查询的基准,以评估BadRobot的攻击性能。基于此基准,针对现有知名具身LLM框架(如Voxposer、Code as Policies和ProgPrompt)进行了大量实验,证明了BadRobot的有效性。