摘要
近年来,在机器人领域,视觉-语言-动作(VLA)模型已成为一种变革性方法,使机器人能够通过在端到端学习框架内整合视觉和语言输入来执行复杂任务。虽然VLA模型具有显著的能力,但它们也引入了新的攻击面,使其容易受到对抗性攻击。由于这些漏洞在很大程度上未被探索,本文系统地量化了基于VLA的机器人系统的鲁棒性。认识到机器人执行的独特需求,我们的攻击目标针对机器人系统的固有空间和功能特性。特别是,我们引入了一种非目标位置感知攻击目标,利用空间基础来破坏机器人的动作,以及一种操纵机器人轨迹的目标攻击目标。此外,我们设计了一种对抗性补丁生成方法,该方法将一个小而彩色的补丁放置在摄像机的视野内,有效地在数字和物理环境中执行攻击。我们的评估揭示了任务成功率的显著下降,在一套模拟机器人任务中下降高达100%,突出了当前VLA架构中的关键安全漏洞。通过揭示这些漏洞并提出可操作的评估指标,这项工作促进了对基于VLA的机器人系统安全性的理解和增强,强调了在物理世界部署之前开发强大的防御策略的必要性。