摘要
基于语言的机器人学习通过使单个模型能够响应语音指令执行各种任务,显著增强了机器人的适应性。然而,该领域的安全漏洞在很大程度上仍未被探索。本文通过提出一种针对基于语言的机器人模型的新型对抗性提示攻击来解决这一差距。我们的方法涉及设计一个通用的对抗性前缀,当添加到任何原始提示时,都会诱导模型执行意外的动作。我们证明,由于离散化机器人动作空间的固有鲁棒性,现有的对抗性技术在直接转移到机器人领域时效果有限。为了克服这一挑战,我们提出基于连续动作表示来优化对抗性前缀,从而绕过离散化过程。此外,我们确定了中间特征对对抗性攻击的有益影响,并利用中间自注意力特征的负梯度来进一步提高攻击效率。在 13 个机器人操作任务中对 VIMA 模型进行的大量实验验证了我们的方法优于现有方法,并证明了其在不同模型变体上的可迁移性。