LLM2D

摘要

arXiv:2503.20279v1 安全公告类型: 交叉摘要: 大型语言模型(LLMs)越来越多地被部署为计算机使用代理，在现实的桌面或网络环境中自主执行任务。这一演变极大地扩展了人类的实际使用案例，但也创造了严重的安全暴露。我们提出了基于屏幕的通用解毒到中毒攻击框架SUDO(Screen-based Universal Detox2Tox Offense)，这是一种新颖的攻击框架，系统地绕过了商用计算机使用代理中拒绝训练的防护措施，例如Claude Computer Use。核心机制Detox2Tox将代理最初拒绝的有害请求通过解毒转换为看似无害的请求，从高级视觉语言模型(VLMs)获取详细的指令，然后在执行不久前通过中毒重新引入恶意内容。与传统的出狱攻击不同，SUDO基于内置的拒绝反馈迭代优化其攻击，使其在面对坚固的策略过滤器时越来越有效。在跨越50个实际任务和多个最先进的VLMs的广泛测试中，SUDO在未经优化的情况下实现了24%的攻击成功率，在Claude Computer Use中则达到了最高41%（通过其迭代优化）。通过对这些漏洞的揭示以及示实在世界计算环境中如此容易被利用，本论文强调了亟需构建稳健的、情境感知的安全防护。警告：本文包括有害或冒犯性的模型输出。