LLM2D

摘要

arXiv:2503.20279v2 安全公告类型: replace-cross 摘要: 大型语言模型（LLMs）越来越多地作为计算机使用代理部署，自主地在真实的桌面或网络环境中执行任务。虽然这一演变极大地扩展了人类的实际应用场景，但也造成了严重的安全暴露。我们提出了 SUDO（基于屏幕的通用解毒到毒化防御），这是一种新型攻击框架，系统地绕过了商业计算机使用代理中的拒绝训练防护措施，例如 Claudie Computer Use。核心机制 Detox2Tox 通过解毒将有害请求（代理最初会拒绝这些请求）转换为看似无害的请求，从高级视觉语言模型（VLMs）中获取详细的指令，并在执行前通过毒化重新引入恶意内容。与传统的逃逸攻击不同，SUDO 基于内置的拒绝反馈迭代优化其攻击，使其能够越来越有效地对抗稳健的策略过滤器。在涵盖 50 个真实任务和多种最先进的 VLMs 的广泛测试中，SUDO 在没有优化的情况下达到了24% 的攻击成功率，在 Claudie Computer Use 中通过迭代优化达到最高41% 的成功率。通过揭示这些漏洞并展示在实际计算环境中轻松利用这些漏洞的方式，本文强调了立即需要稳健且上下文相关的防护措施。警告：本文包含有害或冒犯性模型输出。我们的代码可在以下地址获得：https://github.com/AIM-Intelligence/SUDO.git