LLM2D
攻击性安全
sudo rm -rf agentic_security
作者: Sejin Lee, Jian Kim, Haon Park, Ashkan Yousefpour, Sangyoon Yu, Min Song
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.20279v1

摘要

arXiv:2503.20279v1 安全公告类型: 交叉 摘要: 大型语言模型(LLMs)越来越多地被部署为计算机使用代理,在现实的桌面或网络环境中自主执行任务。这一演变极大地扩展了人类的实际使用案例,但也创造了严重的安全暴露。我们提出了基于屏幕的通用解毒到中毒攻击框架SUDO(Screen-based Universal Detox2Tox Offense),这是一种新颖的攻击框架,系统地绕过了商用计算机使用代理中拒绝训练的防护措施,例如Claude Computer Use。核心机制Detox2Tox将代理最初拒绝的有害请求通过解毒转换为看似无害的请求,从高级视觉语言模型(VLMs)获取详细的指令,然后在执行不久前通过中毒重新引入恶意内容。与传统的出狱攻击不同,SUDO基于内置的拒绝反馈迭代优化其攻击,使其在面对坚固的策略过滤器时越来越有效。在跨越50个实际任务和多个最先进的VLMs的广泛测试中,SUDO在未经优化的情况下实现了24%的攻击成功率,在Claude Computer Use中则达到了最高41%(通过其迭代优化)。通过对这些漏洞的揭示以及示实在世界计算环境中如此容易被利用,本论文强调了亟需构建稳健的、情境感知的安全防护。警告:本文包括有害或冒犯性的模型输出。