LLM2D
当然我可以!拒绝机制可以用无害的微调数据加以利用
No, of course I can! Refusal Mechanisms Can Be Exploited Using Harmless Fine-Tuning Data
作者: Joshua Kazdan, Lisa Yu, Rylan Schaeffer, Chris Cundy, Sanmi Koyejo, Krishnamurthy Dvijotham
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2502.19537v3

摘要

arXiv:2502.19537v3 通告类型: replace-cross 摘要:像OpenAI和Google这样的领先语言模型(LM)提供商提供了微调接口,允许客户将LM适应特定的应用场景。为了防止滥用,这些LM提供商实现了一些过滤机制来阻止有害的微调数据。因此,试图通过这些接口生成不安全LM的攻击者必须构造无法识别为有害的恶意训练数据。在此背景下,我们做出了三项贡献:1. 我们表明,许多现有的攻击方法依赖于消除模型在其响应的前几个词中的拒绝回应,从而创建不安全的LM。2. 我们表明,可以通过一个简单的防御措施来阻止这些先前的攻击,该措施在允许微调模型填充剩余内容之前,使用对齐模型填充前几个词。3. 我们描述了一种新的数据中毒攻击,“No, Of course I Can Execute”(NOICE),它利用LM的公式化拒绝机制来诱使产生有害的回应。通过训练LM在确保安全之前拒绝正当请求,即使在满足这些请求的情况下,我们能够突破几种开源模型和一个闭源模型(GPT-4o)。我们对GPT-4o的攻击成功率(ASR)达到了57%;我们的攻击赢得了OpenAI的漏洞赏金。针对受简单防御措施保护的开源模型,我们将ASR平均提高了3.25倍,这比之前的仅使用无害数据的最佳攻击要好。NOICE展示了重复拒绝机制的可利用性,并扩展了对无害数据可能给闭源模型带来的威胁的理解。