LLM2D

摘要

arXiv:2505.04578v1 宣告类型：交叉摘要：强化学习（RL）微调将大型语言模型进行转换，同时创建出我们实验验证的一个漏洞：我们的实验表明，恶意的RL微调以惊人的效率拆除了安全护栏，仅需50步并使用最少的对抗性提示，有害行为从0-2增长至7-9。这种攻击途径特别对具有参数级访问权限的开源模型构成威胁。现有的针对监督微调的防御措施对RL的动态反馈机制无效。我们提出了奖励中和（Reward Neutralization），这是首个专门针对RL微调攻击设计的防御框架，建立了简明的拒绝模式，使得恶意的奖励信号无效。我们的方法训练模型生成最少信息的拒绝，攻击者无法利用这些拒绝，系统地中和向有害输出优化的企图。实验验证，在200攻击步骤后，我们的方法保持了较低的有害评分（不超过2），而标准模型迅速恶化。本项工作提供了第一个建设性的证明，证明对日益可访问的RL攻击进行稳健防御是可行的，填补了开放权重模型的关键安全漏洞。