摘要
arXiv:2505.04578v1 宣告类型:交叉
摘要:强化学习(RL)微调将大型语言模型进行转换,同时创建出我们实验验证的一个漏洞:我们的实验表明,恶意的RL微调以惊人的效率拆除了安全护栏,仅需50步并使用最少的对抗性提示,有害行为从0-2增长至7-9。这种攻击途径特别对具有参数级访问权限的开源模型构成威胁。现有的针对监督微调的防御措施对RL的动态反馈机制无效。我们提出了奖励中和(Reward Neutralization),这是首个专门针对RL微调攻击设计的防御框架,建立了简明的拒绝模式,使得恶意的奖励信号无效。我们的方法训练模型生成最少信息的拒绝,攻击者无法利用这些拒绝,系统地中和向有害输出优化的企图。实验验证,在200攻击步骤后,我们的方法保持了较低的有害评分(不超过2),而标准模型迅速恶化。本项工作提供了第一个建设性的证明,证明对日益可访问的RL攻击进行稳健防御是可行的,填补了开放权重模型的关键安全漏洞。