摘要
arXiv:2502.07985v1 安全类型:交叉
摘要:我们提出了一种新颖的动力安全框架,在推理时优化语言模型(LM)的安全推理,而无需修改模型权重。基于最近在自我批判方法方面取得的进展,我们的方法利用了一种元批判机制,该机制迭代地更新称为规范的安全提示,以驱动批判和修订过程的适应性。这种测试时的优化不仅在对抗性越狱请求上提高了性能,还在避免道德伤害或追求诚实响应等多样化的通用安全任务上也表现出了显著改进。我们在多个语言模型上的实证评估表明,动态优化的安全提示相比固定系统提示和静态自我批判防御获得了明显更高的安全分数。代码将在 https://github.com/vicgalle/meta-self-critique.git 发布。