摘要
arXiv:2502.07985v2 宣告类型: replace-cross
摘要:我们提出了一种新型动态安全框架,在不修改模型权重的情况下优化语言模型(LM)的安全推理。该方法基于最近在自我批判方法方面的进展,利用了一个元批判机制,该机制迭代更新称为规范的安全提示,以适应地推动批判和修订过程。此测试时优化不仅提高了对对抗性逃狱请求的性能,还在多种通用安全相关任务中也产生了提高,如避免道德危害或追求诚实的回答。我们在几种语言模型上的实证评估表明,动态优化的安全提示比固定系统提示和静态自我批判防御带来了显著更高的安全得分。代码已发布在 https://github.com/vicgalle/meta-self-critique.git 。