摘要
近年来,偏好对齐方面的突破显著提升了大型语言模型生成符合人类偏好和价值观的文本的能力。然而,当前的对齐指标通常强调事后的整体改进,而忽略了一个关键方面:回归,指的是更新后在先前正确处理的数据上出现倒退。这种潜在的缺陷可能源于对已经对齐良好的数据进行过度微调,从而导致过度对齐和退化。为了应对这一挑战,我们提出了FlipGuard,一种通过焦点注意力来检测和缓解更新回归的约束优化方法。具体来说,FlipGuard使用定制的奖励特征识别性能下降,并在训练过程中战略性地施加约束,以鼓励与预对齐模型的条件一致性。综合实验表明,FlipGuard有效地缓解了更新回归,同时展现出优异的整体性能,并具有在对齐偏好的同时保留知识的额外优势。