摘要
偏好优化方法通常以一个经过良好训练的 SFT 模型作为参考模型开始训练。在 RLHF 和 DPO 中,偏好优化过程中使用了一个正则化项,以防止策略模型偏离参考模型的分布过远,从而避免生成异常响应。当参考模型已经与给定数据良好对齐,或者只需要进行微调时,这种方法可以产生一个良好对齐的模型。然而,如果参考模型与给定数据不对齐,并且需要与其当前状态有很大的偏差,那么正则化项实际上可能会阻碍模型对齐。在本研究中,我们提出了 **调制干预偏好优化 (MIPO)** 来解决这个问题。MIPO 根据给定数据与参考模型的对齐程度来调节参考模型的干预程度。如果数据良好对齐,则增加干预以防止策略模型与参考模型有很大差异。相反,如果对齐效果差,则减少干预以促进更广泛的训练。我们使用 Mistral-7B 和 Llama3-8B 在 Alpaca Eval 2.0 和 MT-Bench 中比较了 MIPO 和 DPO 的性能。实验结果表明,MIPO 在各种评估场景中始终优于 DPO。