LLM2D

摘要

偏好优化方法通常以一个经过良好训练的 SFT 模型作为参考模型开始训练。在 RLHF 和 DPO 中，偏好优化过程中使用了一个正则化项，以防止策略模型偏离参考模型的分布过远，从而避免生成异常响应。当参考模型已经与给定数据良好对齐，或者只需要进行微调时，这种方法可以产生一个良好对齐的模型。然而，如果参考模型与给定数据不对齐，并且需要与其当前状态有很大的偏差，那么正则化项实际上可能会阻碍模型对齐。在本研究中，我们提出了 **调制干预偏好优化 (MIPO)** 来解决这个问题。MIPO 根据给定数据与参考模型的对齐程度来调节参考模型的干预程度。如果数据良好对齐，则增加干预以防止策略模型与参考模型有很大差异。相反，如果对齐效果差，则减少干预以促进更广泛的训练。我们使用 Mistral-7B 和 Llama3-8B 在 Alpaca Eval 2.0 和 MT-Bench 中比较了 MIPO 和 DPO 的性能。实验结果表明，MIPO 在各种评估场景中始终优于 DPO。