LLM2D

摘要

arXiv:2406.07327v2 Announce Type: replace 摘要：使大型语言模型（LLMs）与人类偏好保持一致引起了广泛关注，以最近端策略优化（PPO）为代表的方法虽标准但计算成本高，而直接偏好优化（DPO）则更高效。尽管DPO具有简单性，但在最先进的LLM中仍被低估使用，表明可能存在局限性。在本文中，我们重新审视了DPO，分析其理论基础和实证性能，以解决这一问题。我们识别出三个关键特性，称为3D特性，这些特性源于DPO的学习过程：拒绝响应可能性急剧下降、响应抑制下降以及对未见过的响应的影响分散效应。我们展示了这些问题是由于DPO优化动态导致的，其中选择和拒绝响应梯度之间的相互作用导致了不稳定性。我们的发现通过在受控玩具模型和实际的LLM任务（包括数学问题解决和指令跟随）上的实验得到了支持。为了应对这些挑战，我们提出了简单正则化技术，以提高训练稳定性和性能。此外，我们还探讨了偏好数据分布如何影响DPO的有效性，提供了关于如何应对域外（OOD）数据的认知。我们的工作将这些观察与更广泛的研究所联系起来，并提供了DPO局限性的理论解释。我们希望这些见解能够指导未来在无奖励模型的偏好学习方面的进步，使其更接近于基于奖励模型的方法。