LLM2D

摘要

直接偏好优化 (DPO) 已经被证明是大型语言模型 (LLM) 对齐的有效方法。最近的研究试图将 DPO 应用于多模态场景，但发现难以实现一致的改进。通过比较实验，我们识别了多模态偏好优化中的无条件偏好问题，即模型忽略了图像条件。为了解决这个问题，我们提出了 mDPO，一种多模态 DPO 目标，它通过优化图像偏好来防止过度优先考虑仅语言偏好。此外，我们引入了一个奖励锚点，迫使奖励对选择的响应保持为正，从而避免其可能性降低——这是相对偏好优化的一个固有问题。在两种不同大小的多模态 LLM 和三个广泛使用的基准上的实验表明，mDPO 有效地解决了多模态偏好优化中的无条件偏好问题，并显着提高了模型性能，尤其是在减少幻觉方面。