LLM2D
mDPO:面向多模态大型语言模型的条件偏好优化
mDPO: Conditional Preference Optimization for Multimodal Large Language Models
作者: Fei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2406.11839v2

摘要

直接偏好优化 (DPO) 已经被证明是大型语言模型 (LLM) 对齐的有效方法。最近的研究试图将 DPO 应用于多模态场景,但发现难以实现一致的改进。通过比较实验,我们识别了多模态偏好优化中的无条件偏好问题,即模型忽略了图像条件。为了解决这个问题,我们提出了 mDPO,一种多模态 DPO 目标,它通过优化图像偏好来防止过度优先考虑仅语言偏好。此外,我们引入了一个奖励锚点,迫使奖励对选择的响应保持为正,从而避免其可能性降低——这是相对偏好优化的一个固有问题。在两种不同大小的多模态 LLM 和三个广泛使用的基准上的实验表明,mDPO 有效地解决了多模态偏好优化中的无条件偏好问题,并显着提高了模型性能,尤其是在减少幻觉方面。