摘要
arXiv:2502.04371v1 通告类型: 新
摘要: 本文介绍了感知偏好优化 (PerPO),这是一种旨在解决生成预训练多模态大型语言模型 (MLLMs) 视觉辨别挑战的感知对齐方法。为了使 MLLMs 与人类的视觉感知过程对齐,PerPO 采用辨别性奖励来收集多样化的负面样本,随后通过列表偏好优化对这些样本进行排序。通过将奖励作为排序的定量边界,我们的方法有效地将生成偏好优化与辨别性经验风险最小化相结合。PerPO 显著增强了 MLLMs 的视觉辨别能力,同时保持了其生成优势,减轻了图像无条件奖励劫持,并确保其在视觉任务上的表现始终如一。这项工作标志着向更具感知对齐和多功能的 MLLMs 又迈出了重要一步。我们还希望 PerPO 能够鼓励社区重新思考 MLLM 的对齐策略。