LLM2D

摘要

直接偏好优化（DPO）最近成为改进人类反馈强化学习（RLHF）的一种流行方法，从而产生了更好的技术来微调大型语言模型（LLM）。然而，DPO 的一个弱点在于它缺乏表征人类偏好多样性的能力。受马洛斯偏好排序理论的启发，本文提出了一种新的方法，即马洛斯偏好优化（MallowsPO）。该方法的一个显著特点是分散指数，它反映了人类对提示的偏好分散程度。我们证明了现有的 DPO 模型可以简化为该分散指数的特例，从而与 MallowsPO 统一起来。更重要的是，我们证明了如何利用该分散指数来提高 DPO 在各种基准任务中的性能，从合成强盗选择到可控生成和对话，同时保持良好的泛化能力。MallowsPO 也与其他最先进的离线偏好优化方法兼容，在用作微调 Llama3-Instruct 的插件时，额外提高了近 2% 的 LC 胜率。