LLM2D
MallowsPO:利用偏好分散微调你的大型语言模型
MallowsPO: Fine-Tune Your LLM with Preference Dispersions
作者: Haoxian Chen, Hanyang Zhao, Henry Lam, David Yao, Wenpin Tang
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2405.14953v3

摘要

直接偏好优化(DPO)最近成为改进人类反馈强化学习(RLHF)的一种流行方法,从而产生了更好的技术来微调大型语言模型(LLM)。然而,DPO 的一个弱点在于它缺乏表征人类偏好多样性的能力。受马洛斯偏好排序理论的启发,本文提出了一种新的方法,即马洛斯偏好优化(MallowsPO)。该方法的一个显著特点是分散指数,它反映了人类对提示的偏好分散程度。我们证明了现有的 DPO 模型可以简化为该分散指数的特例,从而与 MallowsPO 统一起来。更重要的是,我们证明了如何利用该分散指数来提高 DPO 在各种基准任务中的性能,从合成强盗选择到可控生成和对话,同时保持良好的泛化能力。MallowsPO 也与其他最先进的离线偏好优化方法兼容,在用作微调 Llama3-Instruct 的插件时,额外提高了近 2% 的 LC 胜率。