LLM2D
MallowsPO:使用偏好分散性微调你的LLM
MallowsPO: Fine-Tune Your LLM with Preference Dispersions
作者: Haoxian Chen, Hanyang Zhao, Henry Lam, David Yao, Wenpin Tang
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2405.14953v5

摘要

arXiv:2405.14953v5 通知类型: 替换-交叉 摘要: 直接偏好优化(DPO)最近已成为一种流行的改进强化学习与人类反馈(RLHF)的方法,从而更好地对大型语言模型(LLM)进行微调。然而,DPO的一个弱点在于其无法表征人类偏好的多样性。受Mallows偏好排序理论的启发,我们在这篇论文中提出了一种新的方法,即MallowsPO。该方法的一个特点是具有一个分散指数,该指数反映了人类偏好对提示的分散程度。我们展示了现有的DPO模型可以归约为此分散指数的特殊情况,从而与MallowsPO统一。更重要的是,我们通过实验证明了如何使用这个分散指数来增强DPO在一系列基准任务中的性能,从合成臂部选择到可控生成和对话,同时仍保持强大的泛化能力。MallowsPO还与其他最新离线偏好优化方法兼容,在用作微调Llama3-Instruct插件时,其额外提升了约2%的LC获胜率。