LLM2D

摘要

arXiv:2405.14953v5 通知类型: 替换-交叉摘要: 直接偏好优化（DPO）最近已成为一种流行的改进强化学习与人类反馈（RLHF）的方法，从而更好地对大型语言模型（LLM）进行微调。然而，DPO的一个弱点在于其无法表征人类偏好的多样性。受Mallows偏好排序理论的启发，我们在这篇论文中提出了一种新的方法，即MallowsPO。该方法的一个特点是具有一个分散指数，该指数反映了人类偏好对提示的分散程度。我们展示了现有的DPO模型可以归约为此分散指数的特殊情况，从而与MallowsPO统一。更重要的是，我们通过实验证明了如何使用这个分散指数来增强DPO在一系列基准任务中的性能，从合成臂部选择到可控生成和对话，同时仍保持强大的泛化能力。MallowsPO还与其他最新离线偏好优化方法兼容，在用作微调Llama3-Instruct插件时，其额外提升了约2%的LC获胜率。