摘要
arXiv:2505.05465v1 交叉公告类型:
摘要:直接对齐方法越来越多地用于使大型语言模型(LLMs)与人类偏好一致。然而,这些方法存在冗长性和似然性偏移的问题,这些问题可能是由于噪声偏好对导致了优选和非优选响应相似的似然性。本文的贡献有两个方面。首先,我们提出了一种新的基于比较或acles的偏好对齐方法,并为其基本方案提供了收敛性保证。其次,我们改进了该方法并采用了一些启发式方法进行实验,以证明使用噪声偏好对改进LLMs性能的实际方案的灵活性和兼容性。我们在多个基础和指令调整模型(Mistral-7B、Llama-3-8B 和 Gemma-2-9B)以及基准测试(AlpacaEval 2、MT-Bench 和 Arena-Hard)上进行了评估。实验结果显示,我们的方法作为解决现有直接对齐方法局限性的替代方案的有效性。我们的工作的一大亮点是,我们证明了设计专门针对具有不同似然性边际的偏好对齐方法的重要性,这补充了《Razin-2025-Unintentional》最近的研究成果。