LLM2D

摘要

arXiv:2505.01706v1 宣布类型: 新颖摘要: 直接偏好优化（DPO）已成为将大型语言模型（LLMs）与人类偏好对齐的一种强大方法，为使用人类反馈进行强化学习的方法提供了稳定而高效的替代方案。在本文中，我们研究了使用开源偏好数据集的DPO性能。DPO的一个主要缺点是它不能产生细腻的评分，并且认为响应的所有部分都具有相同的倾向性。然而，这并不符合实际情况，因为即使是“好的”响应也可能包含注释者不偏好的部分。为了解决这一问题，提出了DPO对齐的二维评分方法（2D-DPO）。我们探讨了2D-DPO的对齐范式，并通过比较它们的赢率展示了2D-DPO相比标准DPO的优势。研究发现，尽管这些方法有效，但它们对标签/评分噪声不够稳健。为应对这一问题，我们提出了一种将段落级评分噪声稳健性纳入2D-DPO算法的方法。除了理论支持外，我们还提供了对该算法有利的实证验证，并介绍了可能存在的其他噪声模型。