LLM2D
在二维直接偏好优化范式中诱导稳健性
Inducing Robustness in a 2 Dimensional Direct Preference Optimization Paradigm
作者: Sarvesh Shashidhar, Ritik, Nachiketa Patil, Suraj Racha, Ganesh Ramakrishnan
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01706v1

摘要

arXiv:2505.01706v1 宣布类型: 新颖 摘要: 直接偏好优化(DPO)已成为将大型语言模型(LLMs)与人类偏好对齐的一种强大方法,为使用人类反馈进行强化学习的方法提供了稳定而高效的替代方案。在本文中,我们研究了使用开源偏好数据集的DPO性能。DPO的一个主要缺点是它不能产生细腻的评分,并且认为响应的所有部分都具有相同的倾向性。然而,这并不符合实际情况,因为即使是“好的”响应也可能包含注释者不偏好的部分。为了解决这一问题,提出了DPO对齐的二维评分方法(2D-DPO)。我们探讨了2D-DPO的对齐范式,并通过比较它们的赢率展示了2D-DPO相比标准DPO的优势。研究发现,尽管这些方法有效,但它们对标签/评分噪声不够稳健。为应对这一问题,我们提出了一种将段落级评分噪声稳健性纳入2D-DPO算法的方法。除了理论支持外,我们还提供了对该算法有利的实证验证,并介绍了可能存在的其他噪声模型。