LLM2D
一种对*PO中人类对齐的实用分析
A Practical Analysis of Human Alignment with *PO
作者: Kian Ahrabian, Xihui Lin, Barun Patra, Vishrav Chaudhary, Alon Benhaim, Jay Pujara, Xia Song
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2407.15229v2

摘要

arXiv:2407.15229v2 宣布类型: replace-cross 摘要:在最先进的人类对齐方法中,偏好优化方法(*PO)处于前沿。以往的研究通常集中在识别表现最佳的方法,这通常涉及对超参数进行网格搜索,但在普适实践中可能不具实用性。在本文中,我们考察了现有最先进的方法在现实世界中的泛化出-of-distribution(OOD)场景下的鲁棒性,该场景与现实世界中的人类对齐应用相对应。我们的目标是通过各种指标(如KL散度和响应长度)来实验性地找到一种能增加更好结果可能性的方法。我们还介绍了LN-DPO,这是一种简化的长度归一化版本的DPO,这种方法在超参数变化时更加稳定,有效减少了平均响应长度,并提高了性能。我们对参考无(即SimPO)和参考依赖(即DPO和LN-DPO)的最先进方法的分析表明,在最佳情况下(即最优场景),它们的表现相似。然而,当我们远离最优场景时,性能变化的模式差异很大。