摘要
arXiv:2407.15229v2 宣布类型: replace-cross
摘要:在最先进的人类对齐方法中,偏好优化方法(*PO)处于前沿。以往的研究通常集中在识别表现最佳的方法,这通常涉及对超参数进行网格搜索,但在普适实践中可能不具实用性。在本文中,我们考察了现有最先进的方法在现实世界中的泛化出-of-distribution(OOD)场景下的鲁棒性,该场景与现实世界中的人类对齐应用相对应。我们的目标是通过各种指标(如KL散度和响应长度)来实验性地找到一种能增加更好结果可能性的方法。我们还介绍了LN-DPO,这是一种简化的长度归一化版本的DPO,这种方法在超参数变化时更加稳定,有效减少了平均响应长度,并提高了性能。我们对参考无(即SimPO)和参考依赖(即DPO和LN-DPO)的最先进方法的分析表明,在最佳情况下(即最优场景),它们的表现相似。然而,当我们远离最优场景时,性能变化的模式差异很大。