LLM2D

摘要

arXiv:2407.15229v2 宣布类型: replace-cross 摘要：在最先进的人类对齐方法中，偏好优化方法（*PO）处于前沿。以往的研究通常集中在识别表现最佳的方法，这通常涉及对超参数进行网格搜索，但在普适实践中可能不具实用性。在本文中，我们考察了现有最先进的方法在现实世界中的泛化出-of-distribution（OOD）场景下的鲁棒性，该场景与现实世界中的人类对齐应用相对应。我们的目标是通过各种指标（如KL散度和响应长度）来实验性地找到一种能增加更好结果可能性的方法。我们还介绍了LN-DPO，这是一种简化的长度归一化版本的DPO，这种方法在超参数变化时更加稳定，有效减少了平均响应长度，并提高了性能。我们对参考无（即SimPO）和参考依赖（即DPO和LN-DPO）的最先进方法的分析表明，在最佳情况下（即最优场景），它们的表现相似。然而，当我们远离最优场景时，性能变化的模式差异很大。