摘要
arXiv:2411.06568v2 宣告类型: replace-cross
摘要:在语言模型(LLM)对齐上评估偏好优化(PO)算法是一项具有挑战性的任务,它带来了高昂的成本、噪声及多种变量如模型大小和超参数。在本文中,我们展示了在较为简单的基准测试上获得关于PO算法有效性的洞察是可能的。我们设计了一套基于MuJoCo的任务和数据集,利用这些任务和数据集系统地评估PO算法,建立了更为可控和经济的基准测试。然后,我们提出了一种基于镜像下降的新PO算法家族,称为镜像偏好优化(MPO)。通过进化策略,我们在这一类算法中搜索,发现专为特定偏好数据集属性优化的算法,例如混合质量和噪声数据。我们证明,我们发现的PO算法在目标MuJoCo设置中优于所有已知算法。最后,基于我们在MuJoCo实验中获得的洞察,我们设计了一种新PO算法,在LLM对齐任务中显著优于现有基线。