LLM2D

摘要

arXiv:2411.06568v2 宣告类型: replace-cross 摘要：在语言模型（LLM）对齐上评估偏好优化（PO）算法是一项具有挑战性的任务，它带来了高昂的成本、噪声及多种变量如模型大小和超参数。在本文中，我们展示了在较为简单的基准测试上获得关于PO算法有效性的洞察是可能的。我们设计了一套基于MuJoCo的任务和数据集，利用这些任务和数据集系统地评估PO算法，建立了更为可控和经济的基准测试。然后，我们提出了一种基于镜像下降的新PO算法家族，称为镜像偏好优化（MPO）。通过进化策略，我们在这一类算法中搜索，发现专为特定偏好数据集属性优化的算法，例如混合质量和噪声数据。我们证明，我们发现的PO算法在目标MuJoCo设置中优于所有已知算法。最后，基于我们在MuJoCo实验中获得的洞察，我们设计了一种新PO算法，在LLM对齐任务中显著优于现有基线。