LLM2D
元学习目标以优化偏好
Meta-Learning Objectives for Preference Optimization
作者: Carlo Alfano, Silvia Sapora, Jakob Nicolaus Foerster, Patrick Rebeschini, Yee Whye Teh
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2411.06568v2

摘要

arXiv:2411.06568v2 宣告类型: replace-cross 摘要:在语言模型(LLM)对齐上评估偏好优化(PO)算法是一项具有挑战性的任务,它带来了高昂的成本、噪声及多种变量如模型大小和超参数。在本文中,我们展示了在较为简单的基准测试上获得关于PO算法有效性的洞察是可能的。我们设计了一套基于MuJoCo的任务和数据集,利用这些任务和数据集系统地评估PO算法,建立了更为可控和经济的基准测试。然后,我们提出了一种基于镜像下降的新PO算法家族,称为镜像偏好优化(MPO)。通过进化策略,我们在这一类算法中搜索,发现专为特定偏好数据集属性优化的算法,例如混合质量和噪声数据。我们证明,我们发现的PO算法在目标MuJoCo设置中优于所有已知算法。最后,基于我们在MuJoCo实验中获得的洞察,我们设计了一种新PO算法,在LLM对齐任务中显著优于现有基线。