LLM2D
自我提升稳健偏好优化
Self-Improving Robust Preference Optimization
作者: Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2406.01660v4

摘要

arXiv:2406.01660v4 宣布类型: 替换-交叉 摘要:在线和离线RLHF方法,如PPO和DPO,在使AI与人类偏好保持一致方面取得了巨大成功。尽管取得了这些成就,这些方法仍然存在根本性的局限性:(a) 使用RLHF训练的模型可以在训练过程中通过RL机制或对比损失学习从错误或负面示例中吸取教训。但在推理阶段,它们缺乏内在的自我改进机制来进行错误修正。(b) 现有方法的最优解高度依赖于特定任务,这使得它们难以泛化到新任务。为了解决这些挑战,我们提出了Self-Improving Robust Preference Optimization (SRPO),这是一种实用且具有数学原理的离线RLHF框架。SRPO的核心思想是将从人类偏好中学习的过程视为一个自我改进的过程,数学上表示为一种联合优化自我改进策略和生成策略的对抗性最小-最大目标。最关键的是,该优化问题的解与训练任务无关,这使其对任务的变化具有鲁棒性。然后我们证明,可以通过重新表述为非对抗性的离线损失来实现这一目标,这种损失可以利用大规模的标准监督学习技术进行高效优化。为了展示SRPO的有效性,我们使用AI胜率(WR)与人类(GOLD)完成情况进行了评估。在对XSum数据集进行测试时,SRPO在进行了5次自我修订后,比DPO高出15%,取得了令人印象深刻的90% WR。此外,在具有挑战性的Arena-Hard提示下,SRPO在没有修订的情况下比DPO和IPO分别高出4%和6%,并在单次修订后达到了56% WR,与Llama-3.1-8B-Instruct的较量中取得了胜利。