LLM2D

摘要

arXiv:2406.01660v4 宣布类型: 替换-交叉摘要：在线和离线RLHF方法，如PPO和DPO，在使AI与人类偏好保持一致方面取得了巨大成功。尽管取得了这些成就，这些方法仍然存在根本性的局限性：(a) 使用RLHF训练的模型可以在训练过程中通过RL机制或对比损失学习从错误或负面示例中吸取教训。但在推理阶段，它们缺乏内在的自我改进机制来进行错误修正。(b) 现有方法的最优解高度依赖于特定任务，这使得它们难以泛化到新任务。为了解决这些挑战，我们提出了Self-Improving Robust Preference Optimization (SRPO)，这是一种实用且具有数学原理的离线RLHF框架。SRPO的核心思想是将从人类偏好中学习的过程视为一个自我改进的过程，数学上表示为一种联合优化自我改进策略和生成策略的对抗性最小-最大目标。最关键的是，该优化问题的解与训练任务无关，这使其对任务的变化具有鲁棒性。然后我们证明，可以通过重新表述为非对抗性的离线损失来实现这一目标，这种损失可以利用大规模的标准监督学习技术进行高效优化。为了展示SRPO的有效性，我们使用AI胜率(WR)与人类(GOLD)完成情况进行了评估。在对XSum数据集进行测试时，SRPO在进行了5次自我修订后，比DPO高出15%，取得了令人印象深刻的90% WR。此外，在具有挑战性的Arena-Hard提示下，SRPO在没有修订的情况下比DPO和IPO分别高出4%和6%，并在单次修订后达到了56% WR，与Llama-3.1-8B-Instruct的较量中取得了胜利。