摘要
arXiv:2504.04524v1 宣布类型: 横向
摘要:近年来,大型语言模型(LLMs)迅速发展,接近通用人工智能(AGI),并借助大规模强化学习来增强人类对齐(HA)和推理能力。最近基于奖励的优化算法,如近端策略优化(PPO)和组相对政策优化(GRPO),在推理任务上取得了显著的性能,而基于偏好的优化算法,如直接偏好优化(DPO),显著提高了LLMs的人类对齐性能。然而,尽管基于奖励的优化方法在对齐任务上的表现很强,它们仍易受到奖励作弊的攻击。此外,基于偏好的算法(例如在线DPO)在推理任务上的性能尚未达到基于奖励的优化算法(如PPO)的水平,使得在这一特定领域仍有值得探索的空间。鉴于这些挑战,我们提出了信任域偏好近似(TRPA)算法,该算法将基于规则的优化与基于偏好的优化结合起来,适用于推理任务。作为基于偏好的算法,TRPA 自然地解决了奖励作弊的问题。TRPA 通过预定义规则构建偏好级别,形成相应的偏好配对,并利用一种新的强化学习训练优化算法,该算法具有理论上的单调改进保障。实验结果表明,TRPA 不仅在推理任务上实现了竞争力的性能,还表现出稳健的稳定性。论文代码已发布并持续更新于 https://github.com/XueruiSu/Trust-Region-Preference-Approximation.git。