LLM2D

摘要

arXiv:2504.04524v1 宣布类型: 横向摘要：近年来，大型语言模型（LLMs）迅速发展，接近通用人工智能（AGI），并借助大规模强化学习来增强人类对齐（HA）和推理能力。最近基于奖励的优化算法，如近端策略优化（PPO）和组相对政策优化（GRPO），在推理任务上取得了显著的性能，而基于偏好的优化算法，如直接偏好优化（DPO），显著提高了LLMs的人类对齐性能。然而，尽管基于奖励的优化方法在对齐任务上的表现很强，它们仍易受到奖励作弊的攻击。此外，基于偏好的算法（例如在线DPO）在推理任务上的性能尚未达到基于奖励的优化算法（如PPO）的水平，使得在这一特定领域仍有值得探索的空间。鉴于这些挑战，我们提出了信任域偏好近似（TRPA）算法，该算法将基于规则的优化与基于偏好的优化结合起来，适用于推理任务。作为基于偏好的算法，TRPA 自然地解决了奖励作弊的问题。TRPA 通过预定义规则构建偏好级别，形成相应的偏好配对，并利用一种新的强化学习训练优化算法，该算法具有理论上的单调改进保障。实验结果表明，TRPA 不仅在推理任务上实现了竞争力的性能，还表现出稳健的稳定性。论文代码已发布并持续更新于 https://github.com/XueruiSu/Trust-Region-Preference-Approximation.git。