LLM2D
imperfect Reward Models 里的情态动词“imperfect”在这里作为形容词,表示“不完美的”,所以直译过来就是“不完美的奖赏模型”。但是,通常我们会根据上下文将其翻译得更加自然和通顺。 “Can RLHF be More Efficient with Imperfect Reward Models?” 可以翻译为: 不完美的奖赏模型下,RLHF 可以更加高效吗? 完整的标题翻译为: 不完美的奖赏模型下,_rlhf可以更加高效吗?从策略覆盖度 perspective 视角看 _。 注:这里的“_rlhf”是RLHF(Reinforcement Learning from Human Feedback)的缩写形式,在中文中通常会直接展开,即“强化学习来自人类反馈”。而“从策略覆盖度 perspective 视角看”是将“A Policy Coverage Perspective”进行了翻译和调整,使其更符合中文的表达习惯。
Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective
作者: Jiawei Huang, Bingcong Li, Christoph Dann, Niao He
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2502.19255v2

摘要

arXiv:2502.19255v2 通告类型: replace-cross 摘要:样本效率对于从人类反馈强化学习(RLHF)进行在线强化学习至关重要。虽然现有工作研究了样本高效的在线探索策略,但利用那些不完美但相关的回报模型来加速学习的潜力尚未得到充分探索。本文研究了如何在在线RLHF中转移这些不完美的回报模型的知识。我们首先识别出KL正则化RLHF目标的一个新颖性质:**一个策略对其最优策略的可覆盖性由其非最优性来表征**。基于这一洞见,我们提出了新的转移学习原则以及一个具有可证明优势的标准在线学习算法。我们的方法在早期阶段通过快速适应现有的最佳来源回报模型而实现低遗憾,而随着时间的推移,它能够获得一个与结构复杂度度量无关的\(\tilde{O}(\sqrt{T})\)遗憾上界。实验上,受理论发现的启发,我们开发了一种基于胜率的转移策略选择方法,提高了计算效率。此外,我们的经验中的转移学习技术是模块化的,并可以与各种策略优化方法(如DPO、IPO和XPO)相结合,进一步增强其性能。我们通过在总结任务中的实验验证了我们方法的有效性。