LLM2D

摘要

arXiv:2502.19255v2 通告类型: replace-cross 摘要：样本效率对于从人类反馈强化学习（RLHF）进行在线强化学习至关重要。虽然现有工作研究了样本高效的在线探索策略，但利用那些不完美但相关的回报模型来加速学习的潜力尚未得到充分探索。本文研究了如何在在线RLHF中转移这些不完美的回报模型的知识。我们首先识别出KL正则化RLHF目标的一个新颖性质：**一个策略对其最优策略的可覆盖性由其非最优性来表征**。基于这一洞见，我们提出了新的转移学习原则以及一个具有可证明优势的标准在线学习算法。我们的方法在早期阶段通过快速适应现有的最佳来源回报模型而实现低遗憾，而随着时间的推移，它能够获得一个与结构复杂度度量无关的\(\tilde{O}(\sqrt{T})\)遗憾上界。实验上，受理论发现的启发，我们开发了一种基于胜率的转移策略选择方法，提高了计算效率。此外，我们的经验中的转移学习技术是模块化的，并可以与各种策略优化方法（如DPO、IPO和XPO）相结合，进一步增强其性能。我们通过在总结任务中的实验验证了我们方法的有效性。