LLM2D

摘要

arXiv:2505.06273v1 宣告类型: cross 摘要: 为了设计与人类目标相一致的奖励机制，基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）已成为从人类偏好中学习奖励函数并利用强化学习算法优化策略的一种重要技术。然而，现有的RLHF方法往往错误地将轨迹视为由最优策略生成的，从而导致不准确的似然估计和劣质的学习效果。受到直接偏好优化框架的启发，该框架直接学习最优策略而无需显式奖励，我们提出了策略标记的偏好学习（PPL），通过使用遗憾来建模人类偏好，从而解决似然不匹配问题，遗憾反映了行为策略的信息。我们还提供了一种对比KL正则化，该正则化源自于基于遗憾的原则，以增强在序贯决策制定过程中RLHF的表现。在高维连续控制任务中的实验表明，PPL在离线RLHF性能方面取得了显著的改进，并且在在线设置中具有有效性。