LLM2D

摘要

arXiv:2505.06273v2 公告类型：替换交叉摘要：为了设计与人类目标相一致的奖励，基于人类反馈的强化学习（RLHF）已经成为从人类偏好中学习奖励函数并通过强化学习算法优化策略的一种重要技术。然而，现有的RLHF方法常常错误地将轨迹解释为由最优策略生成的，导致不准确的似然估计和次优学习。受直接偏好优化框架的启发，该框架可以直接学习最优策略而无需显式的奖励，我们提出了策略标记的偏好学习（PPL），通过使用后悔来建模人类偏好，从而解决似然不匹配的问题，后悔反映了行为策略的信息。我们还提供了一种对比性的KL正则化，它是基于后悔原则推导出来的，以增强连续决策中的RLHF。实验结果在高维连续控制任务中展示了PPL在离线RLHF性能方面的显著改进及其在在线设置中的有效性。