摘要
arXiv:2503.22723v1 宣传类型:横跨领域
摘要:强化学习经常面临着奖励不匹配的挑战,其中智能体优化给定的奖励但未能表现出期望的行为。当奖励函数激励偏离真实目标的代理行为时,这种情况尤为常见。虽然有人类在环(HIL)方法可以有所帮助,但它们可能会加剧这一问题,因为人类容易受到可能导致不一致、主观或不匹配反馈的偏差的影响,这复杂化了学习过程。为了解决这些问题,我们提出了两个关键贡献。首先,我们拓宽了零样本、即用型大语言模型(LLMs)在奖励塑造中的应用,不仅限于自然语言处理(NLP),还扩展到连续控制任务中。利用LLMs直接提供反馈,我们替代了基于人类反馈训练的代理模型,这些模型往往受到其训练数据中的偏差影响。其次,我们引入了一种混合框架(LLM-HFBF),该框架允许LLMs识别并纠正人类反馈中的偏差,同时将这些反馈纳入奖励塑造过程中。LLM-HFBF框架通过解决LLMs(如缺乏领域特定知识)和人类监督(如固有的偏差)的局限性,创建了一个更为平衡和可靠的系统。通过使人类反馈偏差标记和纠正成为可能,我们的方法提高了强化学习的性能并减少了对潜在有偏差的人类指导的依赖。实验证明,有偏差的人类反馈显著降低了性能,平均时段奖励(AER)从无偏方法的28.472下降到有保守偏差的7.039。相比之下,基于LLM的方法即使在自定义边缘案例场景中也能保持与无偏反馈匹配的AER。