摘要
arXiv:2409.12798v1 公告类型: 交叉 摘要: 时间信用分配问题是强化学习(RL)中的核心挑战,涉及在轨迹中为每个动作分配适当的影响力,以实现目标。然而,当反馈延迟且稀疏时,学习信号较差,动作评估变得更加困难。传统的解决方案,如奖励塑造和选项,需要大量的领域知识和人工干预,限制了其可扩展性和适用性。在这项工作中,我们奠定了语言模型信用分配(CALM)的基础,这是一种利用大型语言模型(LLMs)通过奖励塑造和选项发现自动化信用分配的新方法。CALM使用LLMs将任务分解为基本子目标,并在状态-动作转换中评估这些子目标的实现情况。每次选项终止时,子目标达成,CALM提供一个辅助奖励。这种额外的奖励信号可以在任务奖励稀疏和延迟的情况下增强学习过程,而无需人工设计的奖励。我们使用来自MiniHack的人类注释演示数据集对CALM进行了初步评估,表明LLMs在零样本设置中可以有效地进行信用分配,无需示例或LLM微调。我们的初步结果表明,LLMs的知识是RL中信用分配的一个有前途的先验,有助于将人类知识转移到价值函数中。