LLM2D
在强化学习中塑造稀疏奖励:一种半监督方法
Shaping Sparse Rewards in Reinforcement Learning: A Semi-supervised Approach
作者: Wenyun Li, Wenjie Huang
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.19128v1

摘要

arXiv:2501.19128v1 奖励类型:交叉 摘要:在许多现实场景中,代理的奖励信号极为稀疏,这使得学习有效的奖励函数变得具有挑战性,特别是对于奖励塑造而言。为了解决这一问题,我们的方法不仅通过利用非零奖励转换来执行奖励塑造,还结合了半监督学习(SSL)技术以及一种新颖的数据增强方法,从大多数转换和零奖励转换中学习轨迹空间表示,从而提高奖励塑造的有效性。在Atari和机器人操作中的实验结果表明,我们的方法能够有效将奖励塑造推广到稀疏奖励场景,并且与好奇心驱动的方法相比,最高可以达到四倍的性能提升,达到更高的最佳得分。所提出的数据增强双重熵方法提高了性能,相比其他增强方法展示了15.8%的最佳得分提升。