摘要
arXiv:2501.19128v1 奖励类型:交叉
摘要:在许多现实场景中,代理的奖励信号极为稀疏,这使得学习有效的奖励函数变得具有挑战性,特别是对于奖励塑造而言。为了解决这一问题,我们的方法不仅通过利用非零奖励转换来执行奖励塑造,还结合了半监督学习(SSL)技术以及一种新颖的数据增强方法,从大多数转换和零奖励转换中学习轨迹空间表示,从而提高奖励塑造的有效性。在Atari和机器人操作中的实验结果表明,我们的方法能够有效将奖励塑造推广到稀疏奖励场景,并且与好奇心驱动的方法相比,最高可以达到四倍的性能提升,达到更高的最佳得分。所提出的数据增强双重熵方法提高了性能,相比其他增强方法展示了15.8%的最佳得分提升。