LLM2D

摘要

arXiv:2501.19128v1 奖励类型：交叉摘要：在许多现实场景中，代理的奖励信号极为稀疏，这使得学习有效的奖励函数变得具有挑战性，特别是对于奖励塑造而言。为了解决这一问题，我们的方法不仅通过利用非零奖励转换来执行奖励塑造，还结合了半监督学习（SSL）技术以及一种新颖的数据增强方法，从大多数转换和零奖励转换中学习轨迹空间表示，从而提高奖励塑造的有效性。在Atari和机器人操作中的实验结果表明，我们的方法能够有效将奖励塑造推广到稀疏奖励场景，并且与好奇心驱动的方法相比，最高可以达到四倍的性能提升，达到更高的最佳得分。所提出的数据增强双重熵方法提高了性能，相比其他增强方法展示了15.8%的最佳得分提升。