LLM2D

摘要

arXiv:2503.18612v1 类型: cross 摘要：深度强化学习的近期进展在学习复杂的先前无法解决的问题方面非常成功。然而，样本效率和局部最优仍然是重要的挑战。为了应对这些挑战，基于新颖性驱动的探索策略已经出现并显示出巨大的潜力。不幸的是，在所有任务上，没有任何单一算法能超越其他算法的表现，并且大多数算法在高维度和复杂观察的任务上表现挣扎。在这项工作中，我们提出了一种基于双向生成对抗网络（BiGAN）的新颖性驱动探索算法Adventurer，其中BiGAN被训练以估计状态的新颖性。直观地说，已经在访问状态的分布上进行训练的生成器只能生成来自访问状态分布的状态。因此，使用生成器从某些潜在表示重构输入状态会产生更大的重构误差。我们展示了BiGAN在估计复杂观察的状态新颖性方面表现出色。这种新颖性估计方法可以与基于内在奖励的探索结合使用。我们的实验结果显示，Adventurer在包括连续机器人操作任务（例如Mujoco机器人）和高维度图像基任务（例如Atari游戏）的一系列流行的基准任务上产生了具有竞争力的结果。