LLM2D

摘要

arXiv:2502.01558v1 类型: cross 摘要: 在深度强化学习（DRL）中，样本效率低下一直是一个长期存在的挑战。尽管取得了巨大的进步，但该问题尚未得到解决，特别是在稀疏奖励或延迟奖励的环境中尤为具有挑战性。在我们的工作中，我们提出使用对抗性估计作为一种新的、简单且高效的手段，来缓解反馈基础的DRL算法中该问题。我们的方法利用一小集人类收集的轨迹的潜在相似性搜索来提升学习效果，仅使用五分钟的人类记录的经验。研究结果表明，使用对抗性估计训练的算法比其原始版本收敛更快。此外，我们讨论了我们的方法如何在极稀疏奖励的极端场景中使反馈基础的算法能够学习。