摘要
我们解决了一个离线学习策略以避免不良示范的问题。与旨在模仿专家或近似最优示范的传统离线模仿学习方法不同,我们的设定涉及避免不良行为(使用不良示范指定)。为了解决这个问题,与标准模仿学习的目标是最大程度地减少学习策略与专家示范之间的距离不同,我们将学习任务表述为最大化状态-动作稳态分布空间中学习策略与不良策略之间的统计距离。这种截然不同的方法导致了一个新颖的训练目标,需要一个新的算法来解决它。我们的算法 UNIQ 在逆 Q 学习框架的基础上解决了这些挑战,将学习问题构建为一个合作(非对抗性)任务。然后,我们演示了如何有效地利用未标记数据进行实际训练。我们的方法在标准基准环境中进行了评估,在该环境中,它始终优于最先进的基线。代码实现可在以下地址获取:https://github.com/hmhuy0/UNIQ。