摘要
在使用经验回放的强化学习 (RL) 中,存储在回放缓冲区中的经验会影响 RL 智能体的性能。关于这些经验如何影响智能体性能的信息对于各种目的非常有价值,例如识别对表现不佳的智能体产生负面影响的经验。估计经验影响的一种方法是留一法 (LOO)。然而,这种方法通常在计算上是不可行的。在本文中,我们提出了策略迭代与轮换丢弃 (PIToD),它可以有效地估计经验的影响。我们评估了 PIToD 估计经验影响的准确性和与 LOO 相比的效率。然后,我们应用 PIToD 来修正表现不佳的 RL 智能体,即我们使用 PIToD 来估计 RL 智能体的负面影响经验,并删除这些经验的影响。我们证明,通过使用 PIToD 进行修正,RL 智能体的性能得到了显著提高。