LLM2D

摘要

在使用经验回放的强化学习 (RL) 中，存储在回放缓冲区中的经验会影响 RL 智能体的性能。关于这些经验如何影响智能体性能的信息对于各种目的非常有价值，例如识别对表现不佳的智能体产生负面影响的经验。估计经验影响的一种方法是留一法 (LOO)。然而，这种方法通常在计算上是不可行的。在本文中，我们提出了策略迭代与轮换丢弃 (PIToD)，它可以有效地估计经验的影响。我们评估了 PIToD 估计经验影响的准确性和与 LOO 相比的效率。然后，我们应用 PIToD 来修正表现不佳的 RL 智能体，即我们使用 PIToD 来估计 RL 智能体的负面影响经验，并删除这些经验的影响。我们证明，通过使用 PIToD 进行修正，RL 智能体的性能得到了显著提高。