LLM2D
哪些经验对强化学习智能体有影响?高效估计经验的影响
Which Experiences Are Influential for RL Agents? Efficiently Estimating The Influence of Experiences
作者: Takuya Hiraoka, Guanquan Wang, Takashi Onishi, Yoshimasa Tsuruoka
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2405.14629v2

摘要

在使用经验回放的强化学习 (RL) 中,存储在回放缓冲区中的经验会影响 RL 智能体的性能。关于这些经验如何影响智能体性能的信息对于各种目的非常有价值,例如识别对表现不佳的智能体产生负面影响的经验。估计经验影响的一种方法是留一法 (LOO)。然而,这种方法通常在计算上是不可行的。在本文中,我们提出了策略迭代与轮换丢弃 (PIToD),它可以有效地估计经验的影响。我们评估了 PIToD 估计经验影响的准确性和与 LOO 相比的效率。然后,我们应用 PIToD 来修正表现不佳的 RL 智能体,即我们使用 PIToD 来估计 RL 智能体的负面影响经验,并删除这些经验的影响。我们证明,通过使用 PIToD 进行修正,RL 智能体的性能得到了显著提高。