摘要
arXiv:2410.01643v3 宣布类型: replace-cross
摘要:在强化学习中,离线值函数学习是指使用离线数据集来估算在固定的目标策略下采取动作时每个状态的期望折扣回报。该过程的稳定性,即它是否收敛到其固定点,主要取决于状态-动作对的表示方式。糟糕的学习表示可以使值函数学习不稳定,甚至发散。因此,通过明确塑造状态-动作表示,稳定值函数学习至关重要。最近,基于仿射方法的算法在塑造控制的表示方面显示出潜力。但是,尚不清楚这类方法是否能稳定值函数学习。在这项工作中,我们探讨了这一问题,并给出了肯定的答案。我们引入了一种基于仿射的方法,称为用于离线策略评估的核表示(KROPE)。KROPE 使用一个核来塑造状态-动作表示,使得在目标策略下具有相似即时奖励且导致相似下一个状态-动作对的状态-动作对也具有相似的表示。我们证明了以下两点:1)KROPE 学习稳定表示;2)KROPE 的价值误差低于基线。我们的分析为基于仿射方法的稳定性特性提供了新的理论见解,并建议从业者可以使用这些方法来对离线强化学习代理进行稳定和精确的评估。