LLM2D

摘要

在强化学习中，离线值函数学习是指利用离线数据集来估计在执行固定目标策略时，从每个状态采取行动所获得的预期折扣回报的过程。该过程的稳定性，即它是否收敛到其不动点，关键取决于状态-动作对的表示形式。学习效果不佳的表示形式会导致值函数学习不稳定，甚至发散。因此，通过明确塑造状态-动作表示形式来稳定值函数学习至关重要。近年来，基于双模拟的算法在塑造控制表示形式方面展现出巨大潜力。然而，目前尚不清楚这类方法是否能够稳定值函数学习。在本研究中，我们探讨了这个问题，并给出了肯定的答案。我们引入了一种名为核表示用于离线策略评估（KROPE）的基于双模拟的算法。KROPE 使用核来塑造状态-动作表示形式，使得在目标策略下具有相似即时奖励并导致相似下一个状态-动作对的状态-动作对也具有相似的表示形式。我们证明了 KROPE：1）学习稳定的表示形式，以及 2）与基准方法相比，导致更低的值误差。我们的分析为基于双模拟方法的稳定性特性提供了新的理论见解，并表明从业人员可以使用这些方法来稳定且准确地评估离线强化学习代理。