LLM2D

摘要

我们证明了，在特定情况下，即使使用非策略数据，目标网络和过度参数化的线性函数逼近的组合也能为引导值估计建立一个更弱的收敛条件。我们的条件自然地适用于整个状态-动作空间上的预期更新，或从情节马尔可夫决策过程学习的完整轨迹批次。值得注意的是，仅使用目标网络或过度参数化的模型并不能提供这样的收敛保证。此外，我们将我们的结果扩展到学习截断轨迹，表明通过类似于轨迹中最终状态的值截断的微小修改，所有任务都能够实现收敛。我们的主要结果侧重于预测的时序差分估计，提供了高概率的值估计误差界限，并在 Baird 的反例和四房间任务上进行了实证分析。此外，我们探索了控制设置，证明了类似的收敛条件适用于 Q 学习。