摘要
arXiv:2407.21260v3 公告类型: replace-cross
摘要:分布强化学习通过捕捉环境的随机性来提高性能,但对其有效性的全面理论理解仍然缺乏。此外,无穷维度分布的不可处理性元素被忽视了。在本文中,我们提出了分布强化学习在有限阶段性马尔可夫决策过程设置中使用通用值函数近似的遗憾分析。首先,我们引入了一个关键概念“贝尔曼无偏性”,这对于在线学习和可证明高效的分布更新是必不可少的。在所有表示无穷维度回报分布的统计泛函类型中,我们的理论结果表明,只有矩泛函能够精确地捕捉统计信息。其次,我们提出了一种可证明高效的算法 $\texttt{SF-LSVI}$,该算法实现了紧致的遗憾界 $\tilde{O}(d_E H^{\frac{3}{2}}\sqrt{K})$,其中 $H$ 是时间范围,$K$ 是回合数,$d_E$ 是函数类的欺骗维数。