LLM2D
未来依赖型价值函数在离策略评估中对未来和历史的诅咒
On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation
作者: Yuheng Zhang, Nan Jiang
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2402.14703v2

摘要

我们研究了具有复杂观测的部分可观测环境中的离线策略评估 (OPE),目标是开发估计器,其保证避免对时间范围的指数依赖。虽然此类估计器存在于 MDP 中,并且 POMDP 可以转换为基于历史的 MDP,但它们的估计误差依赖于 MDP 的状态密度比,该比率在转换后变为历史比率,这是一个指数对象。最近,Uehara 等人 [2022a] 提出了未来依赖价值函数作为解决此问题的有希望的框架,其中无记忆策略的保证取决于潜状态空间上的密度比。然而,它也依赖于未来依赖价值函数和其他相关量的有界性,我们证明这些量可能是指数长度的,从而消除了该方法的优势。在本文中,我们发现了针对 POMDP 结构量身定制的新颖覆盖假设,例如结果覆盖和置信度覆盖,这使得上述量能够获得多项式界限。作为副产品,我们的分析还导致了具有互补特性的新算法的发现。