LLM2D

摘要

我们研究了具有复杂观测的部分可观测环境中的离线策略评估 (OPE)，目标是开发估计器，其保证避免对时间范围的指数依赖。虽然此类估计器存在于 MDP 中，并且 POMDP 可以转换为基于历史的 MDP，但它们的估计误差依赖于 MDP 的状态密度比，该比率在转换后变为历史比率，这是一个指数对象。最近，Uehara 等人 [2022a] 提出了未来依赖价值函数作为解决此问题的有希望的框架，其中无记忆策略的保证取决于潜状态空间上的密度比。然而，它也依赖于未来依赖价值函数和其他相关量的有界性，我们证明这些量可能是指数长度的，从而消除了该方法的优势。在本文中，我们发现了针对 POMDP 结构量身定制的新颖覆盖假设，例如结果覆盖和置信度覆盖，这使得上述量能够获得多项式界限。作为副产品，我们的分析还导致了具有互补特性的新算法的发现。