LLM2D

摘要

使用离线数据评估策略对于将强化学习应用于医疗保健和自动驾驶等现实世界问题至关重要。以往的离线策略评估 (OPE) 方法通常存在方差高或不可约偏差的问题，导致预测误差高得难以接受。本文介绍了 STAR，这是一种用于 OPE 的框架，它包含了各种估计器——包括现有的 OPE 方法作为特例——这些估计器可以实现更低的均方预测误差。STAR 利用状态抽象将复杂、可能连续的问题提炼成紧凑、离散的模型，我们称之为抽象奖励过程 (ARP)。从离线数据估计的 ARP 的预测在理论上是一致的（渐近正确）。我们没有提出特定的估计器，而是提出了一种新的 OPE 框架，并通过实证证明了 STAR 中的估计器优于现有方法。最好的 STAR 估计器在所有 12 个研究案例中都优于基线，即使是中位数 STAR 估计器也超过了 12 个案例中的 7 个案例的基线。