LLM2D

摘要

arXiv:2412.20638v2 宣传类型: 修改摘要：基于历史数据进行离策策略评估（OPE）是利用不同策略收集的数据来估算新策略的结果。然而，现有的OPE方法无法处理新策略引入新颖动作的情况。这种情况在现实世界领域中尤为常见，例如在医疗保健领域，随着不断开发新的药物和治疗方法。新颖的动作需要收集相应的策略数据，在目标结果需要较长时间观察的情况下（例如多年临床研究），这可能会变得沉重且昂贵。这提出了一个关键问题：如何在仅观察策略的短期效果之后，预测其长期结果？虽然一般情况下这个问题是无法解决的，但在某些替代条件下，短期策略数据可以与长期历史数据结合，以准确预测新策略的长期价值。在两个模拟的医疗保健示例——HIV和脓毒症管理——中，我们展示了我们的估计器能够在观察到10%的完整时间轴数据之后提供关于策略价值的准确预测。我们还对我们的双重稳健估计器进行了有限样本分析。