LLM2D
使用较软的替代目标预测长期序列策略价值
Predicting Long Term Sequential Policy Value Using Softer Surrogates
作者: Hyunji Nam, Allen Nie, Ge Gao, Vasilis Syrgkanis, Emma Brunskill
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2412.20638v2

摘要

arXiv:2412.20638v2 宣传类型: 修改 摘要:基于历史数据进行离策策略评估(OPE)是利用不同策略收集的数据来估算新策略的结果。然而,现有的OPE方法无法处理新策略引入新颖动作的情况。这种情况在现实世界领域中尤为常见,例如在医疗保健领域,随着不断开发新的药物和治疗方法。新颖的动作需要收集相应的策略数据,在目标结果需要较长时间观察的情况下(例如多年临床研究),这可能会变得沉重且昂贵。这提出了一个关键问题:如何在仅观察策略的短期效果之后,预测其长期结果?虽然一般情况下这个问题是无法解决的,但在某些替代条件下,短期策略数据可以与长期历史数据结合,以准确预测新策略的长期价值。在两个模拟的医疗保健示例——HIV和脓毒症管理——中,我们展示了我们的估计器能够在观察到10%的完整时间轴数据之后提供关于策略价值的准确预测。我们还对我们的双重稳健估计器进行了有限样本分析。