LLM2D
离线政策评估的模型选择:新算法及实验协议
Model Selection for Off-policy Evaluation: New Algorithms and Experimental Protocol
作者: Pai Liu, Lingfeng Zhao, Shivangi Agarwal, Jinghan Liu, Audrey Huang, Philip Amortila, Nan Jiang
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.08021v1

摘要

arXiv:2502.08021v1 交叉类型:cross 摘要:从数据中执行抽样外验证和超参数调整是离线强化学习(RL)中一个长期存在的问题。标准框架是使用离策评估(OPE)方法来评估和选择策略,但OPE要么导致方差指数增长(例如,重要性采样),要么自身带有超参数(例如,FQE和基于模型的方法)。在这项工作中,我们重点关注OPE本身的超参数调整,这甚至更少被研究。具体来说,我们从候选值函数(“无模型”)或动力学(“基于模型”)中选择最佳评估目标策略性能的方法。我们的贡献有两个方面。我们开发了:(1)具有理论保证的新“无模型”和“基于模型”的选择器,以及(2)一种新的实验协议来实证评估它们。与以往工作的“无模型”协议相比,我们的新协议允许更稳定地生成候选值函数,更好地控制模型误设,并评估无模型和基于模型的方法。我们在一个Gym环境中示例了该协议,发现我们的新“无模型”选择器LSTD-Tournament表现出了有前途的实证性能。