LLM2D

摘要

arXiv:2502.08021v1 交叉类型：cross 摘要：从数据中执行抽样外验证和超参数调整是离线强化学习（RL）中一个长期存在的问题。标准框架是使用离策评估（OPE）方法来评估和选择策略，但OPE要么导致方差指数增长（例如，重要性采样），要么自身带有超参数（例如，FQE和基于模型的方法）。在这项工作中，我们重点关注OPE本身的超参数调整，这甚至更少被研究。具体来说，我们从候选值函数（“无模型”）或动力学（“基于模型”）中选择最佳评估目标策略性能的方法。我们的贡献有两个方面。我们开发了：（1）具有理论保证的新“无模型”和“基于模型”的选择器，以及（2）一种新的实验协议来实证评估它们。与以往工作的“无模型”协议相比，我们的新协议允许更稳定地生成候选值函数，更好地控制模型误设，并评估无模型和基于模型的方法。我们在一个Gym环境中示例了该协议，发现我们的新“无模型”选择器LSTD-Tournament表现出了有前途的实证性能。