LLM2D

摘要

arXiv:2502.02516v1 宣布类型: cross 摘要: 我们研究了在在线多奖励多策略折现设置中的政策评估问题，在这种设置中，必须同时为不同的策略评估多个奖励函数。我们采取了$(\epsilon,\delta)$-PAC 视角，以实现对有限或凸奖励集合的高置信度的$\epsilon$-精确估计，这是一个文献中尚未探讨的设置。基于 Multi-Reward 最优策略识别的先前工作，我们将 MR-NaS 探索方案适应为在不同奖励集合中同时最小化不同策略的样本复杂性。我们的方法利用了一个特定实例的下界，揭示了样本复杂性如何随价值偏离度量的规模变化，从而指导高效探索策略的设计。虽然计算这一界涉及一个困难的非凸优化问题，但我们提出了一种有效的凸近似方法，适用于有限和凸奖励集合。在表征域中的实验表明了这种自适应探索方案的有效性。