LLM2D

摘要

arXiv:2402.14664v2 宣布类型: replace-cross 摘要: 在交互系统中，动作往往相关，这为大型动作空间中的离策略评估（OPE）和学习（OPL）提供了更样本高效的途径。我们引入了一个统一的贝叶斯框架来通过结构化和信息性的先验捕捉这些相关性。在这个框架中，我们提出了sDM，这是一种基于算法和理论基础的通用贝叶斯方法，用于OPE和OPL。值得注意的是，sDM能够在不牺牲计算效率的情况下利用动作的相关性。此外，受在线贝叶斯搏弈的启发，我们引入了评估算法在多个问题实例上平均性能的贝叶斯度量，这与传统的最坏情况评估有所不同。我们分析了sDM在OPE和OPL中的表现，突出了利用动作相关性的益处。实验证据展示了sDM的出色性能。