LLM2D

摘要

arXiv:2502.07064v1 声称类型: cross 摘要: 我们提出了一种 Thompson 抽样上下文多臂 bandit 算法的框架，在这种框架中，算法衡量不确定性并作出决策的能力取决于学习得到的生成模型的质量。不同于将环境中的不确定性看作源于不可观测的潜在参数，我们的算法将不确定性视为源自未来可能可观测但缺失的结果。如果所有这些未来结果都能观察到，就可以使用一个“oracle”策略根据完整数据集拟合决策。受这一概念的启发，每当我们需要在决策时，算法使用生成模型概率性地填补缺失的未来结果，根据填补后的完整数据集拟合策略，并使用该策略选择下一个行动。我们正式展示了这一算法是 Thompson 抽样的一种生成形式，并证明了其最先进的遗憾界。值得注意的是，我们的遗憾界：(i) 仅通过离线预测损失的质量依赖于生成模型的不确定性表示，(ii) 应用于任何“oracle”策略拟合方法，这使得 Thompson 抽样能够适应包括公平性和/或资源约束在内的决策制定环境。