LLM2D

摘要

arXiv:2312.12676v3 宣告类型: replace-cross 摘要: 我们考虑组合波动高斯过程（GP）半_bandit 问题。每轮，代理会提供一组可用的基础臂，并必须从中选择一个子集以最大化长期累积奖励。我们研究了贝叶斯设置，并为三种基于GP的算法提供了新颖的贝叶斯累积遗憾界：GP-UCB、GP-BayesUCB 和 GP-TS。我们的界限将先前对 GP-UCB 和 GP-TS 的结果扩展到无限、波动和组合设置，据我们所知，我们首次为 GP-BayesUCB 提供了遗憾界。波动臂涵盖了其他广泛考虑的bandit 问题，如上下文ersist_bandit。此外，我们利用我们的框架解决了一个具有挑战性的实际问题——在线能量高效导航，我们证明了这种方法的有效性，优于其他方法。