摘要
arXiv:2312.12676v3 宣告类型: replace-cross
摘要: 我们考虑组合波动高斯过程(GP)半_bandit 问题。每轮,代理会提供一组可用的基础臂,并必须从中选择一个子集以最大化长期累积奖励。我们研究了贝叶斯设置,并为三种基于GP的算法提供了新颖的贝叶斯累积遗憾界:GP-UCB、GP-BayesUCB 和 GP-TS。我们的界限将先前对 GP-UCB 和 GP-TS 的结果扩展到无限、波动和组合设置,据我们所知,我们首次为 GP-BayesUCB 提供了遗憾界。波动臂涵盖了其他广泛考虑的bandit 问题,如上下文ersist_bandit。此外,我们利用我们的框架解决了一个具有挑战性的实际问题——在线能量高效导航,我们证明了这种方法的有效性,优于其他方法。