摘要
arXiv:2502.08259v1 Announce Type: 横向
摘要: 我们考虑了我们称之为离线到在线学习设置,重点关注随机有限臂bandit问题。在离线到在线学习中,学习者从一种不受其控制的方式与未知环境互动中收集离线数据开始。给定这些数据,学习者开始与环境互动,逐渐改进其初始策略,以最大化其总奖励。在这种设置中,学习者面临着一个根本性的困境:如果策略仅部署较短的时间,一种合适的战略(从多种意义上来说)是基于悲观主义的Lower Confidence Bound (LCB)算法。LCB算法能够有效地与任何足够“覆盖”离线数据的策略进行竞争。然而,对于更长的时间范围,更优选的战略是基于乐观主义的Upper Confidence Bound (UCB)算法。随着时间的推移,UCB算法以几乎是最优的方式收敛到最优策略的性能。然而,在离线到在线学习的设置中,UCB算法最初探索过度,导致其短期内的性能比LCB算法更差。这表明,对于控制其策略的使用时间的不具有控制权的学习者而言,在短时间内应从LCB开始,并在后续回合中逐渐过渡到类似UCB的战略。本文探讨了这种过渡应该如何发生。我们的主要结果表明,我们的新算法在任何时间点的性能几乎与LCB和UCB中的较好者一样好。我们算法背后的中心思想具有广泛适用性,我们预计我们的结果将超出多臂bandit的设置。