LLM2D
可扩展的Thompson采样通过 Ensemble++ 代理
Scalable Thompson Sampling via Ensemble++ Agent
作者: Yingru Li, Jiawei Xu, Baoxiang Wang, Zhi-Quan Luo
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2407.13195v4

摘要

arXiv:2407.13195v4 宣告类型: replace-cross 摘要:Thompson Sampling 是一种平衡探索与利用的原则性方法,但在大规模或非共轭设置中,其后验维护的高计算开销阻碍了其实用领域中的采用。基于集成的方法提供了一部分解决方案,但往往需要较大的集成大小。本文提出了一种可扩展的 Ensemble++ 代理,通过共享因素集成更新架构和随机线性组合方案,避免了这些限制。我们在理论上证明,在线性Arm bandits中,Ensemble++ 代理只需一个集成大小为 $\Theta(d \log T)$ 即可实现与精确的 Thompson Sampling 相比相近的后悔保证。进一步地,为了处理非线性回报和复杂环境,我们引入了一个神经扩展,用可学习表示替换固定特征,并通过基于梯度的更新保持相同的潜在目标。实验证明,Ensemble++ 代理在包括基于 GPT 的情境Arms bandits在内的线性和非线性环境中,在样本效率和计算可扩展性方面表现出色。