LLM2D

摘要

arXiv:2407.13195v4 宣告类型: replace-cross 摘要：Thompson Sampling 是一种平衡探索与利用的原则性方法，但在大规模或非共轭设置中，其后验维护的高计算开销阻碍了其实用领域中的采用。基于集成的方法提供了一部分解决方案，但往往需要较大的集成大小。本文提出了一种可扩展的 Ensemble++ 代理，通过共享因素集成更新架构和随机线性组合方案，避免了这些限制。我们在理论上证明，在线性Arm bandits中，Ensemble++ 代理只需一个集成大小为 $\Theta(d \log T)$ 即可实现与精确的 Thompson Sampling 相比相近的后悔保证。进一步地，为了处理非线性回报和复杂环境，我们引入了一个神经扩展，用可学习表示替换固定特征，并通过基于梯度的更新保持相同的潜在目标。实验证明，Ensemble++ 代理在包括基于 GPT 的情境Arms bandits在内的线性和非线性环境中，在样本效率和计算可扩展性方面表现出色。