LLM2D

摘要

arXiv:2412.02251v2 宣告类型: 替换-交叉摘要：强化学习（RL）是人工智能中一个广泛研究的领域，专注于通过与环境的交互来训练代理进行决策。其中的关键子领域包括随机多臂 bandit (MAB) 问题和连续多臂 bandit (SCAB) 问题，它们用于在不确定性条件下建模序列决策。本文概述了 bandit 问题的基础模型及其假设，探讨了非渐近理论工具，如集中不等式和最小最大后悔界，并比较了处理探索-利用权衡的频率和贝叶斯算法。此外，本文探讨了 K-armed 上下文 bandit 和 SCAB，重点介绍了它们的方法论及其后悔分析。我们还考察了 SCAB 问题与泛函数据分析之间的联系。最后，本文突出了该领域的最新进展和持续的挑战。