摘要
arXiv:2412.02251v2 宣告类型: 替换-交叉
摘要:强化学习(RL)是人工智能中一个广泛研究的领域,专注于通过与环境的交互来训练代理进行决策。其中的关键子领域包括随机多臂 bandit (MAB) 问题和连续多臂 bandit (SCAB) 问题,它们用于在不确定性条件下建模序列决策。本文概述了 bandit 问题的基础模型及其假设,探讨了非渐近理论工具,如集中不等式和最小最大后悔界,并比较了处理探索-利用权衡的频率和贝叶斯算法。此外,本文探讨了 K-armed 上下文 bandit 和 SCAB,重点介绍了它们的方法论及其后悔分析。我们还考察了 SCAB 问题与泛函数据分析之间的联系。最后,本文突出了该领域的最新进展和持续的挑战。