摘要
arXiv:2412.02251v3 公告类型:替换交叉
摘要:强化学习(RL)是人工智能中广泛研究的一个领域,专注于通过环境互动来教导代理进行决策。其一个关键子集包括随机多臂 bandit(MAB)问题和连续多臂 bandit(SCAB)问题,这些问题用于在不确定性下建模序列决策。本文概要介绍了 bandit 问题的基础模型和假设,探讨了非渐近理论工具如中心偏差不等式和最小最大后悔界,并比较了管理探索与利用权衡的 frequentist 和 Bayesian 算法。此外,本文还探讨了 K-arming 文本上下文 bandit 和 SCAB 方法及其方法论和后悔分析。本文还考察了 SCAB 问题与功能性数据分析之间的联系。最后,本文强调了该领域的最新进展和持续性挑战。