LLM2D

摘要

arXiv:2412.02251v3 公告类型：替换交叉摘要：强化学习（RL）是人工智能中广泛研究的一个领域，专注于通过环境互动来教导代理进行决策。其一个关键子集包括随机多臂 bandit（MAB）问题和连续多臂 bandit（SCAB）问题，这些问题用于在不确定性下建模序列决策。本文概要介绍了 bandit 问题的基础模型和假设，探讨了非渐近理论工具如中心偏差不等式和最小最大后悔界，并比较了管理探索与利用权衡的 frequentist 和 Bayesian 算法。此外，本文还探讨了 K-arming 文本上下文 bandit 和 SCAB 方法及其方法论和后悔分析。本文还考察了 SCAB 问题与功能性数据分析之间的联系。最后，本文强调了该领域的最新进展和持续性挑战。