LLM2D
基于统计视角的选择性回顾:AI 中的多臂 bandit 问题
Selective Reviews of Bandit Problems in AI via a Statistical View
作者: Pengjie Zhou, Haoyu Wei, Huiming Zhang
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2412.02251v2

摘要

arXiv:2412.02251v2 宣告类型: 替换-交叉 摘要:强化学习(RL)是人工智能中一个广泛研究的领域,专注于通过与环境的交互来训练代理进行决策。其中的关键子领域包括随机多臂 bandit (MAB) 问题和连续多臂 bandit (SCAB) 问题,它们用于在不确定性条件下建模序列决策。本文概述了 bandit 问题的基础模型及其假设,探讨了非渐近理论工具,如集中不等式和最小最大后悔界,并比较了处理探索-利用权衡的频率和贝叶斯算法。此外,本文探讨了 K-armed 上下文 bandit 和 SCAB,重点介绍了它们的方法论及其后悔分析。我们还考察了 SCAB 问题与泛函数据分析之间的联系。最后,本文突出了该领域的最新进展和持续的挑战。