LLM2D
带有函数逼近的上下文臂博弈的二阶界限
Second Order Bounds for Contextual Bandits with Function Approximation
作者: Aldo Pacchiano
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2409.16197v2

摘要

arXiv:2409.16197v2 宣告类型: replace-cross 摘要: 许多研究工作已经为功能近似条件 bandits 开发了无遗憾算法,在这种算法中,上下文-动作对的平均奖励函数属于一个函数类。尽管有许多解决此问题的方法,其中一种越来越重要的方法是基于乐观原则的算法,如乐观最小二乘法。可以证明,这种算法的遗憾可以扩展为函数类的 eluder 维度(该统计量衡量函数类的复杂性)的平方根、函数类大小的对数和时间范围的乘积。不幸的是,即使每个时间点的奖励测量噪声方差发生变化且非常小,乐观最小二乘法算法的遗憾仍然与时间范围的平方根成比例。在这项工作中,我们在条件 bandits 中首次开发了算法,这些算法在功能近似的情况下能够满足遗憾边界,当方差未知时,它们的遗憾边界不仅与时间范围的平方根成比例,还与测量方差之和的平方根成比例。这些边界推广了在条件线性问题中推导二阶边界的技术。