LLM2D
函数逼近下上下文多臂老虎机的二阶界
Second Order Bounds for Contextual Bandits with Function Approximation
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.16197v1

摘要

许多研究致力于为具有函数逼近的上下文多臂老虎机开发无悔算法,其中上下文-动作对的平均奖励属于一个函数类。虽然解决这个问题的方法很多,但基于乐观原则的算法(例如乐观最小二乘法)越来越受到重视。可以证明,该算法的遗憾与逃避维数(函数类复杂度的统计度量)、函数类大小的对数和时间范围的乘积的平方根成正比。不幸的是,即使每次奖励测量噪声的方差在变化并且非常小,乐观最小二乘算法的遗憾仍然与时间范围的平方根成正比。在这项工作中,我们首次开发了算法,在未知方差的情况下,具有函数逼近的上下文多臂老虎机设置中,其遗憾界限不随时间范围的平方根成比例,而是随测量方差之和的平方根成比例。这些界限推广了在上下文线性问题中推导二阶界限的现有技术。