LLM2D

摘要

许多研究致力于为具有函数逼近的上下文多臂老虎机开发无悔算法，其中上下文-动作对的平均奖励属于一个函数类。虽然解决这个问题的方法很多，但基于乐观原则的算法（例如乐观最小二乘法）越来越受到重视。可以证明，该算法的遗憾与逃避维数（函数类复杂度的统计度量）、函数类大小的对数和时间范围的乘积的平方根成正比。不幸的是，即使每次奖励测量噪声的方差在变化并且非常小，乐观最小二乘算法的遗憾仍然与时间范围的平方根成正比。在这项工作中，我们首次开发了算法，在未知方差的情况下，具有函数逼近的上下文多臂老虎机设置中，其遗憾界限不随时间范围的平方根成比例，而是随测量方差之和的平方根成比例。这些界限推广了在上下文线性问题中推导二阶界限的现有技术。