LLM2D

摘要

arXiv:2409.16197v2 宣告类型: replace-cross 摘要: 许多研究工作已经为功能近似条件 bandits 开发了无遗憾算法，在这种算法中，上下文-动作对的平均奖励函数属于一个函数类。尽管有许多解决此问题的方法，其中一种越来越重要的方法是基于乐观原则的算法，如乐观最小二乘法。可以证明，这种算法的遗憾可以扩展为函数类的 eluder 维度（该统计量衡量函数类的复杂性）的平方根、函数类大小的对数和时间范围的乘积。不幸的是，即使每个时间点的奖励测量噪声方差发生变化且非常小，乐观最小二乘法算法的遗憾仍然与时间范围的平方根成比例。在这项工作中，我们在条件 bandits 中首次开发了算法，这些算法在功能近似的情况下能够满足遗憾边界，当方差未知时，它们的遗憾边界不仅与时间范围的平方根成比例，还与测量方差之和的平方根成比例。这些边界推广了在条件线性问题中推导二阶边界的技术。