LLM2D

摘要

arXiv:2502.06051v1 声明类型: cross 摘要: KL-正则化策略优化已经成为基于学习的决策制定的基础工具，而其理论理解仍然非常有限。尽管在解决KL-正则化上下文臂拉格问题的样本复杂性方面取得了进展，但现有的样本复杂性界要么在单策略集中度情况下为$\tilde{O}(\epsilon^{-2})$，要么在所有策略集中度情况下为$\tilde{O}(\epsilon^{-1})$。在本文中，我们提出了第一个在单策略集中度情况下样本复杂性为$\tilde{O}(\epsilon^{-1})$的离线上下文臂拉格算法。该算法适用于通用函数逼近，并基于“不确定性的悲观主义”原则设计。我们证明的核心思想利用了KL正则化的强凸性和真实奖励与其悲观估计之间的条件非负差距，将均值型风险上界细化到其极端情况。这反过来导致了一种新颖的基于协方差的分析，有效地绕过了对函数类中任意两个函数之间的差异进行统一控制的需要。我们的算法接近最优性通过$\tilde{\Omega}(\epsilon^{-1})$下界得到了证明。此外，我们将该算法扩展到上下文对战臂拉格，并实现了类似的接近最优样本复杂性。