摘要
本文研究了监督预训练 Transformer 在一类顺序决策问题中的应用。这类问题是强化学习一般公式的一个子集,其中没有转移概率矩阵;虽然看似限制性,但该子集问题涵盖了多臂老虎机、动态定价和报童问题等特殊情况。这种结构允许在预训练阶段使用最优行动/决策,并且这种使用也为预训练 Transformer 的训练和泛化提供了新的见解。首先,我们注意到 Transformer 模型的训练可以被视为一个执行性预测问题,而现有方法和理论在很大程度上忽略了或无法解决分布外问题。我们提出了一种自然解决方案,该解决方案将 Transformer 生成的动作序列纳入训练过程,并在数值和理论上都具有更好的特性。在所考虑的任务中,最优行动的可用性也使我们能够分析预训练 Transformer 作为算法的特性,并解释了它可能缺乏探索的原因以及如何自动解决这个问题。在数值上,我们将预训练 Transformer 相对于结构化算法(如 UCB 和汤普森采样)的优势分为三种情况:(i)它更好地利用了预训练数据中的先验知识;(ii)它可以优雅地处理结构化算法所遭受的错误指定问题;(iii)对于短期时间范围(例如 $T\le50$),它表现得更加贪婪,并且比为渐近最优性设计的结构化算法具有更好的后悔值。