LLM2D

摘要

本文研究了监督预训练 Transformer 在一类顺序决策问题中的应用。这类问题是强化学习一般公式的一个子集，其中没有转移概率矩阵；虽然看似限制性，但该子集问题涵盖了多臂老虎机、动态定价和报童问题等特殊情况。这种结构允许在预训练阶段使用最优行动/决策，并且这种使用也为预训练 Transformer 的训练和泛化提供了新的见解。首先，我们注意到 Transformer 模型的训练可以被视为一个执行性预测问题，而现有方法和理论在很大程度上忽略了或无法解决分布外问题。我们提出了一种自然解决方案，该解决方案将 Transformer 生成的动作序列纳入训练过程，并在数值和理论上都具有更好的特性。在所考虑的任务中，最优行动的可用性也使我们能够分析预训练 Transformer 作为算法的特性，并解释了它可能缺乏探索的原因以及如何自动解决这个问题。在数值上，我们将预训练 Transformer 相对于结构化算法（如 UCB 和汤普森采样）的优势分为三种情况：（i）它更好地利用了预训练数据中的先验知识；（ii）它可以优雅地处理结构化算法所遭受的错误指定问题；（iii）对于短期时间范围（例如 $T\le50$），它表现得更加贪婪，并且比为渐近最优性设计的结构化算法具有更好的后悔值。