LLM2D
随机策略启用信任界限内的上下文强化学习
Random Policy Enables In-Context Reinforcement Learning within Trust Horizons
作者: Weiqin Chen, Santiago Paternain
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2410.19982v3

摘要

arXiv:2410.19982v3 宣告类型: replace-cross 摘要: 预训练基础模型已经展示了令人惊叹的上下文内学习性能,使其能够在预训练过程中未遇到的新任务上实现零样本泛化。在强化学习(RL)的情况下,通过自回归监督的方式在决策问题上预训练FMs时,上下文内RL(ICRL)便会浮现。然而,当前最先进的ICRL算法,如算法蒸馏、决策预训练.transformer和决策重要性transformer,在预训练数据集方面对于源策略、上下文信息和行动标签提出了严格的要求。值得注意的是,这些算法要么需要最优策略,要么需要在所有预训练环境中使用不同程度的良好训练的行为策略。这严重阻碍了ICRL在实际场景中的应用,因为在实际场景中获得大量真实环境训练的良好训练策略可能是不可行的。为了克服这一挑战,我们引入了一种名为状态-行动蒸馏(SAD)的新方法,它允许根据随机策略生成有效的预训练数据集。特别是在信任期限内使用随机策略从整个状态空间和行动空间中提取出类拔萃的状态-行动对,从而选择查询状态及其相应的行动标签,然后在预训练过程中继承传统的自回归监督机制。据我们所知,这是第一项能够在随机策略和随机上下文中实现有效ICRL的工作。我们还对SAD的信任度以及性能保证进行了定量分析。此外,我们在多个流行的ICRL基准环境中进行的实证研究表明,在离线评估中,SAD平均比最佳基线高出236.3%,在在线评估中高出135.2%。