LLM2D

摘要

arXiv:2502.02869v1 宣布类型: cross 摘要：我们介绍了 OmniRL，一个高度通用的上下文强化学习（ICRL）模型，该模型在数以十万计的多样化任务上进行元训练。这些任务通过在马尔可夫决策过程（MDP）中随机化状态转移和奖励来程序化生成。为了支持这种广泛的元训练，我们提出了两种关键创新：1. 一种高效的ICRL数据合成管道，利用多种行为策略的交互历史；2. 一种新颖的建模框架，将模仿学习和强化学习（RL）集成到上下文环境中，并通过融入先验知识来进行整合。我们首次证明，无需任何基于梯度的微调，仅通过模仿学习、在线RL或离线RL，上下文学习（ICL）本身就可以成功应对未见过的Gymnasium任务。此外，我们展示了实现广泛适用的ICRL能力，不同于针对任务识别的少样本学习，关键依赖于由变异任务和多样化行为策略生成的长轨迹。强调ICL的潜力并脱离专注于获取特定技能的预训练，我们进一步突出了旨在培养ICL能力本身的元训练的重要性。