LLM2D
OmniRL:通过大规模元训练在随机世界中的上下文强化学习
OmniRL: In-Context Reinforcement Learning by Large-Scale Meta-Training in Randomized Worlds
作者: Fan Wang, Pengtao Shao, Yiming Zhang, Bo Yu, Shaoshan Liu, Ning Ding, Yang Cao, Yu Kang, Haifeng Wang
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.02869v1

摘要

arXiv:2502.02869v1 宣布类型: cross 摘要:我们介绍了 OmniRL,一个高度通用的上下文强化学习(ICRL)模型,该模型在数以十万计的多样化任务上进行元训练。这些任务通过在马尔可夫决策过程(MDP)中随机化状态转移和奖励来程序化生成。为了支持这种广泛的元训练,我们提出了两种关键创新:1. 一种高效的ICRL数据合成管道,利用多种行为策略的交互历史;2. 一种新颖的建模框架,将模仿学习和强化学习(RL)集成到上下文环境中,并通过融入先验知识来进行整合。我们首次证明,无需任何基于梯度的微调,仅通过模仿学习、在线RL或离线RL,上下文学习(ICL)本身就可以成功应对未见过的Gymnasium任务。此外,我们展示了实现广泛适用的ICRL能力,不同于针对任务识别的少样本学习,关键依赖于由变异任务和多样化行为策略生成的长轨迹。强调ICL的潜力并脱离专注于获取特定技能的预训练,我们进一步突出了旨在培养ICL能力本身的元训练的重要性。