摘要
arXiv:2505.06482v1 类别: cross
摘要: 离线强化学习( Offline RL) 允许在静态数据集上进行策略优化,避免了真实世界探索的风险和成本。然而,它由于缺乏环境交互,在学习次优行为和准确的价值估计方面存在困难。本文中,我们提出了 Video-Enhanced Offline RL (VeoRL),这是一种基于模型的方法,它从易于在线获取的多样化未标记视频数据中构建一个交互的世界模型。利用基于模型的行为指导,VeoRL 将源自自然视频的控制策略和物理动力学的常识知识转移至目标域中的 RL 代理。我们的方法在机器人操作、自动驾驶和开放世界视频游戏中实现了显著性能提升(在某些情况下超过 100%)。