LLM2D
NeoRL-2:接近真实世界的离线强化学习基准,包含扩展的现实场景
NeoRL-2: Near Real-World Benchmarks for Offline Reinforcement Learning with Extended Realistic Scenarios
作者: Songyi Gao, Zuolin Tu, Rong-Jun Qin, Yi-Hao Sun, Xiong-Hui Chen, Yang Yu
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19267v1

摘要

arXiv:2503.19267v1 宣告类型: cross 摘 要: 无环境访问的强化学习(RL)旨在利用历史数据进行学习,而无需访问环境(这通常是昂贵的)。为了促进无环境访问RL的研究,我们之前引入了NeoRL,其中强调了现实世界任务产生的数据集往往是保守且有限的。在将无环境访问RL应用于各个领域多年后,我们还识别出了其他现实世界中的挑战。这些挑战包括部署的控制系统生成的极其保守的数据分布、由于高延迟转换引起的动作效果延迟、由于转换过程中的不可控变异性产生的外部因素,以及在决策过程中难以评估的全局安全约束。这些挑战在之前的基准测试中被严重忽视,但在现实世界的任务中却经常出现。为了解决这一问题,我们构建了扩展的近实时无环境访问RL基准(NeoRL-2),其中包括7个从7个模拟任务中提取的数据集及其对应的评估模拟器。最新的无环境访问RL方法的基准测试结果表明,当前的方法往往难以超越数据收集行为策略,突显了需要更有效的方法。我们希望NeoRL-2能够加速强化学习算法在实际应用中的发展。基准测试项目页面可在https://github.com/polixir/NeoRL2获取。