LLM2D

摘要

arXiv:2503.19267v1 宣告类型: cross 摘要: 无环境访问的强化学习（RL）旨在利用历史数据进行学习，而无需访问环境（这通常是昂贵的）。为了促进无环境访问RL的研究，我们之前引入了NeoRL，其中强调了现实世界任务产生的数据集往往是保守且有限的。在将无环境访问RL应用于各个领域多年后，我们还识别出了其他现实世界中的挑战。这些挑战包括部署的控制系统生成的极其保守的数据分布、由于高延迟转换引起的动作效果延迟、由于转换过程中的不可控变异性产生的外部因素，以及在决策过程中难以评估的全局安全约束。这些挑战在之前的基准测试中被严重忽视，但在现实世界的任务中却经常出现。为了解决这一问题，我们构建了扩展的近实时无环境访问RL基准（NeoRL-2），其中包括7个从7个模拟任务中提取的数据集及其对应的评估模拟器。最新的无环境访问RL方法的基准测试结果表明，当前的方法往往难以超越数据收集行为策略，突显了需要更有效的方法。我们希望NeoRL-2能够加速强化学习算法在实际应用中的发展。基准测试项目页面可在https://github.com/polixir/NeoRL2获取。