LLM2D
不断学习 reinforcement learning 的基础重思
Rethinking the Foundations for Continual Reinforcement Learning
作者: Michael Bowling, Esraa Elelimy
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.08161v1

摘要

arXiv:2504.08161v1 共享类型: 交叉 摘要: 持续强化学习的方法和技术引起了越来越多的关注。早期的许多进展建立在传统强化学习的基础和标准实践之上,却未质疑它们是否适合持续学习代理所面临的挑战。我们建议,实际上,传统强化学习的核心基础中有许多与持续强化学习的目标相悖。我们列举了四个这样的基础:马尔可夫决策过程的形式化、对最优策略的关注、以预期奖励之和作为主要评估指标,以及采纳其他三个基础的 episodic 基准环境。放弃这些被视为神圣的教学概念并不容易。因为每个基础都依赖于和支撑着其他基础,使得单独重新审视每一项变得困难。我们提议了一套更适合持续学习环境的四个基础。我们希望激发其他人重新思考传统基础,提出并批判新的替代方案,并开发基于更适宜基础的新算法和技术。