LLM2D

摘要

arXiv:2504.08161v1 共享类型: 交叉摘要: 持续强化学习的方法和技术引起了越来越多的关注。早期的许多进展建立在传统强化学习的基础和标准实践之上，却未质疑它们是否适合持续学习代理所面临的挑战。我们建议，实际上，传统强化学习的核心基础中有许多与持续强化学习的目标相悖。我们列举了四个这样的基础：马尔可夫决策过程的形式化、对最优策略的关注、以预期奖励之和作为主要评估指标，以及采纳其他三个基础的 episodic 基准环境。放弃这些被视为神圣的教学概念并不容易。因为每个基础都依赖于和支撑着其他基础，使得单独重新审视每一项变得困难。我们提议了一套更适合持续学习环境的四个基础。我们希望激发其他人重新思考传统基础，提出并批判新的替代方案，并开发基于更适宜基础的新算法和技术。