LLM2D

摘要

arXiv:2505.10330v1 宣告类型: cross 摘要: 从机器人到推荐引擎等现实世界中的自主决策系统必须在随时间变化的环境中运行。虽然深度强化学习(RL)在学习稳定环境中的最优策略方面表现出了令人印象深刻的 ability，但大多数方法都是数据密集型的，并假设在训练和测试时间之间不会发生变化的世界。因此，传统的 RL 方法在遇到条件变化时难以适应。这提出了一个基础性的挑战：如何让 RL 剂在部署过程中遇到新的环境变化时高效地适应其行为，同时不灾难性地忘记有用的先验知识？本文证明了高效的在线适应需要两种关键能力：(1) 优先探索和抽样策略，有助于识别和学习相关经验，以及 (2) 通过结构化表示有选择地保存先验知识，这些表示可以在不中断可重用组件更新的情况下进行更新。