LLM2D

摘要

arXiv:2504.08000v1 公告类型: 新摘要: 与人类能够连续获取知识的能力相比，代理人在深度强化学习（DRL）中面临着稳定性和可塑性的两难问题，即保留现有技能（稳定性）和学习新知识（可塑性）之间的权衡。当前的方法集中在在网络层面平衡这两方面，但缺乏对单个神经元的充分区分和精细控制。为克服这一局限，我们提出了基于神经元级稳定性和可塑性平衡（Neuron-level Balance between Stability and Plasticity, NBSP）的方法，灵感来源于特定神经元对任务相关技能的强烈相关性。具体而言，NBSP 首先（1）通过目标导向的方法定义和识别对于知识保留至关重要的 RL 技能神经元，然后（2）通过使用梯度掩蔽和经验回放技术针对这些神经元的框架来保存编码的现有技能，同时允许对新任务的适应。在 Meta-World 和 Atari 基准测试中的大量实验结果表明，NBSP 在平衡稳定性和可塑性方面显著优于现有方法。