摘要
arXiv:2502.00802v1 类型: cross
摘要: 深度强化学习(DRL)系统往往倾向于过度拟合于早期经验,这一现象被称为早期优势偏见(PB)。这种偏见严重阻碍了学习效率和最终性能,尤其是在复杂环境中的表现。本文通过费歇尔信息矩阵(FIM)的视角对PB进行了全面的研究。我们通过FIM迹的不同模式来表征PB,识别学习过程中关键的记忆重构阶段。基于这一理解,我们提出了费歇尔引导的选择性遗忘(FGSF)方法,这是一种新颖的方法,利用参数空间的几何结构来选择性地修改网络权重,防止早期经验主导学习过程。在DeepMind控制套件(DMC)环境中进行的经验结果表明,FGSF在复杂任务中始终优于基线方法。我们分析了PB对演员和评论家网络的不同影响,重播比率在加剧这一影响中的作用,以及简单噪声注入方法的有效性。我们的研究结果为PB提供了更深的理解,并提出了实际的缓解策略,提供了基于FIM的几何视角来推进DRL的发展。