LLM2D

摘要

arXiv:2502.00802v1 类型: cross 摘要: 深度强化学习(DRL)系统往往倾向于过度拟合于早期经验，这一现象被称为早期优势偏见(PB)。这种偏见严重阻碍了学习效率和最终性能，尤其是在复杂环境中的表现。本文通过费歇尔信息矩阵(FIM)的视角对PB进行了全面的研究。我们通过FIM迹的不同模式来表征PB，识别学习过程中关键的记忆重构阶段。基于这一理解，我们提出了费歇尔引导的选择性遗忘(FGSF)方法，这是一种新颖的方法，利用参数空间的几何结构来选择性地修改网络权重，防止早期经验主导学习过程。在DeepMind控制套件(DMC)环境中进行的经验结果表明，FGSF在复杂任务中始终优于基线方法。我们分析了PB对演员和评论家网络的不同影响，重播比率在加剧这一影响中的作用，以及简单噪声注入方法的有效性。我们的研究结果为PB提供了更深的理解，并提出了实际的缓解策略，提供了基于FIM的几何视角来推进DRL的发展。