LLM2D
慢/fast胜出竞赛:hare和tortoise网络维持可塑性
Slow and Steady Wins the Race: Maintaining Plasticity with Hare and Tortoise Networks
作者: Hojoon Lee, Hyeonseo Cho, Hyunseung Kim, Donghu Kim, Dugki Min, Jaegul Choo, Clare Lyle
发布日期: 2/5/2025
arXiv ID: 2406.02596

摘要

arXiv:2406.02596v2 传输类型: replace-cross 摘要:这项研究探讨了神经网络的一般化能力退化问题,并重温了 Ash & Adams 的预热实验。我们的实证分析表明,设计用于通过保持可训练性来增强可塑性的常见方法对一般化提供的益处有限。虽然重新初始化网络可能有效,但也存在失去宝贵先验知识的风险。为此,我们引入了 Hare & Tortoise,灵感来源于大脑的互补学习系统。Hare & Tortoise 由两个组件组成:快速适应新信息的 Hare 网络,类似于海马体;以及逐步整合知识的 Tortoise 网络,类似于新皮层。通过定期将 Hare 网络重新初始化为 Tortoise 的权重,我们的方法可以在保持可塑性的同时保留一般知识。Hare & Tortoise 可以有效地维护网络的一般化能力,从而在 Atari-100k 基准测试中改进高级强化学习算法。代码可在 https://github.com/dojeon-ai/hare-tortoise 上获得。