LLM2D
慢而稳赢HEELS race:hare and tortoise网络保持可塑性
Slow and Steady Wins the Race: Maintaining Plasticity with Hare and Tortoise Networks
作者: Hojoon Lee, Hyeonseo Cho, Hyunseung Kim, Donghu Kim, Dugki Min, Jaegul Choo, Clare Lyle
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2406.02596v2

摘要

arXiv:2406.02596v2 宣告类型: replace-cross 摘要:本研究探讨了神经网络的一般化能力退化问题,重访了Ash & Adams的预热实验。我们的实验分析表明,旨在通过保持可训练性来增强可塑性的常用方法对一般化提供的益处有限。虽然重新初始化网络可能是有效的,但也存在失去有价值的先验知识的风险。为此,我们介绍了Hare & Tortoise,灵感来源于大脑的互补学习系统。Hare & Tortoise由两个组件组成:Hare网络,快速地类似海马体那样适应新信息;以及Tortoise网络,逐渐整合知识,类似于新皮层。通过定期将Hare网络重新初始化到Tortoise的权重,我们的方法保持了可塑性,同时保留了一般知识。Hare & Tortoise能够有效地保持网络的一般化能力,这在Atari-100k基准测试中改善了高级强化学习算法的表现。代码可以在https://github.com/dojeon-ai/hare-tortoise获得。