LLM2D
千层网络用于自我监督的强化学习:增加深度可以启用新的目标获取能力
1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
作者: Kevin Wang, Ishaan Javali, Micha{\l} Bortkiewicz, Tomasz Trzci\'nski, Benjamin Eysenbach
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.14858v2

摘要

arXiv:2503.14858v2 宣告类型: replace-cross 摘要:自我监督学习的扩展已经在语言和视觉领域取得了突破,但在强化学习(RL)中取得相似的进展仍是一件棘手的事情。在本文中,我们研究了解锁自我监督RL中显著扩展能力的基本组件,其中网络深度成为关键因素。尽管近年来大多数RL论文依赖于浅层结构(约2-5层),我们证明将深度增加到1024层可以显著提升性能。我们的实验是在一个无监督的目标调节环境进行的,其中没有提供任何演示或奖励,因此智能体必须从头开始探索并学习如何最大化达到指定目标的概率。在模拟行动和操作任务上评估,我们的方法将性能提升了2倍至50倍。增加模型深度不仅提高了成功率,还定量地改变了所学习的行为。