LLM2D

摘要

arXiv:2503.14858v2 宣告类型: replace-cross 摘要：自我监督学习的扩展已经在语言和视觉领域取得了突破，但在强化学习（RL）中取得相似的进展仍是一件棘手的事情。在本文中，我们研究了解锁自我监督RL中显著扩展能力的基本组件，其中网络深度成为关键因素。尽管近年来大多数RL论文依赖于浅层结构（约2-5层），我们证明将深度增加到1024层可以显著提升性能。我们的实验是在一个无监督的目标调节环境进行的，其中没有提供任何演示或奖励，因此智能体必须从头开始探索并学习如何最大化达到指定目标的概率。在模拟行动和操作任务上评估，我们的方法将性能提升了2倍至50倍。增加模型深度不仅提高了成功率，还定量地改变了所学习的行为。