LLM2D

摘要

arXiv:2504.03861v1 公告类型: 新摘要: 开发有效的世界模型对于创建能够推理和导航复杂环境的人工代理至关重要。在这篇论文中，我们研究了一种深层监督技术，以鼓励在网络中训练端到端以预测下一次观察时开发世界模型。虽然深层监督在特定任务学习中被广泛应用于，我们的重点是改进世界模型。利用基于Flappy Bird游戏的实验环境，其中代理仅接收LIDAR测量作为观察，我们探讨了向网络的损失函数中添加线性探测组件的影响。这个额外的项鼓励网络将其隐藏状态编码为真实底层世界特征的一部分。我们的实验表明，这种监督技术可以提高训练和测试性能，增强训练稳定性，并导致更易于解码的世界特征——即使这些世界特征未包含在训练中。此外，我们观察到使用线性探测训练的网络在游戏高变异性阶段（从连续的管道遇到间飞行）中分布漂移减少。包含世界特征损失项大致相当于模型大小翻倍，这表明线性探测技术在计算受限的环境中特别有益，或在使用较小模型以获得最佳性能时特别有利。这些发现有助于我们更好地理解如何开发更稳健和复杂的代理世界模型，为该领域的进一步发展铺平了道路。