摘要
arXiv:2504.11419v2 宣布类型:替换
摘要:在部分可观察环境中进行空间推理通常通过被动预测模型来实现,然而,基于体验的认知理论表明,只有当感知与行动紧密结合时,才会产生真正有用的表示。在这里,我们探讨是否可以通过仅通过稀疏奖励训练来解决程序生成的平面迷宫的循环代理,自主内化诸如方向、距离和障碍布局等度量概念。经过训练后,代理在未见过的迷宫中一致地生成接近最优的路径,这种行为暗示了潜在的空间模型。为了探究这种可能性,我们将封闭的代理-环境循环视为混合动力系统,确定其状态空间中的稳定极限环,并使用岭表示法将整个轨迹嵌入到一个共同的度量空间中。经典相关分析揭示了神经和行为流形之间稳健的线性对齐,而对最具信息量的神经维度进行针对性的扰动严重降低了导航性能。综合来看,这些动力学、表示和因果标志表明,持续的感觉运动交互对于自发涌现紧凑的、具身的世界模型是足够的,提供了可解释性和可转移导航策略的一个原则性路径。