摘要
当前视觉导航研究存在改进空间。首先,直接采用 RNN 和 Transformer 往往忽视了具身 AI 与传统序列数据建模之间的具体差异,这可能会限制其在具身 AI 任务中的性能。其次,对特定任务配置的依赖,例如预训练模块和特定数据集的逻辑,会损害这些方法的泛化能力。为了解决这些限制,我们首先从因果关系的角度探讨了导航任务与其他序列数据任务之间的独特差异,提出了一个因果框架来阐明传统序列方法在导航方面的不足。利用这种因果关系视角,我们为导航提出了因果感知 Transformer (CAT) 网络,该网络具有因果理解模块,以增强模型的环境理解能力。同时,我们的方法没有特定任务的归纳偏差,可以以端到端的方式进行训练,这增强了该方法在各种环境下的泛化能力。实证评估表明,我们的方法在各种设置、任务和模拟环境中始终优于基准性能。广泛的消融研究表明,性能提升可归因于因果理解模块,该模块在强化学习和监督学习设置中都证明了其有效性和效率。