摘要
arXiv:2502.05857v2 宣布类型: replace-cross
摘要:本文解决了学习一种行为类似人类的智能体模型的任务,该模型能够同时在第一人称的世界中进行感知、预测和行动。先前的方法通常为这三种能力分别训练独立的模型,这阻碍了它们相互学习的能力。在本文中,我们提出了一种联合预测智能体模型,命名为EgoAgent,该模型能够在单一变压器中同时学习表示世界、预测未来状态以及采取合理行动。EgoAgent引入了两种创新来从这些能力因果交织的性质中学习:(1)通过因果注意力机制交替建模状态和动作;(2)具有时间非对称预测-观察分支的联合嵌入-动作-预测架构。基于JEPA的这些设计,EgoAgent将这些能力统一在一个连贯的学习框架中。在代表性任务,如图像分类、第一人称未来状态预测和3D人体运动预测任务上的全面评估证明了我们方法的优越性。我们将在可再现性方面发布代码和训练模型。