摘要
arXiv:2502.05857v1 类型: cross
摘要:本文探讨了学习一种行为类似于人类的代理模型的任务,该模型能够在第一人称的世界中联合感知、预测和行动。之前的方法通常为这三种能力分别训练单独的模型,这导致它们之间存在信息孤岛,使得这些能力无法从对方学习并有效协作。本文提出了一种联合预测代理模型,命名为EgoAgent,该模型通过单一的变压器同时学习表示世界、预测未来状态和采取合理行动。EgoAgent通过将这三种能力的所有表示空间映射到连续的词序列中来统一表示空间。可学习的查询词被附加以获得当前状态、未来状态和下一个行动。借助联合监督,我们的代理模型建立了这三种能力之间的内部关系,并有效地模仿了人类的推断和学习过程。全面评估EgoAgent涵盖了图像分类、第一人称未来状态预测和三维人体运动预测任务,展示了我们方法的优越性。代码和训练模型将被发布以确保可重现性。