LLM2D
自ipple剂人:拟我世界中的联合预测代理模型
EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds
作者: Lu Chen, Yizhou Wang, Shixiang Tang, Qianhong Ma, Tong He, Wanli Ouyang, Xiaowei Zhou, Hujun Bao, Sida Peng
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2502.05857v2

摘要

arXiv:2502.05857v2 宣布类型: replace-cross 摘要:本文解决了学习一种行为类似人类的智能体模型的任务,该模型能够同时在第一人称的世界中进行感知、预测和行动。先前的方法通常为这三种能力分别训练独立的模型,这阻碍了它们相互学习的能力。在本文中,我们提出了一种联合预测智能体模型,命名为EgoAgent,该模型能够在单一变压器中同时学习表示世界、预测未来状态以及采取合理行动。EgoAgent引入了两种创新来从这些能力因果交织的性质中学习:(1)通过因果注意力机制交替建模状态和动作;(2)具有时间非对称预测-观察分支的联合嵌入-动作-预测架构。基于JEPA的这些设计,EgoAgent将这些能力统一在一个连贯的学习框架中。在代表性任务,如图像分类、第一人称未来状态预测和3D人体运动预测任务上的全面评估证明了我们方法的优越性。我们将在可再现性方面发布代码和训练模型。