摘要
构建能够在任何3D环境中遵循任意语言指令的具身AI系统,是创造通用AI的关键挑战。实现这一目标需要学习将语言与感知和具身行动联系起来,以完成复杂的任务。可扩展、可指示、多世界智能体(SIMA)项目通过训练智能体在各种虚拟3D环境中遵循自由形式的指令来解决这个问题,包括精心策划的研究环境以及开放式商业视频游戏。我们的目标是开发一个可指示的智能体,它能够在任何模拟的3D环境中完成人类可以完成的任何事情。我们的方法侧重于语言驱动的通用性,同时对假设的限制降到最低。我们的智能体使用通用的类人界面实时与环境交互:输入是图像观察和语言指令,输出是键盘和鼠标操作。这种通用方法具有挑战性,但它允许智能体将语言与许多视觉上复杂且语义丰富的环境联系起来,同时还允许我们在新环境中轻松运行智能体。在本文中,我们描述了我们的动机和目标、已经取得的初步进展,以及在几个不同的研究环境和各种商业视频游戏中取得的有希望的初步结果。