摘要
在互联网数据上训练的生成模型彻底改变了文本、图像和视频内容的创建方式。也许生成模型的下一个里程碑是模拟对人类、机器人和其他交互式代理采取的行动做出反应的真实体验。现实世界模拟器的应用范围从游戏和电影中的可控内容创建,到纯粹在模拟中训练具身代理,这些代理可以直接部署到现实世界中。我们探索了通过生成式建模学习现实世界交互的通用模拟器(UniSim)的可能性。我们首先得出一个重要的观察结果,即用于学习现实世界模拟器的自然数据集通常在不同的维度上都很丰富(例如,图像数据中的丰富物体、机器人数据中的密集采样动作以及导航数据中的多样化运动)。通过仔细编排不同的数据集,每个数据集都提供了整体体验的不同方面,我们可以模拟从“打开抽屉”等高级指令到从其他静态场景和物体中获得的低级控制的视觉结果。我们使用该模拟器来训练高级视觉语言策略和低级强化学习策略,每种策略都可以在纯粹在模拟中训练后,在现实世界中零样本部署。我们还表明,其他类型的智能,例如视频字幕模型,可以从模拟体验训练中获益,从而开辟更广泛的应用。视频演示可以在 https://universal-simulator.github.io 找到。