摘要
arXiv:2409.03685v2 通知类型: 替换-交叉
摘要:大型视觉-运动策略学习是一种开发通用操作系统的有希望的方法。然而,可以在多样化的载体、环境和观察模态中部署的策略仍然难以实现。在这项工作中,我们研究了如何利用世界大规模视觉数据的知识来解决通用操作系统的其中一个变化维度:观察视角。具体来说,我们研究了一种单幅图像新型视图合成模型,该模型通过给定单张输入图像,从不同的相机视角渲染同一场景的图像,来学习场景层面的3D感知先验。为了实现在多种类机器人数据中的应用,这些模型必须在零样本的情况下运作,在未见过的任务和环境中执行视图合成。我们在一种简单的数据增强方案中实证分析了视图合成模型,称为视图合成增强(VISTA),以了解它们从单视角演示数据中学习视角不变策略的能力。在评估我们方法训练出的策略在不同类型摄像机视角下的鲁棒性后,我们发现这些策略在模拟和实际操作任务中均优于基线。有关视频和附加可视化,请参阅https://s-tian.github.io/projects/vista。