摘要
arXiv:2410.10076v3 宣告类型: 修改
摘要:视频生成已被用来生成控制机器人系统的视觉计划。给定一个图像观察和语言指令,以前的工作生成了视频计划,然后将其转换为可以执行的机器人控制指令。然而,在利用视频生成进行控制方面的主要瓶颈在于生成的视频质量,往往存在幻视内容和不切实际的物理现象,导致在从生成的视频中提取控制动作时任务成功率低。虽然扩大数据集和模型规模可以提供部分解决方案,但结合外部反馈是自然且必不可少的方法,以便将视频生成与现实世界相结合。基于这一观察,我们提出了VideoAgent,用于基于外部反馈自我改进生成的视频计划。VideoAgent 不是直接执行生成的视频计划,而是首先通过我们称为自我条件一致性的新方法对生成的视频计划进行细化,从而将推理时的计算转化为更好的生成视频计划。在生成细化后的视频计划被执行时,VideoAgent 可以从环境中收集额外的数据,进一步改进视频计划生成。我们在从MetaWorld和iTHOR模拟机器人操作中的实验表明,VideoAgent 显著减少了幻视现象,从而提高了下游操作任务的成功率。我们还展示了VideoAgent可以有效细化真实机器人视频,这表明机器人可以是一个有效的工具,用于在物理世界中将视频生成与现实世界相结合。相关视频演示和代码可以在https://video-as-agent.github.io找到。