LLM2D
FLIP:以流为中心的生成规划作为通用 manipulation 世界模型
FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model
作者: Chongkai Gao, Haozhuo Zhang, Zhixuan Xu, Zhehao Cai, Lin Shao
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2412.08261v2

摘要

arXiv:2412.08261v2 宣布类型: replace-cross 摘要:我们旨在开发一种基于模型的规划框架,该框架能够随着模型和数据预算的增加进行扩展,并且仅通过语言和视觉输入即可实现通用任务的操纵。为此,我们提出了以流为中心的生成规划(FLIP),这是一种基于视觉空间的模型驱动规划算法,具备三个关键模块:1. 多模态流生成模型,作为通用动作提案模块;2. 流条件下的视频生成模型,作为动力学模块;3. 视觉-语言表示学习模型,作为价值模块。给定初始图像和语言指令作为目标,FLIP可以逐步搜索最大化折现回报的长时流和视频计划,以完成任务。FLIP能够使用图像流作为通用动作表示综合长时计划,密集的流信息还为长时视频生成提供了丰富的指导。此外,合成的流和视频计划可以指导机器人执行的低层级控制策略的训练。在多种基准上的实验表明,FLIP能够提高长时视频计划合成的成功率和质量,并具有交互式世界模型的特性,为未来的工作开辟了更广泛的应用。视频演示可以在我们的网站上找到:https://nus-lins-lab.github.io/flipweb/。