LLM2D

摘要

arXiv:2412.08261v2 宣布类型: replace-cross 摘要：我们旨在开发一种基于模型的规划框架，该框架能够随着模型和数据预算的增加进行扩展，并且仅通过语言和视觉输入即可实现通用任务的操纵。为此，我们提出了以流为中心的生成规划（FLIP），这是一种基于视觉空间的模型驱动规划算法，具备三个关键模块：1. 多模态流生成模型，作为通用动作提案模块；2. 流条件下的视频生成模型，作为动力学模块；3. 视觉-语言表示学习模型，作为价值模块。给定初始图像和语言指令作为目标，FLIP可以逐步搜索最大化折现回报的长时流和视频计划，以完成任务。FLIP能够使用图像流作为通用动作表示综合长时计划，密集的流信息还为长时视频生成提供了丰富的指导。此外，合成的流和视频计划可以指导机器人执行的低层级控制策略的训练。在多种基准上的实验表明，FLIP能够提高长时视频计划合成的成功率和质量，并具有交互式世界模型的特性，为未来的工作开辟了更广泛的应用。视频演示可以在我们的网站上找到：https://nus-lins-lab.github.io/flipweb/。