LLM2D

摘要

arXiv:2504.16464v1 宣布类型: cross 摘要：尽管在机器手操作视频合成方面取得了最近的进步，但在确保有效指令遵循和实现高质量视觉效果方面仍存在重大挑战。最近的方法，如RoboDreamer，利用语言分解将指令分解为单独的低级原始操作，根据这些原始操作条件化世界模型，以实现组合指令遵循。然而，这些单独的原始操作并未考虑它们之间的关系。此外，最近的方法忽视了有价值的应用视觉指导，包括深度和语义指导，这些都是提高视觉质量至关重要的因素。本文提出了ManipDreamer，这是一种基于行动树和视觉指导的高级世界模型。为了更好地学习指令原始操作之间的关系，我们将指令表示为行动树，并为树节点分配嵌入，每个指令可以通过导航行动树来获得其嵌入。指令嵌入可以用来引导世界模型。为了提高视觉质量，我们通过引入与世界模型兼容的视觉指导适配器，将深度和语义指导结合起来。这个视觉适配器增强了视频生成的时间一致性和物理一致性。基于行动树和视觉指导，ManipDreamer显著提升了指令遵循能力和视觉质量。在机器人操作基准上的综合评估表明，与最近的RoboDreamer模型相比，在新任务中，ManipDreamer在视频质量度量上取得了巨大改进，峰值信噪比（PSNR）从19.55提升到21.05，结构相似性指数（SSIM）从0.7474提升到0.7982，在新任务中将流错误（Flow Error）从3.506减少到3.201。此外，我们的方法在平均6个RLbench任务中将机器人操作任务的成功率提高了2.5%。