LLM2D
ManipDreamer:通过动作树和视觉引导增强机器人 manipulation 世界模型
ManipDreamer: Boosting Robotic Manipulation World Model with Action Tree and Visual Guidance
作者: Ying Li, Xiaobao Wei, Xiaowei Chi, Yuming Li, Zhongyu Zhao, Hao Wang, Ningning Ma, Ming Lu, Shanghang Zhang
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.16464v1

摘要

arXiv:2504.16464v1 宣布类型: cross 摘要:尽管在机器手操作视频合成方面取得了最近的进步,但在确保有效指令遵循和实现高质量视觉效果方面仍存在重大挑战。最近的方法,如RoboDreamer,利用语言分解将指令分解为单独的低级原始操作,根据这些原始操作条件化世界模型,以实现组合指令遵循。然而,这些单独的原始操作并未考虑它们之间的关系。此外,最近的方法忽视了有价值的应用视觉指导,包括深度和语义指导,这些都是提高视觉质量至关重要的因素。本文提出了ManipDreamer,这是一种基于行动树和视觉指导的高级世界模型。为了更好地学习指令原始操作之间的关系,我们将指令表示为行动树,并为树节点分配嵌入,每个指令可以通过导航行动树来获得其嵌入。指令嵌入可以用来引导世界模型。为了提高视觉质量,我们通过引入与世界模型兼容的视觉指导适配器,将深度和语义指导结合起来。这个视觉适配器增强了视频生成的时间一致性和物理一致性。基于行动树和视觉指导,ManipDreamer显著提升了指令遵循能力和视觉质量。在机器人操作基准上的综合评估表明,与最近的RoboDreamer模型相比,在新任务中,ManipDreamer在视频质量度量上取得了巨大改进,峰值信噪比(PSNR)从19.55提升到21.05,结构相似性指数(SSIM)从0.7474提升到0.7982,在新任务中将流错误(Flow Error)从3.506减少到3.201。此外,我们的方法在平均6个RLbench任务中将机器人操作任务的成功率提高了2.5%。