LLM2D
CubeRobot:通过视觉语言模型在鲁米克魔方 manipulation 中实现语言 grounding
CubeRobot: Grounding Language in Rubik's Cube Manipulation via Vision-Language Model
作者: Feiyang Wang, Xiaomin Yu, Wangyu Wu
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19281v1

摘要

arXiv:2503.19281v1 声明类型: cross 摘要:证明魔方定理代表了人类空间想象和逻辑推理的一个重要里程碑。传统的魔方机器人依赖于复杂的视觉系统和固定的算法,往往难以适应复杂的动态场景。为克服这一限制,我们引入了CubeRobot,这是一种为了解决3x3魔方而特制的多模态视觉-语言模型(VLM),赋予了实体代理多模态的理解和执行能力。我们使用了包含多个层级任务(总共43个子任务)的CubeCoT图像数据集,这些任务即便是人类也无法处理,涵盖了各种魔方状态。我们引入了一种双重循环的VisionCoT架构和Memory Stream,这是一种从VLM生成的规划查询中提取任务相关特征的范式,从而使CubeRobot能够独立进行规划、决策、反思和分离管理高、低层级的魔方任务。此外,在低层级魔方修复任务中,CubeRobot的准确率达到100%,与中层级任务的100%准确率相同,并在高层级任务中达到了80%的准确率。